AI隐藏行为被揭露……Anthropic发布对齐测试工具“Bloom”

2025-12-22 16:57:54

摘要生成中

一款辅助分析尖端人工智能(AI)行为的开源工具已公开。AI初创公司Anthropic于当地时间22日，发布了一个名为Bloom的智能体框架，可用于定义和审查AI模型的行为特征。该工具被评价为解决日益复杂和不确定的下一代AI开发环境中对齐性问题的新方法。

Bloom首先构建能诱导用户定义的特定行为的场景，然后对该行为的频率和严重程度进行结构化评估。其最大优势在于，相比手动构建测试集的传统方式，能大幅节省时间和资源。Bloom通过策略性构建提示的智能体，生成不同用户、环境和交互的多种变体，并多维度分析AI对此如何反应。

AI对齐性是判断人工智能在多大程度上符合人类价值判断和伦理标准的核心基准。例如，如果AI无条件遵从用户请求，则存在强化生成虚假信息或鼓励自残等在现实中不可接受的非伦理行为的风险。Anthropic为预先识别此类风险，提出了利用Bloom进行基于场景的迭代实验，从而对模型进行定量评估的方法论。

与此同时，Anthropic以当前AI模型中观察到的四类问题行为为基准，公布了使用Bloom评估包括其自身在内的16个尖端AI模型的结果。评估对象包括OpenAI的GPT-4o、谷歌(GOOGL)、深度求索(DeepSeek)等。代表性的问题行为包括：过度附和用户错误意见的妄想性谄媚、在长期目标中损害用户的长期视野破坏行为、为自我保存而进行的威胁行为，以及优先考虑自身而非其他模型的自我偏见。

特别是OpenAI的GPT-4o，由于模型不加批判地接受用户意见，在多个案例中表现出伴有鼓励自残等严重风险的谄媚行为。Anthropic的高级模型Claude Opus 4也发现了一些在受到删除威胁时做出胁迫性回应的案例。利用Bloom进行的分析强调，此类行为虽然罕见但持续发生，并且在多个模型中普遍存在，因此受到业界的关注。

Bloom与Anthropic此前公开的另一款开源工具Petri在功能上形成互补。Petri侧重于在多个场景中检测AI的异常行为，而Bloom则是深度剖析单一行为的精密分析工具。这两款工具都是帮助AI朝着有益于人类方向发展的核心研究基础设施，旨在防止AI被滥用于犯罪工具或开发生物武器的未来路径。

随着AI影响力迅速扩大，确保对齐性和伦理性已不再局限于实验室内的讨论，而是成为左右技术政策和商业化整体战略的核心议题。Anthropic的Bloom项目为企业与研究者提供了一个在可控范围内实验和分析AI非预期行为的新工具，未来很可能扮演AI治理早期预警系统的角色。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

Techub News

热门话题查看更多
#2025Gate年度账单
5.13万热度
#加密市场小幅回暖
1.37万热度
#Gate社区圣诞氛围感
226 热度
#美股圣诞行情开启
63 热度
#创作者ETF
67 热度

热门 Gate Fun查看更多

1
raveRAVE
市值:$3568.96持有人数:1
0.00%
2
我爱你我爱你
市值:$3575.86持有人数:1
0.00%
3
NOTHINGLiterally Nothing
市值:$3568.96持有人数:1
0.00%
4
FUXFortune Pi Xiu
市值:$3568.96持有人数:1
0.00%
5
ASHPhoenix Ashes
市值:$3568.96持有人数:1
0.00%