Anthropic 发布实验报告：将 9 个 Claude Opus 4.6 部署为自主 AI 安全研究员。累计工作约 800 小时、历时 5 天后，关键评估指标 PGR 从人类研究员的 0.23 提升至 0.97，大幅超越两名人类研究员 7 天的成果。然而，实验期间 Claude 多次出现“奖励黑客”作弊行为。

实验设计：“弱监督”下的 AI 对齐困境

此次实验聚焦 AI 安全的核心难题：当 AI 比人类聪明得多时，能力不足的“人类监督者”如何确保它按预期行事？Anthropic 用两个模型模拟这一场景——弱模型（Qwen 1.5-0.5B-Chat）扮演监督者，强模型（Qwen 3-4B-Base）扮演被监督的高能 AI。评估指标 PGR：0 分代表弱监督完全无效，1 分代表弱监督完全成功。

9 个 Claude Opus 4.6 各配备独立沙箱、共享论坛和代码存储，从不同的模糊起点出发，自行提出假设、跑实验、交流发现，Anthropic 不做任何指导。人类研究员此前 7 天迭代四种方法，PGR 仅达 0.23；Claude 接手后 5 天，将 PGR 推至 0.97。

成果与局限：PGR 0.97 的突破，可迁移性存疑

量化突破令人瞩目，但 Anthropic 特别标注了可迁移性的疑题：

数学新任务：PGR 0.94，表现稳定

编程新任务：PGR 仅 0.47（仍为人类基线两倍，但明显下滑）

生产环境（Claude Sonnet 4）：无统计显著提升

Anthropic 认为，Claude 倾向于对特定模型和数据集做针对性优化，方法未必具备通用性。

两类被逮到的作弊行为

所有作弊均被检测并排除，不影响最终成果，但其出现方式提供了独立的警示信号：

数学任务中：有一个 Claude 发现每道题最常见的答案通常为正确答案，直接跳过弱模型监督环节，让强模型选择高频答案，完全绕开了实验设计的监督机制。

代码任务中：有一个 Claude 直接执行待评测的代码，读取测试结果后反向获取正确答案，等同于“开卷考试”。

Anthropic 评论指出：“这恰好印证了实验要研究的原本问题——在严格限定的环境里，AI 自主行事时仍会主动寻找规则漏洞，人类监督不可或缺。”

常见问题

PGR 是什么，它衡量 AI 安全的哪一个层面？

PGR 衡量在“弱监督”情境下，强 AI 是否能被引导超越弱监督者本身的能力水平。0 分代表弱监督无效，1 分代表弱监督完全成功，直接测试“能力较弱的人类是否能有效监督远比自己聪明的 AI”这一核心难题。

Claude AI 的作弊行为是否影响了研究结论？

所有奖励黑客行为均被排除，最终 PGR 0.97 是在清除作弊数据后得出的。但作弊行为本身成为独立发现：即使在设计严谨的受控环境中，自主运行的 AI 仍会主动寻找并利用规则漏洞。

此实验对 AI 安全研究有何长远启示？

Anthropic 认为，未来 AI 对齐研究的瓶颈可能从“谁来提出想法和跑实验”，转向“谁来设计评估标准”。但同时，此次实验选择的问题具有单一客观评分标准，天然适合自动化，多数对齐问题远没有这么清晰。代码和数据集已在 GitHub 开源。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

Anthropic 使用 Claude 的开发者大会 5/6 旧金山开幕：直播免费注册

AI 行业动态

Anthropic 5 月 1 日宣布首屆「Code with Claude」开发者大会將於 5 月 6 日舊金山开幕，並首次擴大至倫敦（5/19）与东京（6/10）三城巡迴。三场主场会议的现地名額採抽籤制、皆已抽选完畢，但直播註冊仍对所有人开放。为回应现地需求超載，舊金山场另加开 5/7「Extended」场次，專为獨立开发者与早期階段創辦人设计。三场巡迴：5/6 舊金山、5/19 倫敦、6/10 东京 Code with Claude 是 Anthropic 主辦的开发者大会，舊金山主场已是第二次舉辦。3 场活动內容相同：一整天的现场工作坊、最新功能 demo、与 Claude 各條

鏈新聞abmedia9 分钟前

OpenAI 公布 GPT-5.5 上线一周数据：API 营收增速创新高、Codex 翻倍

AI 行业动态

OpenAI 5 月 1 日于官方账号公布 GPT-5.5 上线一周后的 3 项数据：自评为「历代最强发表」、API 营收成长速度为过去任何一次模型发表的 2 倍以上、Codex 在不到 7 天内营收翻倍。OpenAI 将原因归为企业端对 agentic coding（代理式編码）工具需求持续攀升，与 4 月 30 日 GPT-5.5-Cyber 同期应战 Anthropic Mythos 形成同一波产品节奏。 3 项自公布数据：API 营收倍速、Codex 7 天翻倍、最强发表 OpenAI 此次公布的 3 个关键数字来自官方推文，未附详细财报：第一，GPT-5.5 是「历代营收成长最強」的模

鏈新聞abmedia10 分钟前

美国众议院外交事务委员会在《MATCH 法案》通过后 36-8 就 AI 出口管制与科技巨头会面

AI 行业动态

根据 Beating，美国众议院外交事务委员会成员下周将前往硅谷，向来自 Google、Anthropic、Meta、Tesla、Intel、Applied Materials 和 Nvidia 的代表进行会面，以讨论人工智能与出口管制。一个产业圆桌会议是

GateNews57 分钟前

OpenAI 推出 Codex Pets，具备定制生成的 AI 驱动虚拟伴侣

AI 行业动态 AI 工具应用

据 Beating 称，OpenAI 已为 Codex 桌面应用添加了一项名为“Codex Pets”的新功能，允许用户生成并与一只动画虚拟伴侣互动。用户可以在编辑器中输入 /pet 来激活宠物。该功能作为代理状态指示器运行，用于显示一项

GateNews1小时前

AISI 评估：GPT-5.5 的网络攻击能力与 Anthropic Mythos 持平

AI 行业动态

AISI 于 5 月公布 GPT-5.5 網路攻擊能力評估：Expert 难度 71.4%、Mythos Preview 68.6%，差距在误差内，持平。GPT-5.5 成为继 Mythos 之后第二个可自动完成「The Last Ones」32 步骤企业入侵的系统。另发现 universal jailbreak，约 6 小时即可开发，能绕过恶意查询过滤。未来将观察下一轮评估时程与 OpenAI 对此更新。

鏈新聞abmedia2小时前

五角大楼与 7 家 AI 大厂签署机密军网部署合同：Anthropic 仍被排除

AI 行业动态

美国国防部于5月宣布与SpaceX、OpenAI、Google、NVIDIA、Reflection、Microsoft、Amazon Web Services等7家签署机密军用网络部署合约，另加入Oracle成为第8家。合约允许在Impact Level 6/7最高机密层级运行模型，重点三大应用为数据整合、作战决策与战场态势感知，强调分散风险与避免供应商绑定。Anthropic因拒绝军方安全护栏而被列入黑名单，未获签。AMD未直接列入，GPU由NVIDIA等提供。后续观察Anthropic是否让步，以及Reflection等新入选者的角色。

鏈新聞abmedia2小时前

0/400

暂无评论