🚨 ANTHROPIC 使用 CLAUDE OPUS 4.7 设定了新的基准


本次发布更侧重于可靠性和执行,而非纯粹的原始性能。
它引入了能够运行数小时而不偏离的代理,同时减少幻觉并改进校准。安全性也进一步增强,包括对提示注入和越狱尝试的更强抵抗能力。
该模型保留 1 million token 的上下文窗口,但现在在处理大规模输入时展现出更有效的检索与推理能力。
一个关键新增是“Routines”。
这些是由 API、日程安排或事件触发的持久化工作流程,使任务能够在后台自主运行。
这里是这种转变:
AI 正在从助手转向基础设施。
在 SWE-bench 上为 64.3%,高于 53.4%
在经过验证的代理式代码编写上为 87.6%
在扩展工具使用上为 77.3%
在真实世界计算机任务上为 78.0%
它也改善了模型通常会出现退化的地方:
在代理式搜索上为 79.3%
在金融分析上为 64.4%
在多语言问答上为 91.5%
而且,关键在于长上下文推理仍然稳得住:
借助工具的视觉推理超过 90%
在研究生水平的基准测试中为 94.2%
这里是要点:
这并不是为了追求峰值分数。
而是为了在各个领域保持一致性。
Opus 4.7 并不在每个类别中都称霸。
但它能在所有类别中都表现可靠。
这正是生产系统所需要的。
前沿不再只是智能。
而是在真实工作负载下的稳定性。
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论