本次发布更侧重于可靠性和执行，而非纯粹的原始性能。
它引入了能够运行数小时而不偏离的代理，同时减少幻觉并改进校准。安全性也进一步增强，包括对提示注入和越狱尝试的更强抵抗能力。
该模型保留 1 million token 的上下文窗口，但现在在处理大规模输入时展现出更有效的检索与推理能力。
一个关键新增是“Routines”。
这些是由 API、日程安排或事件触发的持久化工作流程，使任务能够在后台自主运行。
这里是这种转变：
AI 正在从助手转向基础设施。
在 SWE-bench 上为 64.3%，高于 53.4%
在经过验证的代理式代码编写上为 87.6%
在扩展工具使用上为 77.3%
在真实世界计算机任务上为 78.0%
它也改善了模型通常会出现退化的地方：
在代理式搜索上为 79.3%
在金融分析上为 64.4%
在多语言问答上为 91.5%
而且，关键在于长上下文推理仍然稳得住：
借助工具的视觉推理超过 90%
在研究生水平的基准测试中为 94.2%
这里是要点：
这并不是为了追求峰值分数。
而是为了在各个领域保持一致性。
Opus 4.7 并不在每个类别中都称霸。
但它能在所有类别中都表现可靠。
这正是生产系统所需要的。
前沿不再只是智能。
而是在真实工作负载下的稳定性。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
GatePreIPOs首发SpaceX
15.56万热度
#
Gate13周年现场直击
42.34万热度
#
美伊局势和谈与增兵博弈
77.51万热度
#
加密市场回升
9.89万热度
#
WCTC交易赛瓜分800万USDT
62.63万热度

🚨 ANTHROPIC 使用 CLAUDE OPUS 4.7 设定了新的基准

热门话题

GatePreIPOs首发SpaceX

Gate13周年现场直击

美伊局势和谈与增兵博弈

加密市场回升

WCTC交易赛瓜分800万USDT

置顶