DeepSeek V4がPutnam-2025で満点120点を獲得、形式化数学推論はAxiomに匹敵

据动察 Beating 监测,DeepSeek V4 公布了两组形式化数学推理评测。Putnam(普特南竞赛)是北美最高水平本科数学竞赛。

在实用场景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基准上拿到 81.00 分,使用开源工具 LeanExplore 和受限采样。作为对比,Seed-2.0-Prover 为 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均为 26.50。

在前沿场景(Frontier Regime)下,V4 采用混合形式-非形式推理方案,先用 informal reasoning 生成候选自然语言解,经自我验证过滤后,再由 formal agent 在 Lean 中完成严格证明。V4 在 Putnam-2025 拿到 120/120 满分,与 Axiom 并列第一,高于 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿场景使用了大规模计算扩展,实用场景结果更能反映常规部署能力。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン