2026-05-29 17:32:16
五个前沿 AI 模型在最新研究中对 67% 的事实核查主张存在分歧
据 Lenz Research 的研究员 Kosta Jordanov 称,本月测试的 1,000 条真实世界事实核查指称中,5 个前沿 AI 模型在 67% 的指称上存在分歧。模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search,以及 Sonar Pro——被要求将指称分类为真、基本真、误导或假。在 34% 的案例中,分歧十分严重:一 个模型将某项指称判为真,而另一个模型将其标记为假。 该研究使用 Krippendorff's alpha 来衡量一致性,得分为 0.639;在该量表中,1.0 表示完全一致;研究人员通常认为低于 0.8 的分数较弱。只有 1,000 条指称中的 328 条出现了完全一致的情况,值得注意的是,零 条指称获得了“一般为真”的一致裁定。研究人员使用真实用户提交的指称,来自 Lenz 的事实核查平台,而非标准基准,从而降低了模型对训练数据进行模式匹配的可能性。