本月由 Lenz Research 的研究員 Kosta Jordanov 發表的一項研究發現,5 個前沿 AI 模型在 1,000 則真實世界的事實查核主張中,有 67% 的主張彼此意見不一致;只有 328 則主張出現一致同意。研究測試了 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search,以及 Sonar Pro,這些主張是由實際使用者提交至事實查核平台。這些模型的 Krippendorff's alpha 分數為 0.639,低於研究人員一般認為可靠的 0.8 閾值。儘管所有模型都使用相同的四標籤系統、針對相同主張進行評估(true、mostly true、misleading 或 false),它們仍出現分歧。隨著人們越來越依賴 AI 系統進行事實查核,這些發現凸顯出可靠性方面的疑慮。 Study Methodology Used Real User-Submitted Claims 該研究讓五個 AI 模型接受同樣的 1,000 則真實世界的事實查核主張,這些主張是由實際使用者提交的。模型必須從四個標籤中