The Inference 2026 年 4 月 21 日に刊出された Pedro Dias による深い分析文によれば、AI モデルの崩壊(model collapse)は、業界が懸念する「将来の脅威」ではありません――それは別の形で、すでに即時に起きています。AI 答題エンジンが、問い合わせのその瞬間に他の AI が生成した Web ページの内容を権威情報として即座に引用し、汚染の循環はモデルの再学習(リトレーニング)を経る必要すらありません。この論点は「自分の尾を咬む蛇(Ouroboros)が自分を引用することを学んだ」というコアの比喩を軸にしています。
Model Collapse と Retrieval Contamination の重要な差異
従来の AI モデルの劣化に対する懸念は model collapse に焦点を当てています。合成コンテンツが訓練データを徐々に汚染し、将来世代のモデル品質が低下するというものです。これは慢性的で、複数ラウンドの再学習を経て初めて顕在化するリスクです。
Pedro Dias が提示した警鐘は、別の次元の問題です――retrieval contamination(検 retrieved 汚染)。Perplexity、Google AI Overviews、ChatGPT、Grok などの RAG(retrieval-augmented generation:検索拡張生成)をベースにした答題エンジンは、ユーザーの質問のその瞬間に Web ページの内容を即座に取得し、回答の根拠として提示します。もし取得した Web ページ自体が AI 生成の誤った内容であれば、エンジンはそれを事実として読者に提示します――しかも、この汚染は、いかなる再学習も必要とせず即時に効いてしまいます。
3つの実例:AI エンジンが自ら生成した誤情報に騙される
著者は3つの具体的な出来事を挙げています:
1、Lily Ray 事件:Perplexity は「September 2025 Perspective Core Algorithm Update」という、いわゆる Google のアルゴリズム更新を権威情報として引用したことがありました――しかしこの更新はそもそも存在しません。出どころは AI 生成の SEO ブログ記事によるフェイクです。
2、Thomas Germain の実測:記者 Thomas Germain は、検証用ブログ「ホットドッグ最強のテック記者」を投稿しましたが、24時間以内に Google AI Overviews と ChatGPT によって1位に挙げられ、引用されました。さらに存在しない「南ダコタ州選手権(南達科他州錦標賽)」を裏付けとしてでっち上げました。
3、Grokipedia:Musk 傘下の xAI の百科事典計画が、生成または改稿した記事は 885,279 本にのぼり、その中には誤った事実(たとえばカナダの歌手 Feist の父の死亡日が誤っている)や根拠のない引用が含まれています。Grokipedia は 2026 年 2 月中旬の時点で、Google 上の可視性の大部分を失っています。
Oumi の研究:Gemini 3 は正確率が高いが、56% は出典なし
NYT の委託により Oumi が行った評価:Gemini 2 の SimpleQA ベンチマークでの正答率は 85%、Gemini 3 は 91% まで向上しました。けれど同一のテストでは、Gemini 3 の正しい回答のうち 56% は「ungrounded」(モデルは正解だが検証可能な裏付けとなる出典がない)であることが示されています。Gemini 2 のこの割合は 37% です。
これは、新世代モデルが回答を「形式上より正確」にする一方で、「回答の出典の追跡可能性」では後退していることを意味します。メディア、研究、ファクトチェックなどの場面では、この後退は単なる誤り率以上に致命的です。なぜなら読者が原初の権威文書へさかのぼって自分で検証できないからです。
業界規模:Google AI Overviews は 20 億ユーザーをカバー
この汚染問題の業界規模:Google AI Overviews の月間アクティブユーザーは 20 億超、Google の年次検索回数は 5 兆回超、ChatGPT の週次アクティブは 9 億に近い(5,000 万の有料)。つまり、ほとんどのネット利用者が事実情報を得る経路は、すでに「AI 生成コンテンツに汚染されうる」答題エンジンというレイヤーを通過済みなのです。
Ahrefs の別の研究によれば、ChatGPT が引用している出典のうち 44% は「best X」型のランキング記事です。こうした記事は、答題エンジンによる流入喪失に対抗するために SEO 業界が大量に生産している AI コンテンツそのものです。まさに答題エンジンの主要な汚染源として構成されています。
構造的な結論:引用レイヤーは信頼できる著者の身元と切り離された
著者の最終的な主張:AI 答題エンジンの引用レイヤーは、すでに信頼できる著者の身元と切り離されています。SEO 業が AI コンテンツを生産 → 答題エンジンがそれを事実として拾う → 読者が信じる → SEO 業がインセンティブを得て、さらに AI コンテンツを生産し続ける――こうして自己強化型の汚染循環が形成されます。現時点で、AI エンジンが自分で引用したソースの品質に対して責任を負うことを明確に担保する問責メカニズムは、産業全体として存在していません。
ユーザーにとって、これは現段階では Perplexity、AI Overviews、ChatGPT の回答をファクトチェックの最終地点だとみなしてはならない、ということを意味します。正確性を確保するためには、依然として公式の一次ソースへ人手で遡る必要があります。
この記事「AI 答題エンジンの集団的な汚染:Gemini 3 の正しい回答のうち 56% は出典なし」は 最初に 鏈新聞 ABMedia に掲載されました。
関連記事
Judge Dismisses Fraud Claims in Elon Musk's OpenAI Lawsuit; Case Advances to Trial with Two Remaining Allegations
GoogleはAnthropicに400億ドルを追加投資:まず100億ドルを前払いし、業績に応じて300億ドルを放出。5GWのTPU計算リソースも配分