Згідно з глибоким аналітичним матеріалом автора Pedro Dias, опублікованим The Inference 21 квітня 2026 року, колапс моделей (model collapse) — це не «майбутня загроза», якої найбільше боїться індустрія. Він уже відбувається прямо зараз в іншій формі: AI-движки для відповідей у момент запиту користувача негайно цитують вебсторінки, згенеровані іншими AI, як авторитетні джерела. Увесь цикл забруднення не потребує повторного перенавчання моделей. Цей аргумент подано з основною метафорою: «змія, що кусає себе за хвіст (Ouroboros), навчилася посилатися на саму себе».
Ключові відмінності Model Collapse і Retrieval Contamination
Традиційні побоювання щодо погіршення якості AI-моделей зосереджені навколо model collapse: синтетичний контент поступово забруднює навчальні дані, а в наступних поколіннях моделей падає якість. Це ризик хронічний, який проявляється лише після багатьох раундів повторного тренування.
Попередження, яке висунув Pedro Dias, стосується іншого аспекту: retrieval contamination (забруднення через пошук/застосування). Персональні рушії відповідей на основі RAG (retrieval-augmented generation) — Perplexity, Google AI Overviews, ChatGPT, Grok тощо — під час постановки запитання користувачем у режимі реального часу витягують вміст вебсторінок як основу для відповіді. Якщо знайдена вебсторінка сама містить помилковий контент, згенерований AI, рушій подає його читачам як факт — і це забруднення не потребує жодного повторного перенавчання, щоб запрацювати миттєво.
Три реальні кейси: AI-платформи обманює вигадана інформація, яку вони ж і згенерували
Автор наводить три конкретні інциденти:
Інцидент Lily Ray: Perplexity колись посилалася на нібито оновлення Google-алгоритму під назвою «September 2025 Perspective Core Algorithm Update» як на авторитетну інформацію — цього оновлення взагалі не існувало, а джерелом був AI-згенерований SEO-блог-псевдоматеріал.
Тест Thomas Germain: журналіст Thomas Germain опублікував тестовий блог «найсильніший технологічний репортер про хот-доги», і менш ніж за 24 години його поставили на перше місце в Google AI Overviews та ChatGPT і процитували; також він вигадував неіснуючі «чемпіонати Південної Дакоти» як підтвердження.
Grokipedia: біографічний/енциклопедичний проєкт xAI під керівництвом Musk уже згенерував або переробив 885,279 статей, включно з хибними фактами (наприклад, неправильно вказана дата смерті батька канадської співачки Feist) та посиланнями без підстав. Grokipedia в середині лютого 2026 року вже втратила більшість видимості в Google.
Дослідження Oumi: у Gemini 3 вища точність, але 56% без джерел
Оцінювання, замовлене NYT у Oumi: точність Gemini 2 у SimpleQA — 85%, тоді як Gemini 3 підвищила її до 91%. Але в тому самому тесті показано, що 56% правильних відповідей Gemini 3 є «ungrounded» — модель відповіла правильно, проте не має перевірюваної підтримки з підтверджувальних джерел; для Gemini 2 цей показник становить 37%.
Це означає, що нові покоління моделей «точніші за формою» у відповідях, але водночас «гірші щодо відстежуваності джерел» для відповіді. У сценаріях на кшталт медіа, досліджень, фактчекінгу цей провал є небезпечнішим, ніж просто рівень помилок, оскільки читачі не можуть повернутися до первинних авторитетних документів і самостійно перевірити.
Масштаби індустрії: Google AI Overviews охоплюють 2 мільярди користувачів
Масштаб цієї проблеми забруднення: щомісячна аудиторія Google AI Overviews перевищує 2 мільярди, обсяг пошуку Google — понад 5 трильйонів запитів, а тижнева аудиторія ChatGPT майже 0,9 мільярда (50 мільйонів платників). Тобто переважна більшість користувачів інтернету отримує фактологічну інформацію через ті канали, які вже пройшли рівень «движків відповідей», де можливе забруднення, породжене AI-згенерованим контентом.
Додаткове дослідження Ahrefs показує: серед джерел, які цитує ChatGPT, 44% — це спискові матеріали типу «best X». Саме ці статті є тим типом AI-контенту, який SEO-індустрія масово продукує, щоб протидіяти відтоку трафіку, спричиненому рушіям відповідей, і який якраз формує основне джерело забруднення для цих рушіїв.
Структурний висновок: шар цитувань від’єднаний від надійної ідентичності автора
Остаточний висновок автора: шар цитувань у AI-движках для відповідей уже від’єднаний від надійної ідентичності авторів. SEO-індустрія виробляє AI-контент → рушії відповідей підхоплюють його як факти → читачі вірять → SEO-індустрія отримує мотивацію продовжувати генерувати ще більше AI-контенту, утворюючи самопідсилювальний цикл забруднення. На сьогодні у всій індустрії немає чіткого механізму відповідальності, який би змушував AI-движок відповідати за якість джерел, на які він посилається.
Для користувачів це означає, що на цьому етапі не можна сприймати відповіді Perplexity, AI Overviews і ChatGPT як кінцевий пункт для фактчекінгу; усе ще потрібно вручну повертатися до офіційних первинних джерел, щоб гарантувати точність.
Ця стаття «Колективне забруднення AI-движками відповідей: 56% правильних відповідей Gemini 3 не мають підтримки джерел» вперше з’явилася в 鏈新聞 ABMedia.
Пов'язані статті
Anthropic 派 Claude Mythos проходить 20 годин психіатричної оцінки: оборонна реакція лише 2%, встановлено історичний мінімум серед усіх поколінь
AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI
OpenAI Об’єднує Codex з Основною Моделлю, Починаючи з GPT-5.4, Припиняє Окрему Лінійку Кодування
Salesforce найматиме 1,000 випускників і стажерів для продуктів на базі ШІ, підвищує прогноз доходів на FY2026
Alibaba Cloud запускає Qwen-Image-2.0-Pro з уніфікованим перетворенням тексту в зображення та редагуванням, з підтримкою багатомовного відтворення тексту
API DeepSeek V4-Pro отримує 75% знижку до 5 травня, ціна на виході знижується до $0.87 за мільйон токенів