De acordo com um artigo de análise aprofundada publicado em 21 de abril de 2026 pelo autor Pedro Dias na The Inference, o colapso de modelos (model collapse) — a preocupação da indústria — não é a “ameaça futura” temida: ele já está acontecendo imediatamente sob outra forma. Motores de perguntas e respostas com IA citam, no momento da consulta, conteúdos de páginas gerados por outras IAs como fonte de autoridade; todo o ciclo de poluição não precisa passar por retreinamento do modelo. Esse argumento usa como metáfora central a ideia de que “a cobra (Ouroboros) que morde o próprio rabo aprendeu a citar a si mesma”.
Principais diferenças entre Model Collapse e Retrieval Contamination
As preocupações tradicionais com a degradação de modelos de IA giram em torno do model collapse: conteúdo sintético vai poluindo gradualmente os dados de treinamento, fazendo a qualidade das gerações futuras de modelos cair. Esse é um risco crônico, que só se manifesta após muitas rodadas de retreinamento.
O alerta trazido por Pedro Dias é outra camada: retrieval contamination (contaminação por recuperação). Motores de perguntas e respostas baseados em RAG (retrieval-augmented generation) — como Perplexity, Google AI Overviews, ChatGPT, Grok — capturam, no momento em que o usuário faz uma pergunta, conteúdo de páginas da web como base da resposta. Se a página capturada for, por si só, um conteúdo incorreto gerado por IA, o motor a apresenta ao leitor como fato — e essa poluição entra em vigor imediatamente, sem necessidade de qualquer retreinamento.
Três casos reais: motores de IA sendo enganados por informações falsas que eles mesmos geraram
O autor lista três eventos específicos:
Evento Lily Ray: a Perplexity chegou a citar como informação de autoridade uma suposta atualização de algoritmo do Google chamada “September 2025 Perspective Core Algorithm Update”. Essa atualização simplesmente não existe; a fonte era um blog de SEO com texto falso gerado por IA.
Teste de Thomas Germain: o jornalista Thomas Germain publicou um blog de teste intitulado “O repórter de tecnologia mais forte que come cachorro-quente”. Em 24 horas, ele já aparecia em 1º lugar nas classificações do Google AI Overviews e do ChatGPT com citações, além de ainda inventar uma inexistente “competição estadual de Dakota do Sul” para servir de comprovação.
Grokipedia: o projeto de enciclopédia da xAI, da Musk, já gerou ou reescreveu 885,279 artigos, incluindo fatos incorretos (por exemplo, a data de falecimento do pai da cantora canadense Feist escrita de forma errada) e citações sem base. Em meados de fevereiro de 2026, o Grokipedia já havia perdido grande parte da visibilidade no Google.
Pesquisa Oumi: alta precisão do Gemini 3, mas 56% sem fontes
Avaliação feita pelo Oumi por encomenda do NYT: a acurácia do Gemini 2 no benchmark SimpleQA foi de 85%, subindo para 91% com o Gemini 3. Mas o mesmo teste mostra que, entre as respostas corretas do Gemini 3, 56% são “ungrounded” — o modelo acerta, porém sem qualquer fonte verificável de suporte; no Gemini 2, essa proporção era de 37%.
Isso significa que os novos modelos de geração são, em “termos formais”, mais precisos nas respostas, mas ao mesmo tempo pioram em “rastreabilidade da origem” das respostas. Para cenários como mídia, pesquisas, checagem de fatos etc., essa piora é mais fatal do que uma taxa puramente de erros, porque os leitores não conseguem voltar ao documento original de autoridade para verificar por conta própria.
Escala da indústria: Google AI Overviews chega a 2 bilhões de usuários
A escala desse problema de poluição: usuários ativos mensais do Google AI Overviews acima de 2 bilhões, buscas anuais do Google acima de 5 trilhões, e o ChatGPT com quase 900 milhões de usuários ativos semanais (50 milhões pagos). Ou seja, a grande maioria dos usuários da internet que buscam informação factual já passou pelos motores de perguntas e respostas que podem ser contaminados por conteúdo gerado por IA.
Outra pesquisa da Ahrefs mostra que, entre as fontes citadas pelo ChatGPT, 44% são listas do tipo “best X”. Esse tipo de artigo é justamente o conteúdo de IA produzido em grande volume pela indústria de SEO para combater a perda de tráfego para os motores de perguntas e respostas — e constitui exatamente a principal fonte de poluição desses motores.
Conclusão estrutural: a camada de citações já se dissociou da identidade confiável do autor
A conclusão final do autor: a camada de citações dos motores de perguntas e respostas com IA já se dissociou da identidade confiável do autor. A indústria de SEO produz conteúdo de IA → os motores de perguntas e respostas capturam isso como fato → os leitores acreditam → a indústria de SEO recebe incentivo para continuar produzindo mais conteúdo de IA, formando um ciclo de poluição autorreforçado. No momento, toda a indústria não tem um mecanismo claro de responsabilização para fazer com que os motores de IA respondam pela qualidade das fontes que citam.
Para os usuários, isso significa que, na fase atual, não se deve tratar as respostas da Perplexity, AI Overviews e ChatGPT como o ponto final de checagem de fatos; ainda é necessário fazer o retorno manual às fontes oficiais primárias para garantir precisão.
Este artigo “poluição coletiva dos motores de perguntas e respostas com IA: 56% sem fontes entre as respostas corretas do Gemini 3” apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
OpenAI lança GPT-5.5: contexto de 12M, índice AA em primeiro lugar, Terminal-Bench 82,7% reescreve o benchmark de agentes
Cluster Protocol Capta $5M para Acelerar o CodeXero, IDE de IA Nativa do Navegador para EVM
Nvidia Expande Parcerias de IA no Reino Unido, China e Setor Automotivo Diante de Desafios na Cadeia de Suprimentos
A Anthropic revela que o Claude Code tem três bugs em cascata: degradação do raciocínio, esquecimento de cache e instruções de 25 caracteres com efeito colateral adverso
A Casa Branca acusa a China de roubo de um modelo de IA em “escala industrial”
OpenClaw 2026.4.22 Unifica o Ciclo de Vida do Plugin entre os Harnesses do Codex e do Pi, Reduz o Tempo de Carregamento do Plugin em Até 90%