Dezenas de milhões de erros por hora, investigação revela a "ilusão de precisão" na pesquisa de IA do Google

robot
Geração de resumo em curso

Autor: Claude, Deep Tide TechFlow

Leitura rápida do Deep Tide: Uma avaliação recente da startup de IA Oumi, em parceria com o The New York Times, mostra que a funcionalidade de Resumos de IA (AI Overviews) do Google tem uma precisão de aproximadamente 91%, mas considerando o volume de 5 trilhões de buscas processadas pelo Google por ano, isso significa que milhões de respostas incorretas são geradas a cada hora. Ainda mais preocupante é que, mesmo quando a resposta está correta, mais da metade dos links de referência não sustentam a conclusão apresentada.

O Google está entregando informações incorretas aos usuários em uma escala sem precedentes, e a maioria das pessoas nem percebe.

Segundo o The New York Times, a startup de IA Oumi, sob encomenda, utilizou o teste padrão do setor SimpleQA, desenvolvido pela OpenAI, para avaliar a precisão da funcionalidade AI Overviews do Google. O teste cobriu 4326 consultas de pesquisa, realizadas em duas rodadas: em outubro do ano passado (com o motor Gemini 2) e em fevereiro deste ano (após a atualização para Gemini 3). Os resultados mostraram que a precisão do Gemini 2 era de cerca de 85%, enquanto o Gemini 3 aumentou para 91%.

91% parece bom, mas, considerando a escala do Google, é uma história completamente diferente. Com aproximadamente 5 trilhões de buscas por ano, uma taxa de erro de 9% significa que o AI Overviews gera mais de 57 milhões de respostas imprecisas por hora, quase 1 milhão por minuto.

A resposta está correta, mas a fonte é errada

Mais preocupante do que a taxa de precisão é o problema do “desalinhamento” das fontes citadas.

Dados da Oumi mostram que, na era Gemini 2, 37% das respostas corretas apresentavam o problema de “citações sem fundamento”, ou seja, os links anexados ao resumo de IA não apoiavam as informações fornecidas. Após a atualização para Gemini 3, essa proporção aumentou para 56%. Em outras palavras, o modelo, ao fornecer respostas corretas, cada vez menos “entrega o dever de casa”.

O questionamento direto do CEO da Oumi, Manos Koukoumidis, aponta para o núcleo da questão: “Mesmo que a resposta esteja certa, como você sabe que ela está certa? Como verificar?”

O problema do AI Overviews, que cita fontes de baixa qualidade, agrava essa questão. A Oumi descobriu que o Facebook e o Reddit são, respectivamente, a segunda e a quarta maiores fontes citadas pelo AI Overviews. Entre as respostas imprecisas, o Facebook foi citado em 7% dos casos, acima dos 5% nas respostas corretas.

Um artigo falso de um jornalista da BBC, “envenenado” em 24 horas

Outra falha grave do AI Overviews é sua vulnerabilidade à manipulação.

Um jornalista da BBC realizou um teste com um artigo falso, deliberadamente criado, e em menos de 24 horas, o resumo de IA do Google passou a apresentar as informações falsas como fatos para os usuários.

Isso significa que qualquer pessoa que compreenda o funcionamento do sistema pode “envenená-lo” ao publicar conteúdo falso e aumentar seu tráfego. O porta-voz do Google, Ned Adriance, respondeu que a funcionalidade de IA de pesquisa é baseada nos mesmos mecanismos de classificação e segurança usados para bloquear spam, e afirmou que “a maioria dos exemplos no teste são consultas irreais que as pessoas normalmente não fariam”.

Google rebate: o próprio teste tem problemas

O Google levantou várias críticas ao estudo da Oumi. Um porta-voz afirmou que a pesquisa “tem graves falhas”, incluindo: o próprio benchmark SimpleQA contém informações imprecisas; a Oumi usa seu próprio modelo de IA, HallOumi, para avaliar o desempenho de outro IA, o que pode introduzir erros adicionais; o conteúdo do teste não reflete o comportamento real de busca dos usuários.

Testes internos do Google também indicaram que, quando o Gemini 3 opera de forma independente do sistema de busca do Google, a proporção de saídas falsas chega a 28%. No entanto, o Google enfatiza que o AI Overviews usa o sistema de classificação de resultados de busca para melhorar a precisão, superando o desempenho do próprio modelo.

Porém, como apontado na análise do PCMag, há uma contradição lógica: se sua justificativa é “o relatório que aponta nossas imprecisões também usa IA potencialmente imprecisa”, isso provavelmente não aumenta a confiança dos usuários na precisão do seu produto.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar