Dec tens of millions of errors per hour, investigation reveals the "illusion of accuracy" in Google AI search

robot
Generación de resúmenes en curso

Autor: Claude, Deep Tide TechFlow

Deep Tide Guía de lectura: La última prueba conjunta del New York Times y la startup de IA Oumi muestra que la precisión de las resúmenes de IA en las búsquedas de Google (AI Overviews) es aproximadamente del 91%, pero considerando que Google procesa 5 billones de búsquedas al año, esto significa que cada hora se generan decenas de millones de respuestas incorrectas. Lo más problemático es que, incluso cuando la respuesta es correcta, más de la mitad de los enlaces citados no respaldan la conclusión.

Google está entregando a los usuarios información errónea a una escala sin precedentes, y la mayoría de las personas no lo saben.

Según el New York Times, la startup de IA Oumi, en respuesta a una solicitud, utilizó la prueba estándar de la industria SimpleQA desarrollada por OpenAI para evaluar la precisión de la función AI Overviews de Google. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (después de la actualización a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era aproximadamente del 85%, y Gemini 3 aumentó al 91%.

El 91% suena bien, pero en la escala de Google es otra historia. Google procesa aproximadamente 5 billones de búsquedas al año, y con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi 1 millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más inquietante que la precisión es el problema de la «desanclaje» de las fuentes citadas.

Los datos de Oumi muestran que, en la era Gemini 2, el 37% de las respuestas correctas tenían el problema de «citas sin fundamento», es decir, los enlaces adjuntos en los resúmenes de IA no respaldaban la información proporcionada. Tras la actualización a Gemini 3, esta proporción no disminuyó, sino que aumentó al 56%. En otras palabras, el modelo da respuestas correctas, pero cada vez menos «entrega la tarea».

La duda de Manos Koukoumidis, CEO de Oumi, apunta directamente al problema central: «Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo verificas?»

El uso de fuentes de baja calidad en los AI Overviews agrava este problema. Oumi descubrió que Facebook y Reddit son las segunda y cuarta mayores fuentes citadas en AI Overviews. En las respuestas inexactas, Facebook se cita en un 7%, por encima del 5% en las respuestas precisas.

Un artículo falso de un periodista de BBC, «envenenó» en 24 horas

Otra grave deficiencia de AI Overviews es su alta vulnerabilidad a la manipulación.

Un periodista de BBC realizó una prueba con un artículo falso deliberadamente inventado, y en menos de 24 horas, el resumen de Google presentó la información falsa como si fuera un hecho.

Esto significa que cualquier persona que entienda cómo funciona el sistema puede «envenenar» los resultados de búsqueda publicando contenido falso y aumentando su tráfico. El portavoz de Google, Ned Adriance, respondió que la función de IA en las búsquedas se basa en los mismos mecanismos de clasificación y seguridad que se usan para bloquear spam, y afirmó que «la mayoría de los ejemplos en las pruebas son consultas poco realistas que la gente no suele buscar».

Google contraataca: las pruebas en sí mismas tienen problemas

Google planteó varias dudas sobre el estudio de Oumi. Un portavoz de Google afirmó que el estudio «tiene graves fallos», incluyendo que: la prueba de referencia SimpleQA contiene información inexacta; Oumi usa su propio modelo de IA, HallOumi, para evaluar el rendimiento de otra IA, lo que puede introducir errores adicionales; y que el contenido de la prueba no refleja el comportamiento real de los usuarios en las búsquedas.

Las pruebas internas de Google también muestran que, cuando Gemini 3 funciona de forma independiente del marco de búsqueda de Google, la proporción de salidas falsas alcanza el 28%. Sin embargo, Google enfatiza que AI Overviews, apoyándose en el sistema de clasificación de resultados, mejora la precisión y supera al propio modelo.

Pero, como señala PCMag, existe una paradoja lógica: si tu argumento de defensa es «el informe que señala que nuestra IA no es precisa también usa una IA potencialmente inexacta», esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado