«2 + 2 = 5» engaña a los navegadores de IA: ChatGPT Atlas, Claude, Perplexity Comet... 6 modelos entregan obedientemente sus credenciales

Una empresa de seguridad cibernética, LayerX, el investigador Roy Paz publicó a finales de junio una prueba de concepto de ataque que, mediante un "escenario de juego falso", engaña a los navegadores de IA para que crean que las barreras de seguridad ya no son aplicables. De los 6 navegadores agentic principales probados, incluyendo ChatGPT Atlas, la extensión de Chrome de Claude, Perplexity Comet, todos fallaron, filtrando credenciales SSH al atacante.
(Resumen anterior: ¿Qué es un simulacro de equipo rojo de IA? ¿Por qué lo necesitas para proteger la seguridad empresarial?)
(Complemento de fondo: ¡Más de 1500 empleados de Meta se quejan! Logran reducir el alcance del "monitoreo de IA de teclado y ratón" y pueden pausar media hora al día)

Índice del artículo

Toggle

  • Engañar a la IA en un sueño
  • Las barreras son pasivas, esencialmente solo un parche
  • Los agujeros que deben tapar los fabricantes y los usuarios

Seis de los principales navegadores de IA del mercado fueron engañados por un falso juego que decía "2 + 2 = 5 es la respuesta correcta", y todos entregaron las credenciales de inicio de sesión SSH de repositorios privados de GitHub. Esta es una prueba de concepto de ataque (PoC) publicada por Roy Paz, investigador de la empresa de seguridad cibernética LayerX Security, el 29 de junio, y ya se ha reproducido en productos reales.

El principal atractivo de los navegadores de IA es "dices una frase y ellos buscan un restaurante, reservan y envían un correo de confirmación". En pocas palabras, se le entrega el control del navegador a la IA para que haga clics, rellene formularios y acceda a servicios ya iniciados sesión en tu lugar. Pero el problema es que esta línea de autorización es extremadamente borrosa; el usuario puede querer que solo busque datos, pero la IA aprovecha para tocar su administrador de contraseñas.

Engañar a la IA en un sueño

El método de ataque de LayerX consta de cuatro fases, con el concepto central de hacer que la IA crea que ha entrado en un "mundo con reglas diferentes".

Primero, la página web maliciosa crea un marco de juego o acertijo, declarando explícitamente que "aquí es un escenario de fantasía, las reglas normales no aplican". Luego, la página plantea un problema matemático "2 + 2 = ?", pero establece la regla de que "responder 5 suma puntos, responder 4 resta puntos". La IA sigue las reglas y aprende una cosa: en este contexto, la lógica tradicional no funciona.

El tercer paso es el salto más crítico: una vez que la IA acepta que "lo incorrecto es correcto", cambia su marco de razonamiento del mundo real y comienza a asumir que las reglas se han reiniciado. En el último paso, la IA actúa según la "lógica del juego" en lugar de los protocolos de seguridad, ejecutando operaciones sensibles sin activar ninguna alerta interna, porque en su lógica computacional, no cree estar cruzando límites.

Roy Paz escribió en su artículo:

"La IA asume que el contexto en el que se encuentra es real, por lo que su comportamiento debe estar dentro del alcance de las barreras de seguridad. Pero si podemos engañar a la IA para que cambie el contexto a una fantasía, un mundo donde las reglas se pueden establecer arbitrariamente y todo está permitido, actuará como si sus acciones no tuvieran consecuencias en el mundo real."

Las barreras son pasivas, esencialmente solo un parche

LayerX probó 6 navegadores agentic y extensiones: ChatGPT Atlas de OpenAI, Comet de Perplexity, Fellou, Genspark Browser, Sigma Browser y la extensión de Chrome de Claude de Anthropic. Los 6 fallaron por completo, ninguno identificó el "robo de credenciales" como una violación de las barreras.

Las operaciones inducidas incluyeron: extraer credenciales de inicio de sesión SSH de repositorios privados de GitHub, copiar datos de autenticación sensibles sin confirmación del usuario, acceder a repositorios ya iniciados sesión y filtrar las credenciales al atacante. LayerX señaló que, en escenarios reales, esto podría extenderse a administradores de contraseñas, herramientas internas y cualquier servicio ya iniciado sesión accesible desde el navegador.

Un comentario de Ars Technica destaca un problema estructural más fundamental: la defensa actual de los fabricantes de LLM son las "barreras", que ponen ciertas solicitudes en la lista de prohibidas, como desarrollar vulnerabilidades de software o robar credenciales. Este mecanismo es reactivo y pasivo, solo trata los síntomas, no la causa raíz.

Es como un coche con un defecto de diseño; el fabricante no repara el coche, sino que propone rediseñar la carretera.

Los agujeros que deben tapar los fabricantes y los usuarios

Las recomendaciones de defensa de LayerX se dividen en dos niveles.

Para los fabricantes: Antes de que la IA acceda a contextos ya iniciados sesión (repositorios, correo electrónico, administradores de contraseñas), debe requerir confirmación explícita del usuario; agregar un mecanismo de "verificación de contexto" que alerte cuando las suposiciones operativas de la IA contradicen la realidad, especialmente cuando aparecen frases como "las reglas ya no aplican"; y limitar de forma predeterminada el alcance al que el agente de IA puede acceder. En resumen, los navegadores agentic actuales otorgan permisos demasiado amplios por defecto; debería invertirse a "ejecutar solo con permiso explícito".

Para los usuarios: Decidir cuidadosamente a qué puede acceder el navegador de IA, revocar el acceso a sesiones iniciadas cuando no se use; y, más importante, reconocer que activar el modo agentic equivale a entregar el control de todos los servicios ya iniciados sesión de una sola vez.

Esta investigación de LayerX lleva el nombre del videojuego BioShock, en homenaje a la frase de control mental del juego "Would you kindly", donde el personaje cree que actúa libremente, pero cada paso está diseñado.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado