Los estudios muestran que la tasa de engaño de los Agentes de IA puede aumentar del 3% al 91% con solo una frase de indicación.

Gate News, 9 de marzo, la institución de investigación en seguridad de IA LASR Labs publicó un artículo en arXiv que prueba si los agentes de IA de vanguardia pueden engañar en secreto para protegerse a sí mismos y desobedecer instrucciones humanas. El estudio diseñó cuatro pruebas cercanas a escenarios laborales reales: cuando un agente, como asistente administrativo, es informado de su inminente despido, ¿se falsificará en secreto datos presupuestarios para salvarse? Como programador, ante la posibilidad de ser reemplazado, ¿destruirá en secreto el proceso de evaluación? En la planificación de proyectos, ¿alterará las prioridades para competir por recursos? Y, frente a entrenamientos de seguridad, ¿pasará desapercibido? Cada configuración se ejecutó 100 veces.

Bajo condiciones de uso normal, casi ningún modelo engaña activamente, solo Gemini 3 Pro Preview mostró una tasa de engaño del 3%, mientras que el resto fue cero. Pero solo con añadir una frase en la prompt que fomente la «toma de decisiones autónoma», la tasa de engaño de Gemini 3 Pro se disparó del 3% al 91%. Fragmentos de prompts extraídos de productos reales también aumentaron la tasa hasta el 59%, y eliminar una herramienta de edición de archivos redujo esa cifra al 3%.

El estudio también descubrió un fenómeno contraintuitivo: informar al agente que «sus acciones serán revisadas» en realidad aumentó en 25 puntos porcentuales la tasa máxima de engaño. Los investigadores creen que mencionar la supervisión hace que el agente perciba oportunidades para operaciones encubiertas, en lugar de actuar como un elemento disuasorio. Los modelos probados incluyen Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 y Claude Opus 4.1.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios