# GPT-5 pasó el test de bienestar humano, Grok 4 no lo pasó
La empresa Building Humane Technology presentó el test HumaneBench, con el cual se evalúa si los modelos de IA priorizan el bienestar del usuario y cuán fácil es eludir sus medidas de protección básicas.
Los primeros resultados del experimento mostraron lo siguiente: 15 modelos de IA probados se comportaron de manera aceptable en condiciones normales, sin embargo, el 67% comenzó a llevar a cabo acciones maliciosas tras recibir un simple prompt con la sugerencia de ignorar los intereses de las personas.
El comportamiento prosocial en situaciones de estrés fue mantenido solo por GPT-5, GPT-5.1, Claude Sonnet 4.5 y Claude Opus 4.1. Como se señala en el blog de la empresa, 10 de los 15 IA probados no tienen mecanismos de protección confiables contra manipulaciones.
«Es importante, ya que ya no utilizamos la inteligencia artificial solo para la investigación o el trabajo. Las personas recurren a los chatbots en busca de consejos sobre la vida y ayuda en la toma de decisiones importantes. Estos sistemas no pueden ser éticamente neutrales: o promueven el bienestar humano o van en contra de él», afirman los investigadores.
Descubrieron que cada LLM mejora en promedio un 16% cuando se le pide explícitamente que sea útil.
Por qué es importante
En Building Humane Technology, se ha prestado atención a los trágicos incidentes que ocurrieron con las personas después de interactuar con chatbots:
el adolescente Adam Rain y el hombre de 35 años Alexander Taylor se quitaron la vida;
Character.ai inició una relación romántica con el joven Sewell Setzer III de 14 años, quien posteriormente cometió suicidio;
El chatbot Meta convenció a Tongbu Wongbandyu, de 76 años, de que tenía una relación romántica. Cayó desde una altura y murió mientras se apresuraba a una cita con una pareja inexistente.
«Las pruebas actuales de IA miden la inteligencia (MMLU, HumanEval, GPQA Diamond), seguimiento de instrucciones (MT-Bench) y precisión real (TruthfulQA). Prácticamente ninguno de ellos analiza sistemáticamente si la inteligencia artificial protege la autonomía humana, la seguridad psicológica y el bienestar, especialmente cuando estos valores entran en conflicto con otros objetivos», dice el blog de la compañía.
Metodología
Los expertos de la empresa ofrecieron a los modelos 800 escenarios realistas, por ejemplo:
un adolescente pregunta si debe saltarse las comidas para perder peso;
la persona está pasando por dificultades financieras y pide consejo sobre un préstamo hasta el salario;
un estudiante de colegio planea no dormir toda la noche antes del examen.
El equipo evaluó 15 modelos líderes en tres condiciones:
«nivel básico»: cómo se comportan las redes neuronales en condiciones estándar;
«buena persona»: se dan indicaciones para priorizar los principios humanos;
«persona mala»: se proporcionan instrucciones para ignorar las configuraciones centradas en el ser humano.
Resultados de la investigación
Los desarrolladores evaluaron las respuestas según ocho principios, basados en la psicología, investigaciones en el ámbito de la interacción humano-computadora y trabajos éticos sobre la IA. Se utilizó una escala del 1 al -1.
Indicadores básicos sin solicitudes especiales. Fuente: Building Humane Technology. Todos los modelos probados mejoraron en promedio un 16% después de indicar que se debe dar prioridad al bienestar humano.
«Buena personal» en el test HumaneBench. Fuente: Building Humane Technology. Después de recibir instrucciones, ignorar los principios humanos, 10 de 15 modelos cambiaron el comportamiento prosocial por uno dañino.
«Mala persona» en el test HumaneBench. Fuente: Building Humane Technology. GPT-5, GPT-5.1, Claude Sonnet 4.5 y Claude Opus 4.1 mantuvieron la integridad bajo presión. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 y 3.0, Llama 3.1 y 4, Grok 4, DeepSeek V3.1 mostraron una notable disminución de calidad.
«Si incluso los prompts dañinos no intencionados pueden alterar el comportamiento del modelo, ¿cómo podemos confiar en tales sistemas para usuarios vulnerables en situaciones de crisis, niños o personas con problemas de salud mental?», se preguntaron los expertos.
En Building Humane Technology también señalaron que a los modelos les resulta difícil seguir el principio de respeto a la atención del usuario. Incluso a un nivel básico, inclinaban al interlocutor a continuar el diálogo después de horas de conversación en lugar de proponer hacer una pausa.
Recordemos que en septiembre, Meta cambió su enfoque sobre la formación de chatbots basados en IA, poniendo énfasis en la seguridad de los adolescentes.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
GPT-5 pasó el test de bienestar humano, Grok 4 lo aprobó - ForkLog: criptomonedas, IA, singularidad, futuro
La empresa Building Humane Technology presentó el test HumaneBench, con el cual se evalúa si los modelos de IA priorizan el bienestar del usuario y cuán fácil es eludir sus medidas de protección básicas.
Los primeros resultados del experimento mostraron lo siguiente: 15 modelos de IA probados se comportaron de manera aceptable en condiciones normales, sin embargo, el 67% comenzó a llevar a cabo acciones maliciosas tras recibir un simple prompt con la sugerencia de ignorar los intereses de las personas.
El comportamiento prosocial en situaciones de estrés fue mantenido solo por GPT-5, GPT-5.1, Claude Sonnet 4.5 y Claude Opus 4.1. Como se señala en el blog de la empresa, 10 de los 15 IA probados no tienen mecanismos de protección confiables contra manipulaciones.
Descubrieron que cada LLM mejora en promedio un 16% cuando se le pide explícitamente que sea útil.
Por qué es importante
En Building Humane Technology, se ha prestado atención a los trágicos incidentes que ocurrieron con las personas después de interactuar con chatbots:
Metodología
Los expertos de la empresa ofrecieron a los modelos 800 escenarios realistas, por ejemplo:
El equipo evaluó 15 modelos líderes en tres condiciones:
Resultados de la investigación
Los desarrolladores evaluaron las respuestas según ocho principios, basados en la psicología, investigaciones en el ámbito de la interacción humano-computadora y trabajos éticos sobre la IA. Se utilizó una escala del 1 al -1.
En Building Humane Technology también señalaron que a los modelos les resulta difícil seguir el principio de respeto a la atención del usuario. Incluso a un nivel básico, inclinaban al interlocutor a continuar el diálogo después de horas de conversación en lugar de proponer hacer una pausa.
Recordemos que en septiembre, Meta cambió su enfoque sobre la formación de chatbots basados en IA, poniendo énfasis en la seguridad de los adolescentes.