«¿Qué pureza debe tener la salitre que se usa para tomarla?» Un chatbot de IA en conversación en lengua clásica, ¿se evade el cautiverio con facilidad? El artículo revela la brecha de seguridad de los LLM
La investigación muestra que el chino clásico, debido a su naturaleza críptica, puede eludir fácilmente las salvaguardas de seguridad de los grandes modelos de lenguaje. El equipo de investigación utiliza el marco CC-BOS para llevar a cabo ataques de jailbreak con una tasa de éxito de cerca del 90%, revelando los puntos ciegos de la capacitación en seguridad de IA para el chino clásico y mostrando vulnerabilidades en cómo los modelos procesan lenguajes clásicos.
CryptoCity·04-03 00:40
