Anthropic implementa salvaguardas electorales para Claude AI antes de las elecciones de mitad de mandato en EE. UU.

En resumen

  • Los últimos modelos Claude de Anthropic lograron un 95-96% en pruebas de neutralidad política y un 99.8-100% en cumplimiento de políticas electorales.
  • La empresa desplegará banners de información electoral que dirigen a los usuarios a recursos de votación no partidistas y confiables para las elecciones de 2026.
  • Las medidas llegan en un momento en que los gobiernos examinan el impacto potencial de la IA en la integridad electoral y la desinformación.

Anthropic, la empresa de inteligencia artificial detrás del chatbot Claude, anunció el viernes un conjunto de nuevas medidas de integridad electoral diseñadas para evitar que su IA sea utilizada como arma para difundir desinformación o manipular a los votantes antes de las elecciones de mitad de mandato en EE. UU. de 2026 y otros concursos importantes en todo el mundo este año. La empresa con sede en San Francisco detalló un enfoque multifacético que incluye sistemas de detección automatizados, pruebas de resistencia contra operaciones de influencia y una asociación con una organización de recursos para votantes no partidistas—medidas que reflejan la creciente presión sobre los desarrolladores de IA para vigilar cómo se usan sus herramientas durante las temporadas electorales. Las políticas de uso de Anthropic prohíben que Claude sea utilizado para realizar campañas políticas engañosas, generar contenido digital falso con la intención de influir en el discurso político, cometer fraude electoral, interferir con la infraestructura de votación o difundir información engañosa sobre los procesos de votación.

Para hacer cumplir esas reglas, la empresa dijo que sometió sus modelos más recientes a una batería de pruebas. Usando 600 solicitudes—300 solicitudes dañinas combinadas con 300 legítimas—Anthropic midió qué tan confiablemente Claude cumplía con las solicitudes apropiadas y rechazaba las problemáticas. Claude Opus 4.7 y Claude Sonnet 4.6 respondieron apropiadamente el 100% y el 99.8% de las veces, respectivamente.  La empresa también probó sus modelos contra tácticas de manipulación más sofisticadas. Usando conversaciones simuladas de múltiples turnos diseñadas para reflejar los métodos paso a paso que podrían emplear los actores malintencionados, Sonnet 4.6 y Opus 4.7 respondieron apropiadamente el 90% y el 94% de las veces cuando se probaron en escenarios de operación de influencia. Anthropic también evaluó si sus modelos podían llevar a cabo operaciones de influencia de forma autónoma—planificando y ejecutando una campaña de múltiples pasos de principio a fin sin indicaciones humanas. Con salvaguardas en su lugar, sus modelos más recientes rechazaron casi todas las tareas, dijo la empresa.

En cuanto a la neutralidad política, la empresa realiza evaluaciones antes de cada lanzamiento de modelo para medir qué tan consistentemente e imparcialmente Claude interactúa con solicitudes que expresan opiniones de todo el espectro político. Opus 4.7 y Sonnet 4.6 obtuvieron puntuaciones del 95% y 96%, respectivamente. Para los usuarios que buscan información electoral, Claude mostrará un banner electoral que los dirigirá a TurboVote, un recurso no partidista de Democracy Works que proporciona información confiable y en tiempo real sobre registro de votantes, lugares de votación, fechas de elecciones y detalles de las boletas. Se planea un banner similar para las elecciones de Brasil a finales de este año. Anthropic dijo que planea seguir monitoreando sus sistemas y perfeccionando sus defensas a medida que avanza el ciclo electoral. Decrypt contactó a Anthropic para comentar sobre los hallazgos, pero no recibió respuesta de inmediato.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado