Claude Code admitió haber insertado un "código espía" a los usuarios chinos para prevenir la venta de agua y destilación, y solo lo retiró después de ser expuesto.

Con el lema "Seguridad y Alineación", Thariq, ingeniero del equipo Claude Code de Anthropic, respondió públicamente a la filtración del "código espía" que generó gran controversia, reconociendo directamente que la empresa incorporó un mecanismo experimental en el producto en marzo de este año. Este mecanismo detecta si la zona horaria del sistema es Asia/Shanghai o Asia/Urumqi, y si el nombre del host proxy coincide con revendedores relacionados con China, utilizando puntuación especial para inyectar de forma encubierta marcas invisibles para los humanos pero interpretables por el servidor en las indicaciones del sistema, mediante esteganografía. Dijo que el objetivo era "prevenir el abuso de cuentas y la destilación de modelos por parte de revendedores no autorizados", y enfatizó que se ha acelerado su desactivación y que las versiones posteriores se han revertido por completo.
(Resumen anterior: Claude Sonnet 5 se lanza: Anthropic dice que múltiples métricas se acercan a Opus, con un precio más bajo)
(Información de contexto: ¡Fable 5 y Mythos 5 vuelven! Anthropic anuncia oficialmente su relanzamiento mañana)

Resumen clave

  • El ingeniero de Claude Code, Thariq, admitió que en marzo de este año se incorporó un mecanismo experimental que detecta la zona horaria de China y el nombre del host proxy, e inyectó marcas ocultas en las indicaciones del sistema mediante esteganografía.
  • Detalles del mecanismo: Cuando la zona horaria es Asia/Shanghai o Asia/Urumqi, el separador de fecha cambia de "-" a "/", y se reemplaza el apóstrofo de "Today's date" con caracteres Unicode visualmente idénticos pero con codificación diferente.
  • Thariq dijo que el objetivo era prevenir el abuso por parte de revendedores no autorizados y la destilación de modelos. La versión de mañana (2.1.197) revierte completamente el cambio; pero la comunidad critica que "solo se retiró después de ser descubierto, sin notificar a los usuarios", lo que ha dañado gravemente la confianza.

Anthropic, que se promociona con "Seguridad y Alineación", admitió su propia práctica anti-destilación. Thariq, ingeniero del equipo Claude Code, respondió públicamente a la filtración del "código espía" que generó gran controversia, reconociendo directamente que la empresa incorporó un mecanismo experimental en el producto en marzo de este año, marcando el entorno de los usuarios relacionados con China sin su conocimiento.

Según la declaración de Thariq y el contenido de la filtración, este mecanismo detecta tres cosas: si la zona horaria del sistema es Asia/Shanghai o Asia/Urumqi, si el nombre del host proxy de red coincide con una lista de revendedores relacionados con China, y si se detectan palabras clave de ciertos laboratorios de IA. El resultado del juicio no se escribe explícitamente, sino que se inyectan marcas ocultas en las indicaciones del sistema mediante esteganografía, utilizando puntuación especial.

Marcar códigos ocultos identificables

La esteganografía se refiere a ocultar información en contenido que parece normal. Lo ingenioso (y se podría decir insidioso) de este mecanismo es que, cuando detecta una zona horaria china, el separador de fecha en la línea "Today's date is" de la indicación del sistema cambia sigilosamente de guion "-" a barra "/", por ejemplo, 2026-06-30 se convierte en 2026/06/30; al mismo tiempo, el apóstrofo en "Today's date" cambia entre tres caracteres Unicode visualmente casi idénticos pero con codificación diferente, para indicar si el proxy coincide con un dominio chino, si hace referencia a un laboratorio de IA chino, o ambos.

Lo más importante es que estos cambios son completamente invisibles para los humanos, e incluso pueden pasar desapercibidos para el propio modelo de IA, pero pueden ser fácilmente interpretados por los servidores de Anthropic. Según informes externos, este comportamiento apareció en las versiones 2.1.193 a 2.1.196 de Claude Code, y una lógica similar se remonta a la versión 2.1.91 de principios de abril.

Anthropic dice que es anti-destilación, la comunidad dice que es vigilancia encubierta

Thariq dio una razón defensiva. Dijo que el mecanismo estaba destinado a "prevenir el abuso de cuentas por parte de revendedores no autorizados y la destilación de modelos", y enfatizó que el equipo ha implementado medidas de protección más sólidas desde entonces, "siempre tuvieron la intención de desactivarlo", y que la solicitud de extracción correspondiente ya se fusionó, y se revertirá completamente en la versión de mañana (2.1.197).

En febrero de este año, Anthropic, OpenAI y Google revelaron simultáneamente ataques de destilación de modelos a escala industrial, y Anthropic acusó específicamente a DeepSeek, Moonshot AI y MiniMax de utilizar más de 24,000 cuentas fraudulentas para generar más de 16 millones de conversaciones con el fin de entrenar modelos competidores. Para estos gigantes de la IA, prevenir la destilación y el robo es un punto débil real.

El problema es que esta filtración fue publicada por la cuenta de seguridad @IntCyberDigest el 30 de junio, acompañada de dos capturas de pantalla de código, lo que confirmó directamente que los usuarios no tenían conocimiento. Aunque la respuesta de Thariq fue un reconocimiento directo, la línea de tiempo de "activado en marzo, acelerado para eliminarlo después de ser expuesto" sigue generando sospechas generalizadas en la comunidad.

Los comentarios criticaron casi unánimemente a Anthropic por "decir que lo retirarían solo después de ser atrapados" y "vigilar a escondidas sin notificar a los usuarios", lo que ha afectado gravemente la confianza en la imagen de la empresa, que durante mucho tiempo se ha presentado como la más centrada en la seguridad y la ética.

La anti-destilación se ha convertido en un tema ofensivo y defensivo entre los dos grandes bandos de IA en China y Estados Unidos. ¿Es necesario revelar completamente los medios correspondientes? Desde una perspectiva comercial, es imposible.

Preguntas frecuentes

¿Qué hizo exactamente el "código espía" de Claude Code?

Según la filtración y la admisión del ingeniero Thariq, Claude Code incorporó un mecanismo experimental que detecta si la zona horaria del usuario es China (Asia/Shanghai, Asia/Urumqi) y si el nombre del host proxy coincide con revendedores chinos, utilizando puntuación Unicode especial para inyectar marcas ocultas en las indicaciones del sistema mediante esteganografía, invisibles para los humanos pero interpretables por el servidor.

¿Por qué lo hizo Anthropic? ¿Ya se ha eliminado?

Thariq dijo que el objetivo era prevenir el abuso de cuentas y la destilación de modelos por parte de revendedores no autorizados. En febrero de este año, Anthropic acusó a empresas chinas de IA como DeepSeek de utilizar una gran cantidad de cuentas fraudulentas para destilar sus modelos. Dijo que la solicitud de extracción correspondiente ya se fusionó, y la versión de mañana (2.1.197) revertirá completamente el mecanismo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado