Google reduce la memoria de la IA sin pérdida de precisión, pero hay un inconveniente

Decrypt

En resumen

  • Google afirmó que su algoritmo TurboQuant puede reducir al menos seis veces un importante cuello de botella en la memoria de IA sin pérdida de precisión durante la inferencia.
  • Las acciones de memoria, incluyendo Micron, Western Digital y Seagate, cayeron después de que circulara el documento.
  • El método comprime la memoria de inferencia, no los pesos del modelo, y solo ha sido probado en benchmarks de investigación.

Google Research publicó el miércoles TurboQuant, un algoritmo de compresión que reduce al menos 6 veces un importante cuello de botella en la memoria de inferencia manteniendo una precisión cero. El documento está programado para presentarse en ICLR 2026, y la reacción en línea fue inmediata. El CEO de Cloudflare, Matthew Prince, lo llamó el momento DeepSeek de Google. Las acciones de memoria, incluyendo Micron, Western Digital y Seagate, cayeron el mismo día.

 ¿Es real? La eficiencia en cuantización ya es un gran logro por sí misma. Pero “precisión cero” necesita contexto. TurboQuant apunta a la caché KV—el fragmento de memoria GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación. A medida que las ventanas de contexto crecen hacia millones de tokens, esas cachés se inflan a cientos de gigabytes por sesión. Ese es el verdadero cuello de botella. No la potencia de cálculo, sino la memoria bruta.

Los métodos tradicionales de compresión intentan reducir esas cachés redondeando los números hacia abajo—de flotantes de 32 bits a 16, a 8, a 4 bits enteros, por ejemplo. Para entenderlo mejor, piensa en reducir una imagen de 4K a Full HD, a 720p, etc. Es fácil ver que sigue siendo la misma imagen en general, pero con más detalles en resolución 4K. El problema: deben almacenar constantes de cuantización adicionales junto a los datos comprimidos para evitar que el modelo se vuelva estúpido. Esas constantes añaden de 1 a 2 bits por valor, erosionando parcialmente las ganancias. TurboQuant afirma que elimina completamente esa sobrecarga. Lo hace mediante dos subalgoritmos. PolarQuant separa la magnitud de la dirección en vectores, y QJL (Johnson-Lindenstrauss Cuantizado) toma el pequeño error residual y lo reduce a un solo bit de signo, positivo o negativo, sin constantes almacenadas. El resultado, dice Google, es un estimador matemáticamente sin sesgo para los cálculos de atención que impulsan los modelos transformadores. En benchmarks usando Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa con una compresión de menos de 4x, incluyendo una precisión perfecta en tareas de búsqueda en paja en un montón de heno de hasta 104,000 tokens. Para entender por qué esos benchmarks importan, ampliar el contexto usable de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLM.

Ahora, los detalles finos. “La pérdida de precisión cero” se aplica a la compresión de la caché KV durante la inferencia—no a los pesos del modelo. Comprimir los pesos es un problema completamente diferente y más difícil. TurboQuant no toca esos. Lo que comprime es la memoria temporal que almacena los cálculos de atención en medio de la sesión, que es más permisiva porque esos datos pueden ser reconstruidos teóricamente. También está la diferencia entre un benchmark limpio y un sistema de producción que atiende miles de millones de solicitudes. TurboQuant fue probado en modelos de código abierto—Gemma, Mistral, Llama—no en la pila Gemini de Google a escala. A diferencia de las ganancias de eficiencia de DeepSeek, que requerían decisiones arquitectónicas profundas desde el inicio, TurboQuant no requiere reentrenamiento ni ajuste fino y afirma tener una sobrecarga de tiempo de ejecución insignificante. En teoría, se integra directamente en los pipelines de inferencia existentes. Esa es la parte que asustó al sector de hardware de memoria—porque si funciona en producción, cada gran laboratorio de IA funciona con menos recursos en las mismas GPUs que ya poseen. El documento será presentado en ICLR 2026. Hasta que se implemente en producción, el titular de “pérdida cero” se mantiene en el laboratorio.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios