La investigación del MIT revela el mecanismo de expansión del rendimiento de los modelos de lenguaje grande, y por primera vez verifica experimentalmente el fenómeno de "superposición fuerte": la superposición de múltiples conceptos en la misma dimensión, donde el ruido de superposición conduce a errores. Se valida con modelos simplificados de Anthropic y modelos de código abierto: al duplicar el ancho, los errores se reducen a la mitad, con un índice de escala de aproximadamente 0.91. La investigación responde a dos preguntas: la expansión se detendrá cuando el ancho alcance el tamaño del vocabulario; en tareas de lenguaje natural, la distribución de frecuencia de palabras limita el espacio de expansión, pero las arquitecturas que fomentan la superposición pueden lograr un mejor rendimiento con la misma escala.

MeNews

2026-05-03 13:01:58

Generación de resúmenes en curso

AIMPACT Mensaje, 3 de mayo (UTC+8), investigadores del MIT revelan el mecanismo por el cual el rendimiento de los modelos de lenguaje grande se expande de manera confiable con la escala, proporcionando por primera vez una validación experimental del fenómeno de “superposición”. Los estudios descubren que los LLMs evaden las limitaciones de dimensión almacenando múltiples conceptos en la misma dimensión, y esta “superposición fuerte” permite que el modelo represente todos los conceptos simultáneamente, siendo la fuente de errores el ruido generado por la superposición. El equipo utilizó modelos simplificados de Anthropic y modelos de código abierto como OPT, GPT-2, Qwen2.5, Pythia, para verificar: al duplicar el ancho del modelo, los errores se reducen aproximadamente a la mitad, con un índice de escalado de 0.91, cercano al valor teórico de 1. La investigación responde a dos preguntas clave: la escalabilidad se detendrá cuando el ancho del modelo iguale el tamaño del vocabulario; en tareas de lenguaje natural, la distribución de frecuencia de palabras plana limita la aceleración del espacio, pero un diseño arquitectónico que fomente la superposición puede lograr un rendimiento superior con la misma escala.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
556.66K Popularidad
#
USSeeksStrategicBitcoinReserve
58.77M Popularidad
#
IsraelStrikesIranBTCPlunges
39.77K Popularidad
#
BitcoinETFOptionLimitQuadruples
1.03M Popularidad
#
#FedHoldsRateButDividesDeepen
43.95K Popularidad

Anclado

Investigadores del MIT revelan el mecanismo de superposición fuerte de los LLM: duplicar el ancho reduce aproximadamente a la mitad los errores

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado