Investigadores del MIT revelan el mecanismo de superposición fuerte de los LLM: duplicar el ancho reduce aproximadamente a la mitad los errores

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 3 de mayo (UTC+8), investigadores del MIT revelan el mecanismo por el cual el rendimiento de los modelos de lenguaje grande se expande de manera confiable con la escala, proporcionando por primera vez una validación experimental del fenómeno de “superposición”. Los estudios descubren que los LLMs evaden las limitaciones de dimensión almacenando múltiples conceptos en la misma dimensión, y esta “superposición fuerte” permite que el modelo represente todos los conceptos simultáneamente, siendo la fuente de errores el ruido generado por la superposición. El equipo utilizó modelos simplificados de Anthropic y modelos de código abierto como OPT, GPT-2, Qwen2.5, Pythia, para verificar: al duplicar el ancho del modelo, los errores se reducen aproximadamente a la mitad, con un índice de escalado de 0.91, cercano al valor teórico de 1. La investigación responde a dos preguntas clave: la escalabilidad se detendrá cuando el ancho del modelo iguale el tamaño del vocabulario; en tareas de lenguaje natural, la distribución de frecuencia de palabras plana limita la aceleración del espacio, pero un diseño arquitectónico que fomente la superposición puede lograr un rendimiento superior con la misma escala.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado