GPT-5.5 '9.7T Parámetros' Reevaluado: Revisado a Aproximadamente 1.5T

Según la monitorización de Beating, los investigadores de IA Lawrence Chan y Benno Sturgeon han publicado una revisión del artículo del Científico Jefe de Pine AI, Li Bojie, titulado ‘Sondas de Conocimiento Incompresible: Estimación del Número de Parámetros de Modelos de Lenguaje Grandes de Caja Negra Basada en la Capacidad de Hechos.’ El artículo original estimaba que GPT-5.5 tenía aproximadamente 9.7T, Claude Opus 4.7 alrededor de 4.0T, y o1 aproximadamente 3.5T usando 1,400 preguntas de trivialidades para ‘pesar’ los modelos de código cerrado. Los revisores creen que, aunque el enfoque en sí es valioso, las cifras originales estaban significativamente infladas debido a los criterios de puntuación y la calidad de las preguntas. El problema principal radica en la ‘puntuación mínima.’ El artículo original dividió las preguntas en siete niveles de dificultad, y cuando un modelo respondía demasiadas incorrectamente en un nivel determinado, la puntuación teóricamente podía volverse negativa; sin embargo, el código en realidad ajustaba la puntuación mínima de cada nivel a 0. Esto infló la brecha de rendimiento de los modelos de vanguardia en preguntas difíciles y aumentó aún más la estimación del número de parámetros. El artículo afirma que esto no se manejó de esa manera, pero el código y los resultados publicados emplearon este tratamiento. Después de eliminar la ‘puntuación mínima,’ la pendiente de ajuste disminuyó de 6.79 a 3.56. Esta pendiente puede entenderse como ‘por cada punto de aumento en la puntuación, cuánto se traduce en crecimiento de parámetros’; una pendiente menor indica que la misma diferencia de puntuación ya no corresponde a una diferencia de parámetros tan exagerada. El valor de R² cayó de 0.917 a 0.815, lo que indica que la curva de ajuste de ‘puntuación a número de parámetros’ no es tan estable como en el artículo original. El intervalo de predicción del 90% se amplió de 3.0 veces a 5.7 veces, sugiriendo un margen de error mayor y que las cifras de un solo punto no deben tomarse en serio. La revisión también señaló que 131 de las 1,400 preguntas tenían ambigüedades o respuestas incorrectas, lo que representa el 9.4%. Los problemas estaban principalmente concentrados en las preguntas difíciles, que se usaron para diferenciar modelos de código cerrado de vanguardia como GPT-5.5 y Claude Opus 4.7. Según sus criterios revisados, GPT-5.5 se redujo de las 9659B del artículo original a 1458B, con un intervalo de predicción del 90% de 256B a 8311B; Claude Opus 4.7 se redujo de 4042B a 1132B; y GPT-5 se redujo de 4088B a 1330B. Los revisores también enfatizaron que 1.5T no debe considerarse como el conteo real de parámetros para GPT-5.5. Una conclusión más precisa es que este ‘método de ponderación de trivialidades’ es muy sensible a los detalles de puntuación y la calidad de las preguntas, y cifras como 9.7T no pueden usarse directamente como medida de peso para modelos de código cerrado.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado