La última iteración de Grok acaba de Soltar algunos números interesantes. La versión 4.1 Rápido con capacidades de razonamiento alcanzó 93.5 en el benchmark Extendida NYT Connections—eso es un aumento de 1.4 puntos respecto al 92.1 de su predecesor.
¿Qué llamó la atención? El modo estándar (sin razonamiento) también vio ganancias, subiendo a 25.8. Sin anuncios llamativos, solo métricas de rendimiento actualizadas que se lanzaron discretamente.
Para dar contexto, estos benchmarks evalúan modelos de lenguaje en tareas complejas de reconocimiento de patrones. La mejora en el modo de razonamiento sugiere un procesamiento lógico mejorado, mientras que la actualización del modelo base indica refinamientos generales en la arquitectura.
Las actualizaciones de versión como esta suelen reflejar optimizaciones de entrenamiento iterativas en lugar de rediseños fundamentales. Aun así, las ganancias consistentes en ambos modos apuntan a un progreso significativo en las capacidades del modelo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
12 me gusta
Recompensa
12
2
Republicar
Compartir
Comentar
0/400
TheShibaWhisperer
· 11-27 09:34
¿Otra actualización a escondidas? El método de Grok es bastante astuto, se pueden ver los números pero no hay nada interesante en las noticias 🤔
La última iteración de Grok acaba de Soltar algunos números interesantes. La versión 4.1 Rápido con capacidades de razonamiento alcanzó 93.5 en el benchmark Extendida NYT Connections—eso es un aumento de 1.4 puntos respecto al 92.1 de su predecesor.
¿Qué llamó la atención? El modo estándar (sin razonamiento) también vio ganancias, subiendo a 25.8. Sin anuncios llamativos, solo métricas de rendimiento actualizadas que se lanzaron discretamente.
Para dar contexto, estos benchmarks evalúan modelos de lenguaje en tareas complejas de reconocimiento de patrones. La mejora en el modo de razonamiento sugiere un procesamiento lógico mejorado, mientras que la actualización del modelo base indica refinamientos generales en la arquitectura.
Las actualizaciones de versión como esta suelen reflejar optimizaciones de entrenamiento iterativas en lugar de rediseños fundamentales. Aun así, las ganancias consistentes en ambos modos apuntan a un progreso significativo en las capacidades del modelo.