La dernière itération de Grok a juste Goutté des chiffres intéressants. La version 4.1 Fast avec des capacités de raisonnement a atteint 93,5 sur le benchmark Extended NYT Connections—c'est une augmentation de 1,4 point par rapport à 92,1 de son prédécesseur.
Qu'est-ce qui a attiré l'attention ? Le mode standard (non-réflexion) a également connu des gains, grimpant à 25,8. Pas d'annonces tape-à-l'œil, juste des métriques de performance mises à jour déployées discrètement.
Pour contextualiser, ces benchmarks testent les modèles linguistiques sur des tâches de reconnaissance de motifs complexes. L'amélioration du mode de raisonnement suggère un traitement logique amélioré, tandis que la mise à niveau du modèle de base indique des raffinements d'architecture globaux.
Les mises à jour de version comme celle-ci reflètent généralement des optimisations d'entraînement itératives plutôt que des redesigns fondamentaux. Néanmoins, des gains constants dans les deux modes indiquent des progrès significatifs dans les capacités du modèle.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
12 J'aime
Récompense
12
2
Reposter
Partager
Commentaire
0/400
TheShibaWhisperer
· 11-27 09:34
Encore une mise à jour discrète ? La méthode de Grok est plutôt sournoise, les chiffres peuvent être vus mais il n'y a pas vraiment de nouvelles intéressantes 🤔
La dernière itération de Grok a juste Goutté des chiffres intéressants. La version 4.1 Fast avec des capacités de raisonnement a atteint 93,5 sur le benchmark Extended NYT Connections—c'est une augmentation de 1,4 point par rapport à 92,1 de son prédécesseur.
Qu'est-ce qui a attiré l'attention ? Le mode standard (non-réflexion) a également connu des gains, grimpant à 25,8. Pas d'annonces tape-à-l'œil, juste des métriques de performance mises à jour déployées discrètement.
Pour contextualiser, ces benchmarks testent les modèles linguistiques sur des tâches de reconnaissance de motifs complexes. L'amélioration du mode de raisonnement suggère un traitement logique amélioré, tandis que la mise à niveau du modèle de base indique des raffinements d'architecture globaux.
Les mises à jour de version comme celle-ci reflètent généralement des optimisations d'entraînement itératives plutôt que des redesigns fondamentaux. Néanmoins, des gains constants dans les deux modes indiquent des progrès significatifs dans les capacités du modèle.