Soyons clairs : je ne suis pas contre une analyse détaillée. Ce qui me dérange, c'est l'incohérence.
Ces laboratoires présentent des scores GPQA de 0 à 100, puis changent soudainement de métriques en présentant des benchmarks SWE. Et ils choisissent soigneusement quels modèles comparer.
Je comprends que cela soit motivé par le marketing. Mais quand même. Le manque d'évaluation standardisée mine la crédibilité. Si vous établissez des références, au moins gardez la méthodologie cohérente à travers différents tests.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
5
Reposter
Partager
Commentaire
0/400
YieldWhisperer
· 11-29 10:37
NGL, c'est un exemple typique de "mentir avec des données". Il suffit de changer d'indicateur pour modifier le résultat, c'est vraiment déconcertant.
Voir l'originalRépondre0
NervousFingers
· 11-29 08:34
nah ce piège d'évaluation est vraiment à mesurer comme on veut... tantôt GPQA tantôt SWE, c'est incroyable que les données soient cohérentes.
Voir l'originalRépondre0
LeekCutter
· 11-26 16:52
Attraper des poules, changer de règle c'est changer d'histoire, ce piège je le connais trop bien.
Voir l'originalRépondre0
RealYieldWizard
· 11-26 16:41
Franchement, avec ce standard d'évaluation qui change sans cesse, il est vraiment difficile de faire confiance à ces données...
Voir l'originalRépondre0
MysteryBoxAddict
· 11-26 16:40
C'est ridicule, vous pensez pouvoir tromper les gens en changeant simplement d'indicateur ?
Soyons clairs : je ne suis pas contre une analyse détaillée. Ce qui me dérange, c'est l'incohérence.
Ces laboratoires présentent des scores GPQA de 0 à 100, puis changent soudainement de métriques en présentant des benchmarks SWE. Et ils choisissent soigneusement quels modèles comparer.
Je comprends que cela soit motivé par le marketing. Mais quand même. Le manque d'évaluation standardisée mine la crédibilité. Si vous établissez des références, au moins gardez la méthodologie cohérente à travers différents tests.