Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

はっきり言わせてもらいますが、私は詳細な分析に反対しているわけではありません。私を悩ませるのは、一貫性のなさです。



これらのラボは、0から100までのGPQAスコアを示し、その後突然SWEベンチマークを提示する際に指標を切り替えます。そして、比較するモデルを選び抜いています。

マーケティング主導であることは理解しています。しかし、それでも。標準化された評価の欠如は信頼性を損ないます。ベンチマークを設定するのであれば、少なくとも異なるテスト間で方法論を一貫させるべきです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • リポスト
  • 共有
コメント
0/400
LeekCuttervip
· 11-26 16:52
鶏を捕まえろ、メジャーを変えれば物語も変わる、この罠は俺にはあまりにも馴染みすぎている。
原文表示返信0
RealYieldWizardvip
· 11-26 16:41
正直、この評価基準が自由に切り替えられるのは、本当にこれらのデータを信頼するのが難しいです...
原文表示返信0
MysteryBoxAddictvip
· 11-26 16:40
これはひどい、指標を変えただけで人を欺こうとするのか?
原文表示返信0
  • ピン