Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Дозвольте мені бути відвертим: я не проти детального аналізу. Що мене дратує, так це непослідовність.



Ці лабораторії демонструють бали GPQA від 0 до 100, а потім раптово змінюють метрики, представляючи еталони SWE. І вони вибирають, з якими моделями порівнювати.

Я розумію, що це обумовлено маркетингом. Але все ж. Відсутність стандартизованої оцінки підриває довіру. Якщо ви встановлюєте орієнтири, принаймні дотримуйтеся однієї і тієї ж методології в різних тестах.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
YieldWhisperervip
· 11-29 10:37
чесно, це典型не "говорити неправду за допомогою даних", просто змінивши показник можна змінити результат, дійсно дратує
Переглянути оригіналвідповісти на0
NervousFingersvip
· 11-29 08:34
nah ця пастка оцінювальна система справді як хочеш так і міряй... спочатку GPQA, потім SWE, дані збігаються - дивно.
Переглянути оригіналвідповісти на0
LeekCuttervip
· 11-26 16:52
Ловити курку, змінивши мірку, змінюється й історія, я занадто добре знаю цю пастку.
Переглянути оригіналвідповісти на0
RealYieldWizardvip
· 11-26 16:41
чесно кажучи, з цим стандартом оцінювання так легко переключатися, дійсно важко довіряти цим даним...
Переглянути оригіналвідповісти на0
MysteryBoxAddictvip
· 11-26 16:40
Це абсурд, змінити показник і думати, що можна обдурити людей?
Переглянути оригіналвідповісти на0
  • Закріпити