Дозвольте мені бути відвертим: я не проти детального аналізу. Що мене дратує, так це непослідовність.
Ці лабораторії демонструють бали GPQA від 0 до 100, а потім раптово змінюють метрики, представляючи еталони SWE. І вони вибирають, з якими моделями порівнювати.
Я розумію, що це обумовлено маркетингом. Але все ж. Відсутність стандартизованої оцінки підриває довіру. Якщо ви встановлюєте орієнтири, принаймні дотримуйтеся однієї і тієї ж методології в різних тестах.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
11 лайків
Нагородити
11
5
Репост
Поділіться
Прокоментувати
0/400
YieldWhisperer
· 11-29 10:37
чесно, це典型не "говорити неправду за допомогою даних", просто змінивши показник можна змінити результат, дійсно дратує
Переглянути оригіналвідповісти на0
NervousFingers
· 11-29 08:34
nah ця пастка оцінювальна система справді як хочеш так і міряй... спочатку GPQA, потім SWE, дані збігаються - дивно.
Переглянути оригіналвідповісти на0
LeekCutter
· 11-26 16:52
Ловити курку, змінивши мірку, змінюється й історія, я занадто добре знаю цю пастку.
Переглянути оригіналвідповісти на0
RealYieldWizard
· 11-26 16:41
чесно кажучи, з цим стандартом оцінювання так легко переключатися, дійсно важко довіряти цим даним...
Переглянути оригіналвідповісти на0
MysteryBoxAddict
· 11-26 16:40
Це абсурд, змінити показник і думати, що можна обдурити людей?
Дозвольте мені бути відвертим: я не проти детального аналізу. Що мене дратує, так це непослідовність.
Ці лабораторії демонструють бали GPQA від 0 до 100, а потім раптово змінюють метрики, представляючи еталони SWE. І вони вибирають, з якими моделями порівнювати.
Я розумію, що це обумовлено маркетингом. Але все ж. Відсутність стандартизованої оцінки підриває довіру. Якщо ви встановлюєте орієнтири, принаймні дотримуйтеся однієї і тієї ж методології в різних тестах.