Последняя итерация Grok только что представила некоторые интересные цифры. Версия 4.1 Fast с возможностями рассуждения набрала 93.5 по расширенному бенчмарку NYT Connections — это увеличение на 1.4 пункта по сравнению с 92.1 у ее предшественника.
Что привлекло внимание? Стандартный режим (без-обоснования) также показал прирост, поднявшись до 25,8. Никаких ярких объявлений, просто обновленные показатели производительности были тихо выпущены.
Для контекста, эти эталоны тестируют языковые модели на сложных задачах распознавания паттернов. Улучшение режима рассуждений указывает на повышение логической обработки, в то время как обновление базовой модели свидетельствует о совершенствовании общей архитектуры.
Обновления версий, такие как это, обычно отражают итеративные оптимизации обучения, а не фундаментальные переработки. Тем не менее, последовательные достижения в обоих режимах указывают на значительный прогресс в возможностях модели.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
17 Лайков
Награда
17
4
Репост
Поделиться
комментарий
0/400
UnluckyLemur
· 20ч назад
Цифры немного выросли, кажется, нет ничего серьезного?
Посмотреть ОригиналОтветить0
StablecoinAnxiety
· 11-29 00:32
Эта цифра растёт немного сдержанно, повышение на 1.4 пункта... Тихое обновление тоже просто отлично.
Посмотреть ОригиналОтветить0
TheShibaWhisperer
· 11-27 09:34
Снова тихо обновились? Приемы Grok довольно хитрые, цифры видны, но новостей нет никаких интересных 🤔
Последняя итерация Grok только что представила некоторые интересные цифры. Версия 4.1 Fast с возможностями рассуждения набрала 93.5 по расширенному бенчмарку NYT Connections — это увеличение на 1.4 пункта по сравнению с 92.1 у ее предшественника.
Что привлекло внимание? Стандартный режим (без-обоснования) также показал прирост, поднявшись до 25,8. Никаких ярких объявлений, просто обновленные показатели производительности были тихо выпущены.
Для контекста, эти эталоны тестируют языковые модели на сложных задачах распознавания паттернов. Улучшение режима рассуждений указывает на повышение логической обработки, в то время как обновление базовой модели свидетельствует о совершенствовании общей архитектуры.
Обновления версий, такие как это, обычно отражают итеративные оптимизации обучения, а не фундаментальные переработки. Тем не менее, последовательные достижения в обоих режимах указывают на значительный прогресс в возможностях модели.