Последняя итерация Grok только что представила некоторые интересные цифры. Версия 4.1 Fast с возможностями рассуждения набрала 93.5 по расширенному бенчмарку NYT Connections — это увеличение на 1.4 пункта по сравнению с 92.1 у ее предшественника.

Что привлекло внимание? Стандартный режим (без-обоснования) также показал прирост, поднявшись до 25,8. Никаких ярких объявлений, просто обновленные показатели производительности были тихо выпущены.

Для контекста, эти эталоны тестируют языковые модели на сложных задачах распознавания паттернов. Улучшение режима рассуждений указывает на повышение логической обработки, в то время как обновление базовой модели свидетельствует о совершенствовании общей архитектуры.

Обновления версий, такие как это, обычно отражают итеративные оптимизации обучения, а не фундаментальные переработки. Тем не менее, последовательные достижения в обоих режимах указывают на значительный прогресс в возможностях модели.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

17 Лайков