Son Grok iterasyonu bazı ilginç rakamlar açıkladı. 4.1 Hızlı versiyonu, akıl yürütme yetenekleri ile birlikte, Genişletilmiş NYT Bağlantıları benchmark'ında 93.5 puan aldı; bu, selefinin 92.1'inden 1.4 puanlık bir artış.

Neyi dikkat çekti? Standart mod ( mantıksızlık) ayrıca kazançlar gördü, 25.8'e tırmandı. Gösterişli duyurular yok, sadece güncellenmiş performans metrikleri sessizce yayımlandı.

Bağlam için, bu kıstaslar dil modellerini karmaşık model tanıma görevlerinde test ediyor. Akıl yürütme modunun gelişimi, geliştirilen mantıksal işlemeyi önerirken, temel modelin yükseltilmesi genel mimari iyileştirmelerini göstermektedir.

Bu tür sürüm güncellemeleri genellikle temel yeniden tasarımlar yerine iteratif eğitim optimizasyonlarını yansıtır. Yine de, her iki modda da tutarlı kazanımlar, modelin yeteneklerinde anlamlı bir ilerlemeye işaret ediyor.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

12 Likes