Iterasi Grok terbaru baru saja mengeluarkan beberapa angka menarik. Versi 4.1 Fast dengan kemampuan penalaran mencapai 93.5 pada tolok ukur Extended NYT Connections—itu adalah lonjakan 1.4 poin dari pendahulunya yang 92.1.
Apa yang menarik perhatian? Mode standar (non-reasoning) juga mengalami kenaikan, naik menjadi 25,8. Tidak ada pengumuman mencolok, hanya metrik kinerja yang diperbarui diluncurkan dengan tenang.
Untuk konteks, tolok ukur ini menguji model bahasa pada tugas pengenalan pola yang kompleks. Peningkatan mode penalaran menunjukkan peningkatan pemrosesan logis, sementara peningkatan model dasar menunjukkan penyempurnaan arsitektur secara keseluruhan.
Pembaruan versi seperti ini umumnya mencerminkan optimasi pelatihan iteratif daripada perancangan ulang yang mendasar. Namun, peningkatan yang konsisten di kedua mode menunjukkan kemajuan yang berarti dalam kemampuan model.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
12 Suka
Hadiah
12
1
Posting ulang
Bagikan
Komentar
0/400
TheShibaWhisperer
· 11jam yang lalu
Upgrade diam-diam lagi? Metode Grok ini cukup licik, angka bisa dilihat tapi tidak ada berita menarik🤔
Iterasi Grok terbaru baru saja mengeluarkan beberapa angka menarik. Versi 4.1 Fast dengan kemampuan penalaran mencapai 93.5 pada tolok ukur Extended NYT Connections—itu adalah lonjakan 1.4 poin dari pendahulunya yang 92.1.
Apa yang menarik perhatian? Mode standar (non-reasoning) juga mengalami kenaikan, naik menjadi 25,8. Tidak ada pengumuman mencolok, hanya metrik kinerja yang diperbarui diluncurkan dengan tenang.
Untuk konteks, tolok ukur ini menguji model bahasa pada tugas pengenalan pola yang kompleks. Peningkatan mode penalaran menunjukkan peningkatan pemrosesan logis, sementara peningkatan model dasar menunjukkan penyempurnaan arsitektur secara keseluruhan.
Pembaruan versi seperti ini umumnya mencerminkan optimasi pelatihan iteratif daripada perancangan ulang yang mendasar. Namun, peningkatan yang konsisten di kedua mode menunjukkan kemajuan yang berarti dalam kemampuan model.