Kimi K2 Thinking menciptakan rekor baru dalam penilaian standar untuk menilai kemampuan penalaran, pengkodean, dan agen.

Data Jinshi 8 November, menurut situs resmi Shadow of the Moon, Kimi K2 Thinking mencatat rekor baru dalam penilaian standar kemampuan penalaran, pengkodean, dan agen. K2 Thinking meraih skor SOTA sebesar 44,9% dalam penilaian standar HLE, mencapai 60,2% dalam pengujian BrowseComp, dan 71,3% dalam pengujian SWE-Bench Verified, menunjukkan kemampuan generalisasi yang kuat sebagai model agen berpikir paling canggih.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Topik Terkait
#
ai
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)