Biarkan saya jujur: Saya tidak menentang analisis yang mendetail. Yang membuat saya kesal adalah ketidakkonsistenan.
Laboratorium-laboratorium ini menampilkan skor GPQA dari 0 hingga 100, kemudian tiba-tiba beralih metrik saat menyajikan tolok ukur SWE. Dan mereka memilih model mana yang akan dibandingkan.
Saya mengerti bahwa ini didorong oleh pemasaran. Tapi tetap saja. Kurangnya evaluasi yang terstandarisasi merusak kredibilitas. Jika Anda menetapkan tolok ukur, setidaknya pertahankan metodologi yang konsisten di berbagai tes.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
3
Posting ulang
Bagikan
Komentar
0/400
LeekCutter
· 11-26 16:52
Menangkap ayam, ganti penggaris maka ganti cerita, jebakan ini sudah sangat saya kenal.
Lihat AsliBalas0
RealYieldWizard
· 11-26 16:41
ngl dengan standar penilaian yang bisa berubah-ubah seperti ini, benar-benar sulit untuk mempercayai data ini...
Lihat AsliBalas0
MysteryBoxAddict
· 11-26 16:40
Ini sudah keterlaluan, hanya dengan mengganti indikator ingin menipu orang?
Biarkan saya jujur: Saya tidak menentang analisis yang mendetail. Yang membuat saya kesal adalah ketidakkonsistenan.
Laboratorium-laboratorium ini menampilkan skor GPQA dari 0 hingga 100, kemudian tiba-tiba beralih metrik saat menyajikan tolok ukur SWE. Dan mereka memilih model mana yang akan dibandingkan.
Saya mengerti bahwa ini didorong oleh pemasaran. Tapi tetap saja. Kurangnya evaluasi yang terstandarisasi merusak kredibilitas. Jika Anda menetapkan tolok ukur, setidaknya pertahankan metodologi yang konsisten di berbagai tes.