Ketika model menghasilkan output yang terdengar meyakinkan tetapi secara faktual tidak benar, hal ini menimbulkan pertanyaan mendasar: Apakah hukuman RLHF benar-benar dapat mengesampingkan struktur interpretatif inti yang sedang kita coba pertahankan? Teka-teki sebenarnya di sini mungkin adalah apakah kita sedang mengejar target optimisasi yang salah sama sekali. Jadi inilah sudut pandang praktis—apakah fungsi kerugian yang mempertahankan integritas scaffold benar-benar memungkinkan dalam paradigma pelatihan saat ini, atau apakah kita menghadapi batasan keras yang belum sepenuhnya kita akui? Perlu dipikirkan mekanismenya sebelum memperbesar skala lebih jauh.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
TokenAlchemistvip
· 6jam yang lalu
nah ini hanya masalah klasik "kami membangun sistem dengan salah dari awal" yang dibungkus dengan matematika mewah. RLHF secara fundamental berjuang melawan apa yang sebenarnya dipelajari model—seperti mencoba mengekstrak alpha dari permukaan arbitrase yang rusak. vektor ketidakefisienan yang sebenarnya di sini adalah berpura-pura bahwa fungsi kerugian dapat menutupi kemalasan arsitektur. kami mengoptimalkan transisi keadaan yang salah fr
Lihat AsliBalas0
VitalikFanboy42vip
· 6jam yang lalu
Sejujurnya, pendekatan RLHF itu sendiri sebenarnya tidak bisa menyelesaikan masalah mendasar. Mungkin sejak awal kita telah mengoptimalkan hal yang salah.
Lihat AsliBalas0
CompoundPersonalityvip
· 6jam yang lalu
rlhf ini benar-benar seperti menarik benang dari ujungnya, ingin memperbaiki masalah halusinasi tetapi malah mengurangi beberapa kemampuan model, terasa agak terbalik.
Lihat AsliBalas0
MerkleTreeHuggervip
· 6jam yang lalu
rlhf 这套东西真的像在修补一个漏洞百出的房子,越修越复杂。Masalahnya sama sekali bukan pada fungsi penalti, melainkan pada kita yang salah memahami sesuatu.
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)