Коли моделі генерують правдоподібно звучащі, але фактично неправильні результати, постає фундаментальне питання: чи можуть штрафи RLHF дійсно переважити основні інтерпретативні структури, які ми намагаємося зберегти? Реальна загадка тут може полягати в тому, чи ми взагалі переслідуємо неправильні цілі оптимізації. Тож ось практичний аспект — чи можливо функції втрат, що підтримують цілісність скелету, у поточній парадигмі навчання, або ж ми стикаємося з жорсткими обмеженнями, які ще не повністю усвідомлюємо? Варто обдумати механіку перед подальшим масштабуванням.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
7 лайків
Нагородити
7
4
Репост
Поділіться
Прокоментувати
0/400
TokenAlchemist
· 17год тому
ні, це просто класична проблема «ми неправильно побудували систему з нуля», обгорнута у гарну математику. RLHF по суті бореться з тим, що модель насправді вивчила — ніби намагаючись отримати альфу з зламаної арбітражної поверхні. справжній вектор неефективності тут — це імітація того, що функції втрат можуть приховати архітектурну лінивство. ми оптимізуємо неправильні переходи стану fr
Переглянути оригіналвідповісти на0
VitalikFanboy42
· 17год тому
Чесно кажучи, система RLHF зовсім не вирішує корінь проблеми. Можливо, з самого початку ми оптимізували щось неправильно.
Переглянути оригіналвідповісти на0
CompoundPersonality
· 17год тому
rlhf ця система дійсно нагадує ситуацію, коли намагаєшся виправити проблему галюцинацій, але в результаті позбавляєш модель деяких її можливостей, що здається дещо хибним підходом.
Переглянути оригіналвідповісти на0
MerkleTreeHugger
· 17год тому
rlhf ця система дійсно нагадує ремонт будинку з безліччю дірок: чим більше ремонтуєш, тим складніше стає. Проблема зовсім не у функції штрафу, а в тому, що ми щось зробили неправильно.
Коли моделі генерують правдоподібно звучащі, але фактично неправильні результати, постає фундаментальне питання: чи можуть штрафи RLHF дійсно переважити основні інтерпретативні структури, які ми намагаємося зберегти? Реальна загадка тут може полягати в тому, чи ми взагалі переслідуємо неправильні цілі оптимізації. Тож ось практичний аспект — чи можливо функції втрат, що підтримують цілісність скелету, у поточній парадигмі навчання, або ж ми стикаємося з жорсткими обмеженнями, які ще не повністю усвідомлюємо? Варто обдумати механіку перед подальшим масштабуванням.