Переход до тренування V4: OPD замінює гібридний RL, понад десять експертних моделей дистилюються в одну

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, методологія подальшого навчання DeepSeek V4 зазнала значних змін: етап змішаної RL у V3.2 був повністю замінений на On-Policy Distillation (OPD, онлайн-стратегічне дистиляція).

Новий процес складається з двох кроків. Перший, для областей математики, коду, агентів, слідування інструкціям тощо, на основі конвеєра V3.2 окремо тренують експертні моделі для кожної області, кожен експерт спочатку проходить донастройку, а потім використовує GRPO для підсиленого навчання. Другий крок — за допомогою багатьох вчителів OPD дистилюють можливості понад десяти експертів у єдину модель: студент на основі власних траєкторій генерує логіти для кожного вчителя, використовуючи зворотній KL-дивергенцію для повного логіту словника, і за допомогою вирівнювання логітів об’єднує ваги кількох експертів у єдине параметричне простір, уникаючи типових конфліктів можливостей при традиційному злитті ваг і змішаному RL.

У звіті також запропоновано Generative Reward Model (GRM, генеративна модель винагород): для задач, важко перевірити за допомогою правил, замість тренування традиційної скалярної моделі винагород, використовують навчання GRM на основі RL-даних, керованих рубриками, що дозволяє актору одночасно виконувати функції генерації та оцінки, і з невеликою кількістю різноманітних ручних позначок може узагальнюватися на складні задачі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити