Beating监測 показує, що DeepSeek V4 використовує On-Policy Distillation (OPD) замість гібридного RL V3.2. Процес складається з двох кроків: перший — навчання експертних моделей у сферах математики, коду, агента та слідування інструкціям на основі конвеєра V3.2, з подальшою тонкою настройкою за допомогою GRPO RL; другий — багатотестерний OPD, де понад десять експертів дистилюються у єдину модель, студент виконує зворотню KL-логіти на самостійно згенерованих траєкторіях для кожного вчителя, досягаючи узгодження та об’єднання у єдині параметри, уникаючи конфлікту між об’єднанням ваг та гібридним RL. Також запропоновано GRM (генеративну модель винагороди), яка навчається за допомогою RL-даних, керованих рубрикою, щоб актор одночасно генерував та оцінював, забезпечуючи узагальнення за допомогою невеликої кількості різноманітних позначок.

BlockBeatNews

2026-04-24 04:20:37

Генерація анотацій у процесі

Згідно з моніторингом Beating, методологія подальшого навчання DeepSeek V4 зазнала значних змін: етап змішаної RL у V3.2 був повністю замінений на On-Policy Distillation (OPD, онлайн-стратегічне дистиляція).

Новий процес складається з двох кроків. Перший, для областей математики, коду, агентів, слідування інструкціям тощо, на основі конвеєра V3.2 окремо тренують експертні моделі для кожної області, кожен експерт спочатку проходить донастройку, а потім використовує GRPO для підсиленого навчання. Другий крок — за допомогою багатьох вчителів OPD дистилюють можливості понад десяти експертів у єдину модель: студент на основі власних траєкторій генерує логіти для кожного вчителя, використовуючи зворотній KL-дивергенцію для повного логіту словника, і за допомогою вирівнювання логітів об’єднує ваги кількох експертів у єдине параметричне простір, уникаючи типових конфліктів можливостей при традиційному злитті ваг і змішаному RL.

У звіті також запропоновано Generative Reward Model (GRM, генеративна модель винагород): для задач, важко перевірити за допомогою правил, замість тренування традиційної скалярної моделі винагород, використовують навчання GRM на основі RL-даних, керованих рубриками, що дозволяє актору одночасно виконувати функції генерації та оцінки, і з невеликою кількістю різноманітних ручних позначок може узагальнюватися на складні задачі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingChallengeShare8MUSDT
834.32K Популярність
#
CryptoMarketSeesVolatility
202.13K Популярність
#
IsraelStrikesIranBTCPlunges
30.82K Популярність
#
rsETHAttackUpdate
78.36K Популярність
#
US-IranTalksStall
8.35K Популярність

Закріпити

карта сайту

Переход до тренування V4: OPD замінює гібридний RL, понад десять експертних моделей дистилюються в одну

Популярні теми

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити