Згідно з моніторингом Dongcha Beating, аспірант Прінстонського університету Йіфань Чжан оновив технічні деталі DeepSeek V4 у X. Він анонсував «V4 наступного тижня» 19 квітня і навів три назви компонентів архітектури, а сьогодні ввечері надав повну таблицю параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів. Загальна кількість параметрів для V4 становить 1,6 трильйона. Механізм уваги — DSA2, який поєднує дві схеми розрідженої уваги: DSA (DeepSeek Sparse Attention), використану в V3.2, та NSA (Native Sparse Attention), запропоновану у статті раніше цього року. Розмір голови — 512, у парі з розрідженою MQA та SWA (Sliding Window Attention). Шар MoE має загалом 384 експертів, з яких одночасно активовано 6, з використанням Fused MoE Mega-Kernel. Залишкові з’єднання йдуть за принципом Hyper-Connections. Деталі, розкриті для фази тренування, включають: оптимізатор — Muon (матричний оптимізатор, що застосовує ортогоналізацію Ньютона-Шульца до оновлень імпульсу), довжина передтренувального контексту — 32 тисячі, а фаза навчання з підкріпленням використовує GRPO з доданою корекцією за допомогою KL-розбіжності. Остаточна довжина контексту — 1 мільйон. Модальність — чистий текст. Чжан не займає посаду в DeepSeek, і DeepSeek не відповів на цю інформацію.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryLive
1.15M Популярність
#
WCTCTradingChallengeShare8MUSDT
778.07K Популярність
#
BitcoinBouncesBack
200.09K Популярність
#
IsraelStrikesIranBTCPlunges
30.62K Популярність
#
USIranTalksProgress
785.27K Популярність

Закріпити

карта сайту

Яфан Чжан розкриває повні технічні характеристики DeepSeek V4: 1,6 трильйонів параметрів, 384 експерти з 6 активованими

Популярні теми

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закріпити