Яфан Чжан розкриває повні технічні характеристики DeepSeek V4: 1,6 трильйонів параметрів, 384 експерти з 6 активованими

Згідно з моніторингом Dongcha Beating, аспірант Прінстонського університету Йіфань Чжан оновив технічні деталі DeepSeek V4 у X. Він анонсував «V4 наступного тижня» 19 квітня і навів три назви компонентів архітектури, а сьогодні ввечері надав повну таблицю параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів. Загальна кількість параметрів для V4 становить 1,6 трильйона. Механізм уваги — DSA2, який поєднує дві схеми розрідженої уваги: DSA (DeepSeek Sparse Attention), використану в V3.2, та NSA (Native Sparse Attention), запропоновану у статті раніше цього року. Розмір голови — 512, у парі з розрідженою MQA та SWA (Sliding Window Attention). Шар MoE має загалом 384 експертів, з яких одночасно активовано 6, з використанням Fused MoE Mega-Kernel. Залишкові з’єднання йдуть за принципом Hyper-Connections. Деталі, розкриті для фази тренування, включають: оптимізатор — Muon (матричний оптимізатор, що застосовує ортогоналізацію Ньютона-Шульца до оновлень імпульсу), довжина передтренувального контексту — 32 тисячі, а фаза навчання з підкріпленням використовує GRPO з доданою корекцією за допомогою KL-розбіжності. Остаточна довжина контексту — 1 мільйон. Модальність — чистий текст. Чжан не займає посаду в DeepSeek, і DeepSeek не відповів на цю інформацію.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити