
DeepSeek は 4 月 24 日に V4 プレビュー版シリーズを正式にリリースし、MIT ライセンスでオープンソース化されています。モデルの重みは Hugging Face と ModelScope に同時に反映されています。DeepSeek V4 技術レポートによれば、V4-Pro-Max(最高推論強度モード)は Codeforces のベンチマークで 3206 点を獲得し、GPT-5.4 を上回りました。
DeepSeek V4 技術レポートによれば、V4 シリーズには 2 つの混合専門家(MoE)モデルが含まれます:
V4-Pro:総パラメータ 1.6T、1 トークン当たりのアクティベーション 49B、1M トークンのコンテキストに対応
V4-Flash:総パラメータ 284B、1 トークン当たりのアクティベーション 13B、同様に 1M トークンのコンテキストに対応
技術レポートによると、1M コンテキスト下における V4-Pro の単一トークン推論 FLOPs は V3.2 の 27% に過ぎず、KV キャッシュは V3.2 の 10% にまで低下しています。主な要因は、混合注意機構(圧縮稀薄注意 CSA + 高度圧縮注意 HCA)によるアーキテクチャのアップグレードです。事前学習データ規模は 32T トークン超;学習最適化器の更新は Muon です。
DeepSeek V4 技術レポートによれば、V4 の後訓練における中核の更新は、オンライン戦略蒸留(On-Policy Distillation,OPD)によって V3.2 の混合強化学習(mixed RL)フェーズを完全に置き換えることにあります。新しいプロセスは 2 段階に分かれます。まず数学、コード、Agent、および命令追従などの領域ごとに領域専門家をそれぞれ訓練します(SFT + GRPO 強化学習)。その後、多教師 OPD により、十数人の専門家の能力を単一モデルへ蒸留し、logit の整合により従来手法でよく見られる能力の競合を回避します。
レポートは同時に生成的報酬モデル(Generative Reward Model,GRM)も導入しており、ルールで検証しにくいタスクに対して、少量の多様な人工ラベル付きデータで訓練することで、モデルが生成と評価の双方を担えるようにします。
DeepSeek V4 技術レポートによれば、V4-Pro-Max と Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High の比較結果(直近でリリースされた GPT-5.5 および Opus 4.7 は含まず):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 会場最高
LiveCodeBench:93.5 → 会場最高
SWE Verified:80.6、Opus 4.6 の 80.8 に遅れ 0.2 パーセントポイント
GPQA Diamond:90.1、Gemini 3.1 Pro の 94.3 に遅れ
SimpleQA-Verified:57.9、Gemini 3.1 Pro の 75.6 に遅れ
HLE:37.7、Gemini 3.1 Pro の 44.4 に遅れ
技術レポートはまた、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 が含まれておらず、V4 と最新世代のクローズドモデルとのギャップは第三者によるベンチマーク評価で検証が必要だと指摘しています。
DeepSeek の 4 月 24 日の公式発表によると、V4 シリーズは MIT ライセンスでオープンソース化されており、モデルの重みは Hugging Face と ModelScope に公開されています。商業および学術用途に適用されます。
DeepSeek V4 技術レポートによると、V4-Pro の総パラメータは 1.6T、1 トークン当たりのアクティベーションは 49B です;V4-Flash の総パラメータは 284B、1 トークン当たりのアクティベーションは 13B で、いずれも 1M トークンのコンテキストに対応しています。
DeepSeek V4 技術レポートによると、V4-Pro-Max は Codeforces(3206 点)と LiveCodeBench(93.5)の 2 つのベンチマークで GPT-5.4 と Gemini 3.1 Pro を上回りましたが、知識集約型ベンチマーク(GPQA Diamond、SimpleQA-Verified、HLE)では依然として Gemini 3.1 Pro に遅れています。比較対象のセットには GPT-5.5 と Opus 4.7 は含まれていません。
関連記事
Judge Dismisses Fraud Claims in Elon Musk's OpenAI Lawsuit; Case Advances to Trial with Two Remaining Allegations
GoogleはAnthropicに400億ドルを追加投資:まず100億ドルを前払いし、業績に応じて300億ドルを放出。5GWのTPU計算リソースも配分