DeepSeek は V4 のオープンソース・プレビュー版を提供し、技術スコア 3206 で GPT-5.4 を上回った

DeepSeek V4開源預覽版

DeepSeek は 4 月 24 日に V4 プレビュー版シリーズを正式にリリースし、MIT ライセンスでオープンソース化されています。モデルの重みは Hugging Face と ModelScope に同時に反映されています。DeepSeek V4 技術レポートによれば、V4-Pro-Max(最高推論強度モード)は Codeforces のベンチマークで 3206 点を獲得し、GPT-5.4 を上回りました。

2 種類の MoE モデルアーキテクチャ仕様

DeepSeek V4 技術レポートによれば、V4 シリーズには 2 つの混合専門家(MoE)モデルが含まれます:

V4-Pro:総パラメータ 1.6T、1 トークン当たりのアクティベーション 49B、1M トークンのコンテキストに対応

V4-Flash:総パラメータ 284B、1 トークン当たりのアクティベーション 13B、同様に 1M トークンのコンテキストに対応

技術レポートによると、1M コンテキスト下における V4-Pro の単一トークン推論 FLOPs は V3.2 の 27% に過ぎず、KV キャッシュは V3.2 の 10% にまで低下しています。主な要因は、混合注意機構(圧縮稀薄注意 CSA + 高度圧縮注意 HCA)によるアーキテクチャのアップグレードです。事前学習データ規模は 32T トークン超;学習最適化器の更新は Muon です。

後訓練の方法論:オンライン戦略蒸留が混合強化学習に取って代わる

DeepSeek V4 技術レポートによれば、V4 の後訓練における中核の更新は、オンライン戦略蒸留(On-Policy Distillation,OPD)によって V3.2 の混合強化学習(mixed RL)フェーズを完全に置き換えることにあります。新しいプロセスは 2 段階に分かれます。まず数学、コード、Agent、および命令追従などの領域ごとに領域専門家をそれぞれ訓練します(SFT + GRPO 強化学習)。その後、多教師 OPD により、十数人の専門家の能力を単一モデルへ蒸留し、logit の整合により従来手法でよく見られる能力の競合を回避します。

レポートは同時に生成的報酬モデル(Generative Reward Model,GRM)も導入しており、ルールで検証しにくいタスクに対して、少量の多様な人工ラベル付きデータで訓練することで、モデルが生成と評価の双方を担えるようにします。

ベンチマーク成績:コーディングで先行、知識推論にはギャップ

DeepSeek V4 技術レポートによれば、V4-Pro-Max と Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High の比較結果(直近でリリースされた GPT-5.5 および Opus 4.7 は含まず):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 会場最高

LiveCodeBench:93.5 → 会場最高

SWE Verified:80.6、Opus 4.6 の 80.8 に遅れ 0.2 パーセントポイント

GPQA Diamond:90.1、Gemini 3.1 Pro の 94.3 に遅れ

SimpleQA-Verified:57.9、Gemini 3.1 Pro の 75.6 に遅れ

HLE:37.7、Gemini 3.1 Pro の 44.4 に遅れ

技術レポートはまた、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 が含まれておらず、V4 と最新世代のクローズドモデルとのギャップは第三者によるベンチマーク評価で検証が必要だと指摘しています。

よくある質問

DeepSeek V4 プレビュー版のオープンソースライセンス条項は何ですか。どこで取得できますか?

DeepSeek の 4 月 24 日の公式発表によると、V4 シリーズは MIT ライセンスでオープンソース化されており、モデルの重みは Hugging Face と ModelScope に公開されています。商業および学術用途に適用されます。

DeepSeek V4-Pro と V4-Flash のパラメータ規模の違いは何ですか?

DeepSeek V4 技術レポートによると、V4-Pro の総パラメータは 1.6T、1 トークン当たりのアクティベーションは 49B です;V4-Flash の総パラメータは 284B、1 トークン当たりのアクティベーションは 13B で、いずれも 1M トークンのコンテキストに対応しています。

DeepSeek V4-Pro-Max と GPT-5.4 および Gemini 3.1 Pro のベンチマーク比較結果は何ですか?

DeepSeek V4 技術レポートによると、V4-Pro-Max は Codeforces(3206 点)と LiveCodeBench(93.5)の 2 つのベンチマークで GPT-5.4 と Gemini 3.1 Pro を上回りましたが、知識集約型ベンチマーク(GPQA Diamond、SimpleQA-Verified、HLE)では依然として Gemini 3.1 Pro に遅れています。比較対象のセットには GPT-5.5 と Opus 4.7 は含まれていません。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

$20B の評価額で18億ドル調達を目指すDeepSeek、優秀人材の流出の中

Gate Newsのニュース、4月25日 — DeepSeekは18億ドルの資金調達を計画しており、同社の企業価値は約$20 billionだと、当該事情に詳しい関係者が明らかにした。AIスタートアップは重要な人材の流出に直面しており、複数の中核研究者がByteDance、Tencent、小米、そして自動運転企業のHorizon Roboticsに加わるために離職していることを背景に、今回の資金調達の動きが進んでいる

GateNews4時間前

Judge Dismisses Fraud Claims in Elon Musk's OpenAI Lawsuit; Case Advances to Trial with Two Remaining Allegations

Gate News message, April 24 — A federal judge has dismissed fraud claims from Elon Musk's lawsuit against OpenAI, Sam Altman, Greg Brockman, and Microsoft, clearing the way for the case to proceed to trial on two remaining allegations: breach of charitable trust and unjust enrichment. U.S.

GateNews7時間前

OpenAI CEOのサム・アルトマン、学校銃撃犯の出禁アカウントを警察に通報できなかったことについて謝罪

Gate Newsメッセージ、4月25日 — OpenAIの最高経営責任者(CEO)サム・アルトマンは、カナダのタンボリン・コミュニティに対し、同社がジェシー・ヴァン・ルートセラールに関連する出禁アカウントについて警察に通報できなかったことを謝罪した。ルートセラールは2月に学校で8人を殺害し、その後自ら命を絶っていた。OpenAI

GateNews7時間前

UAEは今後2年間でAI政府モデルへの移行を発表

モハメド・ビン・ラシッド・アル・マクトゥーム殿下は、目標は政府の分野の50%を自律的なエージェント型AIを通じて運用することだと述べました。移行には「AIをマスターする」ための連邦職員の訓練も含まれ、シェイク・マンスール・ビン・ザイードが監督します。 要点:

Coinpedia8時間前

Ethereal Venturesが主導する資金調達でFere AIが$1.3Mを調達:AI取引プラットフォーム

Gate Newsメッセージ、4月25日 — Globenewswireによると、AIを活用したデジタル資産取引プラットフォームであるFere AIは、Ethereal Venturesが主導した資金調達ラウンド($1.3 million)の完了を発表した。Galaxy Vision HillおよびKosmos Venturesが参加した。 このプラットフォームは

GateNews9時間前

GoogleはAnthropicに400億ドルを追加投資:まず100億ドルを前払いし、業績に応じて300億ドルを放出。5GWのTPU計算リソースも配分

アルファベットがAnthropicに400億ドルまで追加投資、2段階で実施:最初の100億ドルを現金として注入、評価額3,800億ドル;残りの300億ドルは業績目標達成後に段階的に放出。Google Cloudは5年以内に5GWのTPU計算リソースを提供;同時期にAmazonも最大250億ドルの投資を発表しており、Anthropicの計算能力と資本支援が歩調を合わせて強化されていることを示している。

ChainNewsAbmedia9時間前
コメント
0/400
コメントなし