DeepSeek 推出 V4 開源預覽版,技術評分 3206 超越 GPT-5.4

Market Whisper

DeepSeek V4開源預覽版

DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列,以 MIT 許可協議開源,模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基準取得 3206 分,超越 GPT-5.4。

兩款 MoE 模型架構規格

根據 DeepSeek V4 技術報告,V4 系列包含兩款混合專家(MoE)模型:

V4-Pro:總參數 1.6T,每 token 激活 49B,支援 1M token 上下文

V4-Flash:總參數 284B,每 token 激活 13B,同樣支援 1M token 上下文

根據技術報告,V4-Pro 在 1M 上下文下的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存降至 V3.2 的 10%,主要得益於混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)的架構升級。預訓練數據規模超過 32T token;訓練優化器更新為 Muon。

後訓練方法論:在線策略蒸餾取代混合強化學習

根據 DeepSeek V4 技術報告,V4 後訓練的核心更新在於以在線策略蒸餾(On-Policy Distillation,OPD)完全取代 V3.2 的混合強化學習(mixed RL)階段。新流程分為兩步:首先針對數學、程式碼、Agent 及指令跟隨等領域分別訓練領域專家(SFT + GRPO 強化學習);隨後以多教師 OPD 將十餘個專家的能力蒸餾至統一模型,透過 logit 對齊避免傳統方法中常見的能力衝突。

報告同時引入生成式獎勵模型(Generative Reward Model,GRM),針對難以用規則驗證的任務,以少量多樣化人工標注數據訓練,讓模型同時承擔生成與評估功能。

基準測試成績:編碼領先,知識推理仍有差距

根據 DeepSeek V4 技術報告,V4-Pro-Max 與 Opus 4.6 Max、GPT-5.4 xHigh 及 Gemini 3.1 Pro High 的對比結果(不含近期發布的 GPT-5.5 及 Opus 4.7):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 全場最高

LiveCodeBench:93.5 → 全場最高

SWE Verified:80.6,落後 Opus 4.6 的 80.8 差 0.2 個百分點

GPQA Diamond:90.1,落後 Gemini 3.1 Pro 的 94.3

SimpleQA-Verified:57.9,落後 Gemini 3.1 Pro 的 75.6

HLE:37.7,落後 Gemini 3.1 Pro 的 44.4

技術報告同時指出,上述對比不含最近發布的 GPT-5.5 及 Opus 4.7,V4 與最新一代閉源模型的差距有待第三方評測驗證。

常見問題

DeepSeek V4 預覽版的開源授權條款為何,可在哪裡取得?

根據 DeepSeek 4 月 24 日的官方公告,V4 系列以 MIT 許可協議開源,模型權重已上線 Hugging Face 及 ModelScope,適用於商業與學術用途。

DeepSeek V4-Pro 與 V4-Flash 的參數規模有何差異?

根據 DeepSeek V4 技術報告,V4-Pro 總參數為 1.6T,每 token 激活 49B;V4-Flash 總參數為 284B,每 token 激活 13B,兩款均支援 1M token 上下文。

DeepSeek V4-Pro-Max 與 GPT-5.4 及 Gemini 3.1 Pro 的基準比較結果為何?

根據 DeepSeek V4 技術報告,V4-Pro-Max 在 Codeforces(3206 分)及 LiveCodeBench(93.5)兩項基準超越 GPT-5.4 及 Gemini 3.1 Pro,但在知識密集型基準(GPQA Diamond、SimpleQA-Verified、HLE)上仍落後 Gemini 3.1 Pro;比較組不含 GPT-5.5 及 Opus 4.7。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OpenAI 的 Greg Brockman:AI 正從聊天轉向自主任務執行

Gate News 訊息,4 月 27 日——OpenAI 總裁兼共同創辦人 Greg Brockman 表示,新一波人工智慧將把使用者從與 AI 機器人聊天,轉向指派現實世界的任務。這種轉變要求企業重新思考作業流程,並建立新的安全、管理與成本協議,

GateNews8分鐘前

B.AI 升級基礎設施,推出重點技能功能

Gate 新聞訊息,4月27日——B.AI 本週宣布多項產品與生態系進展。本次 BAIclaw 登陸頁面進行了完整的視覺與互動改版,並將網站多語言支援擴展至 10 種語言,進一步強化其全球可用性。 在基礎設施方面

GateNews22分鐘前

北京拋禁令要求撤銷交易!Meta 砸 20 億美元收購中國 AI 新創 Manus 落空

中國國家發展改革委今(4 月 27 日)正式發布公告,外商投資安全審查工作機制辦公室「依法依規對外資收購 Manus 項目作出禁止投資決定,要求當事人撤銷該收購交易」。這是中國《外商投資安全審查辦法》施行以來,少數動用最高強度處置「禁止投資」並要求撤銷既成交易的案例。 Meta 砸 20 億美元,買進最便宜的 AI 應用 時間回到 2025 年 12 月 29 日。Meta 宣布收購中國 AI 代理新創 Manus,市場預估價格落在 20 至 30 億美元之間。Manus 是北京蝴蝶效應科技開發的通用型 AI,2025 年 3 月 6 日上線後因 GAIA benchmark 表現亮眼一夜

鏈新聞abmedia36分鐘前

昔智科技-P IPO 股份在灰市上漲超過 360%,漲幅收窄至 320%

Gate 新聞訊息,4 月 27 日 — 昔智科技-P (01879.HK),一家在香港上市的 AI 晶片公司,今日稍早在灰市 (dark market) 上股價大漲超過 360%,但漲幅此後已收斂至 320%。 該股票正交易於其官方香港 IPO 上市之前

GateNews48分鐘前

用 AI 提升產出還是降低成本?百倍效率沒換來百倍營收,但矽谷沒人敢喊停

五源資本合夥人孟醒,近日發表矽谷考察報告,提出一個讓他自己都改變記筆記習慣的判斷:矽谷正在進入一個連造浪的人都被浪淹沒的階段。AI 的迭代速度已經從「按月」變成「按週」,連矽谷自己都跟不上自己。 當 AI 把一個團隊的生產力放大五倍,你可以減少八成人力維持原本產出,也可以維持人數做五倍的事。孟醒這次矽谷的觀察,等於是在現場給出了答案的初稿:當 100 倍效率沒有換來 100 倍營收,當 token 預算逼近人力成本,當蒸汽機還跑不過馬車卻沒人敢停下,矽谷現在選的是「先把速度衝上去再說」。但這條路最終會走到「擴張能力」還是「壓縮成本」,目前沒有定論。 YC 從領先指標變成落後指標 孟醒今年

鏈新聞abmedia1小時前
留言
0/400
暫無留言