BlockBeats 消息,1 月 21 日,据量子位报道,DeepSeek-R1 發布一週年之際對新模型「MODEL1」進行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代碼,橫跨 114 個文件中有 28 處提到 MODEL1,與 V32 作為不同的模型出現。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架構。代碼中的具體差異體現在 KV 緩存佈局、稀疏性處理和 FP8 解碼方面,在記憶體優化上有多處不同。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。