乐天發布 Rakuten AI 3.0 模型,配置文件顯示底層架構為 DeepSeek V3

Gate News 消息,3 月 17 日,樂天集團今日以「日本最大高性能 AI 模型」為名發布 Rakuten AI 3.0,並以 Apache 2.0 協議免費開源。該模型採用 MoE(混合專家)架構,總參數 671B,每次推理激活 37B,上下文窗口 128K,針對日語優化,在多項日語基準測試中超越 GPT-4o。該模型系日本經濟產業省與新能源產業技術綜合開發機構(NEDO)聯合推進的 GENIAC 項目成果,日本政府為其提供了部分訓練算力資助。樂天在公告中以「充分利用開源社區最佳成果」描述基礎模型來源,未點名具體模型。社區隨即查閱 HuggingFace 上發布的模型文件,發現 config.json 中明確寫入 model_type: deepseek_v3 與 architectures: DeepseekV3ForCausalLM,總參數 671B、激活 37B、上下文 128K 亦與 DeepSeek V3 完全一致,表明該模型系在 DeepSeek V3 基礎上經日語資料微調而來。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆