ME News 消息，4 月 18 日（UTC+8），據動察 Beating 監測，月之暗面（Moonshot AI）與清華大學 4 月 16 日在 arXiv 挂出新論文《Prefill-as-a-Service》，提出讓大模型推理的預填充階段（prefill）跨數據中心運行。大模型推理分兩步：prefill 先把輸入一次性讀進來、生成一份 KV 緩存；decode 再根據這份緩存逐字吐出結果。兩步需要的硬體特性完全不同，prefill 吃算力，decode 吃顯存帶寬。業界主流做法是把兩步拆到不同機器上（PD 分離），但這要求兩邊在同一個數據中心裡用 RDMA 互聯，因為密集 attention 模型的 KV 緩存每秒幾十 Gbps 地吐，一旦傳慢 GPU 就空轉。轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合，把 KV 緩存吞吐量砍掉了約一個數量級，Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 緩存可以從 RDMA 專網搬到普通以太網上傳。 PrfaaS 的具體做法：組建獨立的「預填充集群」，只把長上下文、未命中前綴緩存的請求路由過去，短請求留在本地 PD 集群；預填充完成後通過以太網把 KV 緩存回傳本地集群做 decode。配套引入長度閾值路由、帶寬感知調度器和混合前綴緩存池。論文用內部 1T 參數 hybrid 模型（基於 Kimi Linear 架構）做了一組實測，整體服務吞吐比同構 PD 部署高 54%，比樸素異構方案高 32%，每台機器只占適中的跨數據中心帶寬。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
21.7萬熱度
#
Gate13週年現場直擊
67.09萬熱度
#
山寨幣強勢反彈
734.34萬熱度
#
加密市場回升
10.29萬熱度
#
Kalshi與內華達州的監管權爭議
47.04萬熱度

月之暗面與清華新論文：LLM預填充可跨數據中心，1T模型吞吐升54%

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

山寨幣強勢反彈

加密市場回升

Kalshi與內華達州的監管權爭議

置頂