月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%

robot
摘要生成中

ME News 消息,4 月 18 日(UTC+8),據 動察 Beating 監測,月之暗面(Moonshot AI)與清華大學 4 月 16 日在 arXiv 挂出新論文《Prefill-as-a-Service》,提出讓大模型推理的預填充階段(prefill)跨數據中心運行。 大模型推理分兩步:prefill 先把輸入一次性讀進來、生成一份 KV 緩存;decode 再根據這份緩存逐字吐出結果。兩步需要的硬體特性完全不同,prefill 吃算力,decode 吃顯存帶寬。業界主流做法是把兩步拆到不同機器上(PD 分離),但這要求兩邊在同一個數據中心裡用 RDMA 互聯,因為密集 attention 模型的 KV 緩存每秒幾十 Gbps 地吐,一旦傳慢 GPU 就空轉。 轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合,把 KV 緩存吞吐量砍掉了約一個數量級,Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 緩存可以從 RDMA 專網搬到普通以太網上傳。 PrfaaS 的具體做法:組建獨立的「預填充集群」,只把長上下文、未命中前綴緩存的請求路由過去,短請求留在本地 PD 集群;預填充完成後通過以太網把 KV 緩存回傳本地集群做 decode。配套引入長度閾值路由、帶寬感知調度器和混合前綴緩存池。論文用內部 1T 參數 hybrid 模型(基於 Kimi Linear 架構)做了一組實測,整體服務吞吐比同構 PD 部署高 54%,比樸素異構方案高 32%,每台機器只占適中的跨數據中心帶寬。 (來源:BlockBeats)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言