Google 发布无需训练的 TurboQuant 压缩算法,声称可将 AI 记忆体需求压缩至少 6 倍;消息一出,记忆体股集体跳水,但分析师有不同看法。
(前情提要:Google 预计在 2029 年完成后量子密码迁移,比政府目标提前六年,加密产业须跟上)
(背景补充:华尔街日报:川普拟任祖克柏、黄仁勋、艾里森进 PCAST,打造「美国 AI 国家队」)
一个新算法,让记忆体类股全线崩跌?Google Research 于 25 日正式发布 TurboQuant 压缩算法,声称能将大型语言模型(LLM)的 KV 快取量化至仅 3 位元,且完全不损失模型准确度、记忆体使用量至少压缩 6 倍。
消息传出后,记忆体巨头美光(Micron)25 日盘中一度大跌 6.1%,终场收 382.09 美元,创三周来收盘新低。另一方面 Sandisk 跌3.5%、希捷跌 2.59%、威腾电子跌 1.63%,记忆体族群全面崩溃。
亚洲市场今日同步承压,三星电子开盘重挫 3.6%,SK海力士跌 4.5%。投资人的逻辑直截了当:若 AI 模型不再需要那么多记忆体,近期靠元件短缺撑起的强大定价权,恐怕将就此动摇。
KV快取(Key-Value Cache)是 LLM 能「记住」已处理资料的核心机制,储存了先前运算过的注意力资料,让模型在生成每个 token 时不需重复计算。但随着上下文视窗持续扩大,KV 快取已成为记忆体的重大瓶颈。
TurboQuant 针对的正是这个痛点。Google 指出,传统向量量化方法在记忆体中会产生每个数值约 1 到 2 位元的额外开销,而 TurboQuant 透过两阶段流程彻底消除这项负担:
第一阶段,采用 PolarQuant 方法对资料向量进行旋转,实现高品质压缩
第二阶段,再以 Quantized Johnson-Lindenstrauss 算法消除残余误差
在辉达 H100 GPU 的基准测试中,4 位元的 TurboQuant 在计算注意力度量值时,效能较未量化的 32 位元键提升 8 倍,KV 快取记忆体占用压缩至少 6 倍。
更关键的是,这套算法无需任何训练或微调,执行时额外开销极低,适合直接部署于正式推论环境与大规模向量搜索系统。官方表示相关论文将于 4 月「ICLR 2026」大会正式发表。
不过,并非所有人都认同「记忆体末日」的叙事。
部分分析师搬出了杰文斯悖论:当技术进步降低资源使用成本,资源反而因为更容易取得而推升整体需求。支持者认为,TurboQuant 若真能大幅降低 AI 推论门槛,将加速 AI 模型普及化,最终反而带动更大规模的记忆体需求,而非削减。
Lynx Equity Strategies 分析师在报告中更直接指出:「Google 所详述的方法,在未来 3 到 5 年内几乎不会减少对记忆体和快闪记忆体的需求,因为供应依然极度受限。」因而该机构维持美光 700 美元目标价。