2026 年 CES 消费电子展,辉达执行长黄仁勋正式宣布 Vera Rubin 投入量产,标志着人工智能(AI)发展史上的一个关键转折点:从以模型训练(Training)为核心的生成式 AI 初期,正式迈入以代理型 AI(Agentic AI)与大规模推论(Inference)为主导的时代。
(黄仁勋 CES 定调 2026:Vera Rubin 全面量产、AI 自动驾驶汽车 Q1 上市,关键制程来自台积电)
本报告将深入剖析这一技术转折如何重塑资料中心的硬件层级,特别是 G3.5 存储层级与推论上下文记忆体存储平台(ICMS)。在此背景下,全球四大记忆体与存储巨头:SK 海力士(SK Hynix)、三星电子(Samsung Electronics)、美光科技(Micron Technology)与 SanDisk 正面临着前所未有的机遇与挑战。
HBM、DRAM、NAND 是什么?记忆体名词解析
在进入正式内容前,先用浅显的描述来进行名词补充:
白话文解释记忆体名词:HBM(包含 HBM3E、HBM4、HBM5)
HBM 全名 High Bandwidth Memory (高频宽记忆体)。可以想成:把很多层 DRAM 晶片像千层蛋糕一样叠起来,再用非常多又粗的高速公路接到 GPU,传资料超快。
HBM3E:目前主力,用在最新一代 GPU 上,速度快、功耗也压得不错。
HBM4:下一代,给像 Vera Rubin 这种更猛的 GPU 用,频宽更高、容量更大。
HBM5:再下一代(规划中),会再拉高速度与容量,对未来更大模型准备。
Rubin GPU 旁边会塞很多颗 HBM 堆叠,让 GPU 能以超高速拿资料。AI 训练、推论的核心算力全靠 HBM 供应资料,是这波 AI 服务器供应紧缺的最大明星,厂商把大量产能都转去做 HBM,导致其他记忆体供应吃紧。在 Vera Rubin 时代,HBM 是所有零件中最关键的元件。
白话文解释记忆体名词:SSD
SSD 就像一个超大的 USB 随身碟,用来长期存资料,不会因为关机就忘记。电脑里放档案、影片、游戏,就是存在 SSD(或传统硬盘)。在 Vera Rubin 时代为了让 AI 聊天机器人记住很多很多文字、对话历史和知识,Vera Rubin 要接上非常多 SSD,当作超大资料图书馆。Citi 估算,一台 Vera Rubin 服务器要接大约 1,152TB(也就是 1,152 个 1TB)这么多的 SSD,才能让新的 ICMS 系统运作。
以前 SSD 比较像资料仓库配角,现在在 ICMS/长上下文推论里变成很重要的角色。
白话文解释记忆体名词:NAND
SSD 里面真正存资料的材料叫 NAND 快闪记忆体。可以想成:SSD 是书橱,NAND 是一块一块的书本页面。Vera Rubin 的 ICMS 要用很多 SSD,而 SSD 里面就是堆满 NAND 晶片,所以 AI 要的是很多很多 NAND。當 AI 模型越來越大、對話記憶越來越長,就需要更多 NAND 来放这些文字和中间结果。
白话文解释记忆体名词:DRAM
DRAM 就像短期记忆白板,电脑运算时先把要算的东西写在 DRAM,上完课(关机)白板就擦掉。速度比 SSD 快很多,但一关机就全忘。在 Vera Rubin 给 CPU / GPU 当一般运算时的工作区。不直接存很久的对话或超大模型,但负责支撑系统运作。不过因为厂商把产能移去做 HBM,结果一般 DRAM 供应变少,价格猛涨、甚至缺货。
白话文解释记忆体名词:LPDDR5X / DDR5
DDR5:服务器与桌机里常用的主记忆体,比旧的 DDR4 更快。
LPDDR5X:给行动装置、或者高密度 CPU 模组用的省电版本,可以想象是「省电型的 DRAM」。
Rubin CPU 这种处理器,需要很多 LPDDR5X 或 DDR5 当系统记忆体,处理控制、排程、系统任务。它们不会像 HBM 那样直接绑在 GPU 上,但也是整个 AI 服务器稳定运作的基础。由于产能被 HBM 吸走,一般 DDR5 / LPDDR5X 供应变紧、价格上升。
白话文解释记忆体名词:High Bandwidth Flash(HBF)
可以把 HBF 想成速度被强化过的 NAND,目标是让 Flash(快闪记忆体)不再只是慢慢存资料,而是变得更快、更像记忆体来用。比起一般 SSD,它更强调「高吞吐量、低延迟」,好让 AI 在推论时可以比较快地读写大量上下文。
在 Vera Rubin 里当 ICMS 的核心之一:把大量 KV Cache、长上下文资料放在这种高速 Flash 上,用网络(RDMA 等)让 GPU 以接近内存的速度取用。这就是 G3.5 层概念。把 Flash 从只有存档提升成快得可以参与运算流程的外部记忆。
Vera Rubin 世代:硬件架构的根本性重构
极致协同设计(Extreme Co-design)与机柜级运算
在 CES 2026 上,NVIDIA 执行长黄仁勋的演讲揭示了一个核心理念:在 Rubin 世代,运算的单位不再是单个 GPU 或服务器,而是整个资料中心机柜。Rubin 平台由六款核心晶片组成:Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU 以及 Spectrum-6 Ethernet Switch。
这种被称为极致协同设计的策略,旨在消除晶片间的通讯瓶颈,将 Vera Rubin NVL72 机柜打造成一个拥有 3.6 ExaFLOPS 推论算力与 75TB 高速记忆体的单一巨型电脑。
这种架构的演进并非单纯的效能堆叠,而是为了应对 AI 工作负载的本质改变。从 Blackwell 到 Rubin,AI 模型已从单纯的问答机器演化为能够执行多步骤推理、长期记忆检索与工具使用的智慧代理(Agents)。这类工作负载要求硬件不仅要具备高吞吐量,还必须具备极低的延迟与海量的上下文(Context)保留能力。
收购 Groq 与推论翻转:防御性吞并与 ASIC 时代的开端
NVIDIA 在 2025 年底以 200 亿美元人才并购与技术授权的形式吸纳 AI 晶片新创公司 Groq,Groq 的核心技术 LPU(语言处理单元)架构,本质上是一种针对 Transformer 模型极度优化的 ASIC。与依赖 HBM(高频宽记忆体)的传统 GPU 不同,Groq 采用片上 SRAM(静态随机存取记忆体)与编译器优先的设计。
在即时互动场景中,这种架构能提供比传统 GPU 快 10 倍的代币生成速度,且能效高出 10 倍。NVIDIA 想补齐低延迟推论(Groq LPU 擅长)与 CUDA 生态结合。Google (TPU)、Amazon (Inferentia) 等云端巨头早已透过自研 ASIC 证明了专用晶片在推论成本上的巨大优势,NVIDIA 必须透过 Groq 的技术来防御。
上下文墙(The Context Wall)难题
在长上下文(Long-context)推论中,Key-Value (KV) Cache 是 AI 模型记住对话历史的机制。随着上下文窗口扩展至百万级 Token,KV Cache 的体积呈线性增长,迅速耗尽昂贵且容量有限的 GPU HBM (G1)。当 HBM 满载,数据会被逐出至系统 DRAM (G2) 或本地 SSD (G3)。这导致了 KV Cache 危机:GPU 经常为了等待历史数据而空转。
G3.5 层级:推论上下文记忆体存储平台(ICMS)
在 Vera Rubin 架构中,对记忆体产业最具颠覆性、影响最深远的变革,是 G3.5 记忆体层级,即推论上下文记忆体存储平台 (ICMS, Inference Context Memory Storage) 的诞生。这项创新不仅是架构的升级,更标志着上下文感知(Context-Aware)运算时代的来临。
ICMS 利用 BlueField-4 DPU 与 Spectrum-X 以太网,在机柜(Pod)层级建立了一个共享的、基于快闪记忆体(Flash)的缓冲池。这个 G3.5 层级位于 DRAM 与传统存储之间,通过 RDMA(远端直接记忆体存取)技术,让 GPU 能以接近本地记忆体的速度存取远端 Flash 中的 KV Cache 1。
强制催生新技术标准 (HBF & AI-SSD)
为了让 NAND Flash 能够胜任准记忆体的高强度工作,产业被迫加速技术迭代,这改变了主要记忆体厂的技术路线图。
High Bandwidth Flash (HBF):为了追求频宽,SK 海力士与 SanDisk 合作开发 HBF。这是一种类似 HBM 的 3D 堆叠技术,但使用 NAND 晶圆,旨在提供比传统 SSD 快数倍的吞吐量,专门服务于 AI 推论。
AI 专用 SSD (AI-NP):SK 海力士正与 NVIDIA 紧密合作,开发能达到 1 亿 IOPS 的 AI-NP SSD。这种性能是现有顶级 SSD 的 100 倍,专门为了满足 ICMS 对随机读取速度的极端苛求,确保数据能即时喂给 GPU。
G3.5 ICMS 层级是将 AI 价值链从昂贵的 HBM 向下延伸至 NAND Flash 的关键桥梁。它解决了 AI Agent 需要无限记忆来处理复杂任务的痛点,将 NAND 产业从周期性的存储商品,转变为 AI 计算基础设施中不可或缺的核心战略资源。
Rubin NVL72 的存储膨胀效应
根据 Citi 与其他市场分析机构的拆解,Vera Rubin 架构中 ICMS 对 NAND 的需求是爆炸性的。除了标准的存储外,BlueField-4 驱动的 ICMS 为每个 GPU 额外增加了约 16TB 的高速 NAND 快闪记忆体。对于一个满载 72 颗 GPU 的 NVL72 机柜而言,这意味着额外增加了 1,152TB(约1.15PB)的 NAND 需求。
如果 2026 年全球部署 10 万个此类机柜,将产生超过 115 Exabytes (EB) 的额外 NAND 需求,约占 2025 年全球 NAND 总供应量的 12%。这种需求不仅量大,且对性能要求极高,这直接导致了市场对企业级 SSD 供应短缺的恐慌,开启一个由卖方主导的超级循环。
这场架构革命将记忆体市场推向了「三重超级循环」(DRAM 价格上涨、NAND 缺货、HBM 售罄)。以下是四大厂的深度竞争力分析:
SK 海力士 (SK Hynix):AI 架构的设计师
地位
HBM 市场绝对霸主 (HBM3/3E 时代表占率 5~60%),NVIDIA 核心盟友。
优势
HBM4 垄断:券商推估囊括 Vera Rubin 平台 HBM4 初期订单的 70% 以上,且产能已宣布 2026 年全数售罄。
HBF 标准制定:与 SanDisk 合作推动 High Bandwidth Flash (HBF),试图将 NAND 提升至准记忆体层级。
AI-NP SSD:开发专为 ICMS 设计的 1 亿 IOPS 超高性能 SSD。
劣势
SK hynix 现在吃到 AI 超级循环,HBM3E / HBM4 几乎满载,2026 年自己也在展望里承认:后面可能面临价格修正与竞争加剧风险。多家机构点名一旦 2026 之后 HBM 供给扩张、价格转跌,对 HBM 依赖最高的就是 SK hynix,获利下修风险最大。
三星电子 (Samsung):帝国的反击与产能优势
地位
全方位解决方案提供者,产能怪兽。
优势
Turnkey HBM4:提供「记忆体+逻辑代工+封装」一站式服务的厂商,对 Google、Amazon 等自研晶片客户极具吸引力。
G3.5 直接受惠:作为全球最大 NAND 制造商,拥有最强大的企业级 SSD 与 CXL 记忆体(PBSSD)供应能力,能同时满足 HBM 与海量存储需求。
劣势
HBM 技术起步较晚,需在 Rubin 世代重建客户信心;NAND 虽有量但定价权不如 HBM 强势。
美光科技 (Micron):效率与地缘政治受益者
地位
美国主权 AI 首选,HBM+NAND 双轮驱动。
优势
双重受惠:唯一同时拥有 HBM3E/4 产能与先进企业级 SSD 的美国厂商。能同时享受 Rubin GPU 记忆体与 ICMS 存储层的红利。
能效领先:HBM 产品宣称比对手节能 30%,契合 AI 资料中心对 TCO 的极致要求。
地缘政治红利:作为唯一美国本土制造商,是北美主权 AI 云端的首选。
劣势
总产能规模小于韩系大厂,需依赖技术溢价维持高毛利,无法打价格战。
SanDisk:从存储到运算的价值重估
地位
G3.5 层级的最大纯粹受惠者,转型 AI 基础设施股。
优势
最纯粹的 G3.5 概念股:每套 Rubin 系统 1,152TB 的 NAND 需求是 SanDisk 的纯增量。其 Stargate 企业级 SSD 已获超大规模客户认证。
业务转型:从 Western Digital 分拆后,战略完全转向数据中心(营收年增26%),摆脱消费级包袱。
定价爆发力:在供应短缺下,企业级 NAND 价格可能还会翻倍,SanDisk 拥有极高利润弹性。
劣势
缺乏自有晶圆厂,走 Fabless 模式,依赖代工,产能锁定能力弱于 IDM 厂。
2026 前瞻分析:记忆体卖方市场确立
Nomura 与 Citi 一致预测,2026 年将面临严重供需失衡。DRAM 营收预计年增 51%,NAND 晶圆合约价可能翻倍。由于洁净室(Cleanroom)短缺及 HBM 对晶圆产能的消耗(HBM 消耗量是 DRAM 的 3 倍),供应紧张将持续至 2027 年中。在这场价值 10 兆美元的产业现代化浪潮中,Vera Rubin 与 ICMS 平台的出现,使记忆体厂商从配角跃升为主角。
展望 2026~2028 年,记忆体卖方市场除了来自 HBM 扩产受限与 ICMS 对企业级 SSD 的挤压,还可能出现另一个加速器:HBF(NAND 堆叠式高频宽快闪)商用化时间表前移。学界与产业界近期的共识是,由于 HBF 在制程与设计上可部分沿用 HBM 时代累积的堆叠与封装基础,导入节奏有望较 HBM 更快,并在 2027 年前后开始进入主要加速器平台的整合期。
这篇文章 辉达 Vera Rubin 引爆记忆体需求:解析 SK 海力士、三星、美光、SanDisk 优缺点 最早出现在 链新闻 ABMedia。