2026年6月22日,美股芯片板块全线大涨——费城半导体指数单日上涨6.42%,英特尔因与苹果合作生产芯片的消息涨逾10%,台积电ADR上涨6.94%收于462.12美元,英伟达上涨近3%。市场情绪的背后,是一个正在加速兑现的产业判断:AI算力的需求结构已从训练驱动转向推理驱动。
据行业分析,推理占AI总算力需求已从2023年的约三分之一升至2026年的三分之二,预计2028至2030年将达到70%至85%。这一结构性转变正在重新划定芯片竞争的主战场——从“谁的GPU训练最快”到“谁的芯片推理总成本最低、吞吐量最高”。
全球人工智能推理芯片市场2024年价值为854亿美元,预计将从2025年的1054.7亿美元增长至2033年的5707.7亿美元,预测期内复合年增长率为23.5%。其中,云AI推理芯片市场2025年估值为1021.9亿美元,2026年预计增长至1189亿美元,到2032年有望达到3209.8亿美元。与此同时,全球边缘AI芯片组(推理与训练合计)市场规模预计从2026年的344亿美元增至2031年的960亿美元。
在这一扩张周期中,芯片类型之间的力量对比正在发生微妙而深刻的变化。GPU仍是最大的市场占有者,在训练与推理需求的双重支撑下,预计截至2031年将保持20%的复合年增长率。但人工智能ASIC被多家机构视为增长最为迅猛的细分领域。摩根大通分析师估计,数字AI ASIC市场到2026年将达到约600亿至700亿美元,并在未来几年保持40%至50%以上的复合增长率。
更值得关注的是CPU的回归。过去三年,CPU在AI叙事中长期处于边缘位置,但推理需求的爆发正在改变这一格局。
CPU何以重返舞台中央
AI推理与训练在计算逻辑上存在本质差异。训练是一个大规模并行的矩阵运算过程——数万亿次浮点运算可以在数万个GPU核心上同时进行,这正是GPU的绝对优势领域。但推理,尤其是代理式AI(Agentic AI)的推理,涉及任务编排、工具调用、多步逻辑判断和顺序决策。这些工作负载并非纯粹的并行计算,而是大量依赖CPU擅长的复杂逻辑控制与串行处理能力。
Georgia Tech与Intel的一项研究指出,在Agentic AI场景中,50%至90%的延迟来自CPU,而非算力芯片——因为大模型要调用插件、联网搜索、处理多步逻辑,这些工作全靠CPU调度。英伟达自身也在2026年3月承认了这一现实:其高管Dion Harris公开表示,“CPU正在成为AI工作流中的瓶颈”——这来自一家以“GPU是AI唯一需要的芯片”为产业信念的公司。
从配置比例的变化可以更直观地看到这一趋势。在AI训练阶段,CPU与GPU的配置比例通常维持在1:8的极端状态,GPU承担绝大部分计算压力。而进入推理时代后,根据TrendForce报告,这一比例正快速拉近至1:1到1:2之间。英特尔CEO陈立武在2026年第一季度财报电话会议上也指出,训练负载通常需要7至8个GPU配合1个CPU,而推理负载已收紧至3至4个GPU配合1个CPU,未来有望进一步向1:1的平衡迈进。
以英伟达CEO黄仁勋的估算为参照:每GW数据中心大约需要30万颗Rubin GPU,而按每颗ARM CPU 136个核心换算,每GW数据中心大约需要22.1万颗CPU,新的CPU与GPU配比约为1:1.4。这与过去GPU主导时代的比例相比,CPU的地位已大幅提升。
GPU的护城河与推理场景的挑战
尽管CPU正在收复失地,GPU在AI推理阶段仍占据不可替代的位置,核心在于内存带宽与并行吞吐量两个维度。
在LLM推理过程中,生成每个token需读取数亿至数百亿参数,属于典型的内存密集型任务。CPU方案依赖系统DDR内存,带宽通常在50至100GB/s量级;而GPU采用GDDR6X或HBM显存,带宽可达800GB/s以上,高端GPU的HBM2e显存带宽可达1.5TB/s,是CPU的20倍。在Llama 3.1 8B模型推理中,CPU方案单任务速度仅819 token/s,而8卡GPU集群可达46,841 token/s。当并发请求增加时,CPU性能从819 token/s骤降至257 token/s,而8卡GPU集群几乎无衰减。
在算力密度方面,GPU通过数千个CUDA核心实现并行化,支持FP4/FP8等低精度格式,算力可达数百TFLOPS,而CPU的FP32算力通常在1至10 TFLOPS量级。
这些数据说明,在需要高吞吐、高并发的推理场景中——如面向大规模用户的云AI服务——GPU仍是最优解。英伟达在这一领域的主导地位尚未被撼动。根据SemiAnalysis的数据,2026年第一季度英伟达在AI训练芯片市场占有率为92%,推理芯片市场占有率为78%。IDC估计英伟达控制着约81%的AI芯片市场份额。AI加速器市场2025年约为1600亿美元,2026年正朝向2000亿美元以上迈进,推理支出预计将占其中的三分之二。
但值得关注的是,GPU在推理场景中的份额正面临多重压力——来自CPU的回归、来自ASIC的专用化竞争,以及来自成本结构的现实考量。
CPU厂商的推理反击战
CPU在推理阶段的价值重估,已经转化为可量化的市场动能。
数据中心处理器市场正受生成式AI工作负载需求激增的推动而快速增长,预计市场规模将从2025年的2150亿美元扩展至2031年的6560亿美元。国海证券指出,超大规模数据中心已进入“升级周期”,预计2026年服务器CPU出货量有望增长25%。
AMD是这一趋势的显著受益者。AI服务器需求拉动了EPYC CPU出货量,第五代Turin已占据服务器CPU市场较大份额,2026年服务器CPU业务预计至少增长50%。伯恩斯坦分析师预测AMD旗舰EPYC处理器销售额2026年有望飙升30%。在数据中心CPU市场,截至2026年初,英特尔持有约60%的份额,AMD约24%,英伟达约6%。AMD同时以Instinct加速器在AI GPU市场与英伟达竞争,使其在推理时代的双重布局中占据独特位置。
英特尔同样在积极调整战略。2026年6月Computex上,英特尔新任CEO陈立武以18A工艺加机架级解耦架构宣告:推理时代CPU重回主位,AI基础设施从“买全家桶”走向“拼乐高”。英特尔至强处理器内置的高级矩阵扩展(AMX)技术,可在未配置GPU或其他AI加速器的情况下为中小参数规模的大语言模型提供推理加速支持。
最具象征意义的变化来自英伟达自身。这家以GPU定义AI时代的公司,已在2026年相继推出Grace和Vera CPU产品线,其中Vera CPU专门面向推理与代理式AI工作负载设计。英伟达预计2026年CPU业务收入将达到200亿美元。英伟达与Arm于2026年相继推出独立CPU产品,标志着这家GPU巨头正式进入CPU赛道。
ASIC与专用芯片:第三条路线的崛起
在GPU与CPU的二元叙事之外,ASIC(专用集成电路)正成为推理市场中增长最快的变量。
TD Cowen预计,商用加速器份额将从2025年的约91%降至2030年的约75%,而定制ASIC将从约9%升至约25%。ASIC服务器出货量2026年预计增长44.6%,而GPU服务器出货增速为16.1%,仅为ASIC的三分之一。
超大规模云计算厂商正在加速自研推理芯片。Google TPU、AWS Inferentia、Meta MTIA,以及Groq的LPU(语言处理单元)等专为推理优化的ASIC芯片正加速涌现。Broadcom 2026年第二季度AI收入达108亿美元,同比增长143%,全年AI收入指引为560亿美元,同比增长180%。Broadcom预计将占据定制AI芯片市场约60%的份额。
这一趋势意味着推理芯片市场正从“通用GPU主导”走向“GPU+CPU+ASIC”的多元格局。GPU负责高强度训练与大规模推理,CPU负责任务编排与系统控制,ASIC则在特定推理负载上实现极致能效比。
成本结构与推理经济学的重塑
推理阶段的芯片选型,最终要回到一个核心问题:每百万token的推理成本。
在训练阶段,模型精度和训练时间是首要指标,成本容忍度较高。但推理是持续性、高频次的生产活动——每一次API调用、每一个用户请求都产生直接成本。这使得推理芯片的竞争从“绝对性能”转向“单位成本下的有效吞吐量”。
GPU方案在硬件采购上成本更高。以AMD MI300X为例,售价约为1万至1.5万美元,而英伟达H100的售价在2.5万至4万美元之间。但GPU的单位算力成本更低——以某云厂商的按需实例为例,GPU实例的每秒token生成成本比CPU实例低40%至60%。CPU方案的优势在于无需额外硬件投入,适合低并发、低延迟的单任务场景。
然而,随着推理规模的扩大,CPU方案的边际成本上升更快——当并发请求增加时,CPU需通过时间片轮转调度任务,上下文切换开销随并发数指数级上升。这意味着在规模化推理部署中,GPU或ASIC的初始高投入往往能通过更高的吞吐量和更低的单位成本实现更优的长期ROI。
结语
推理算力需求占比从三分之一升至三分之二,这一数字变化的背后是芯片产业竞争逻辑的深层转换。
对英伟达而言,其在训练市场的绝对优势(约90%份额)短期内难以被撼动,但推理市场的增量竞争将更为激烈。New Street Research给出了最激进的预测:英伟达推理份额到2028年可能降至20%至30%。即使保守如Bloomberg Intelligence的预测——英伟达到2030年保持70%至75%份额——ASIC出货量增速远超GPU的事实也已确立。
对AMD和英特尔而言,推理时代的CPU需求回升是一次结构性机遇。AMD以EPYC CPU加Instinct GPU的双线布局,英特尔以18A工艺加至强处理器的持续迭代,均在试图抓住这一窗口。
对云计算厂商和AI应用开发者而言,芯片选项的增加意味着更精细化的成本优化空间。从通用GPU到定制ASIC,从CPU推理到GPU加速,硬件选型将越来越取决于具体工作负载的特征——模型规模、延迟要求、并发量、成本预算。
AI推理的算力需求正在以超过训练的速度增长。这场从训练到推理的算力重心转移,正在重塑从芯片设计到数据中心架构的整个产业链条。GPU不会失去它的位置,但它也不再是唯一的答案。




