一分为二！谷歌第八代TPU拆分训练推理，AI芯片进入专精时代

芯片世界的一次”分家”

4月22日，拉斯维加斯，Google Cloud Next 2026大会。谷歌云发布了一则让整个AI芯片行业震动的消息：第八代TPU不再是一款芯片，而是两款。

TPU 8t——专为AI模型训练而生
TPU 8i——专为AI推理优化而造

这是谷歌自2016年推出TPU以来，首次将训练与推理任务拆分至独立芯片。表面上看只是产品线的扩展，实际上却标志着AI芯片设计哲学的一次根本性转向：**从”通用全能”到”场景专精”**。

为什么要拆？一个无法回避的现实

过去十年，AI芯片的设计思路一直是”一颗芯片打天下”——训练和推理用同一款GPU或TPU来完成。但这种模式正面临越来越大的矛盾：

训练任务追求的是极致吞吐量。你需要把成千上万块芯片连成超级计算集群，拼命往里喂数据，追求的是”算得快、算得多”。

推理任务追求的是极低延迟和极高并发。你需要让数百万用户同时和AI对话，每一次回答都要在毫秒级返回，追求的是”响应快、等不了”。

这两种需求在硬件架构层面天然冲突。把两者硬塞进同一颗芯片，必然存在资源浪费——训练时推理单元闲置，推理时训练单元多余。

谷歌的答案很干脆：不妥协，拆开做。

TPU 8t：为”暴力美学”而生

训练专用芯片TPU 8t，是一款为极致规模而生的”算力怪兽”。

参数	规格
最大超级计算节点	9,600块芯片
单集群规模	超过100万块TPU
同等价格下性能	较上代提升2.8倍
每瓦性能	提升124%

三大核心技术突破

1. SparseCore加速器

训练大模型时，嵌入层（Embedding）的数据访问模式极不规则——它不像矩阵乘法那样规整，而是随机的、稀疏的。传统芯片处理这类操作时，大量计算单元在”等数据”，效率极低。

SparseCore专门处理这种不规则的内存访问，把数据依赖的全局聚合操作从矩阵乘法单元中卸载出来，避免了”零操作瓶颈”——计算单元空转等数据的尴尬。

2. 原生FP4支持

4位浮点数（FP4）听起来精度很低，但对于训练中的某些计算阶段已经足够。原生FP4支持带来了两大好处：

矩阵乘法吞吐量直接翻倍
更大的模型层可以驻留在本地硬件缓冲区，减少数据搬运

这意味着同样的芯片面积，能跑更大的模型。

3. 更均衡的VPU扩展设计

量化、softmax这些向量操作往往成为流水线的瓶颈。TPU 8t重新设计了VPU（向量处理单元）的扩展比例，让向量操作和矩阵乘法更好地重叠执行，提升整体芯片利用率。

网络：47拍比特/秒的数据高速公路

训练百万级芯片集群，最大的挑战不是单芯片算力，而是芯片之间的通信。

TPU 8t采用了全新的Virgo网络架构——扁平化两层非阻塞拓扑：

单一网络规模：可连接超过13.4万块TPU 8t
双向带宽：高达47拍比特/秒（即47,000,000 Gbps）
整体算力：超过160万ExaFlops
芯片间互联带宽：较上代提升2倍
DCN带宽：较上代提升最高4倍

存储方面，TPUDirect RDMA和TPUDirect Storage技术让数据绕过主机CPU直接传输，存储访问速度较上代Ironwood提升10倍。

TPU 8i：为”极速响应”而造

如果说TPU 8t是暴力美学的代表，那TPU 8i就是精准手术刀。

参数	规格
片上SRAM	384MB（上代3倍）
张量核心	2个
集合加速引擎	1个芯粒
性能提升	较上代提升80%
每瓦性能	提升117%
片上集合操作延迟	降低5倍

为什么推理需要384MB片上SRAM？

推理时，尤其是长上下文对话场景，最大的性能杀手是KV Cache。这是大语言模型在生成每个token时需要反复读取的”记忆缓存”。

如果KV Cache放不下片上SRAM，就得去片外内存（HBM）取数据——这一来一回，计算核心就在干等，延迟飙升。

384MB的片上SRAM意味着更大的KV Cache可以完整保留在芯片上，大幅减少核心空闲等待时间。这在处理长文本、多轮对话时效果尤为显著。

集合加速引擎（CAE）：为”思维链”加速

现代AI推理不再只是简单的”输入-输出”。像OpenAI o系列、DeepSeek-R1这样的推理模型，会在给出答案前进行多步”思考”——这就是思维链（Chain of Thought）。

思维链推理涉及大量的归约和同步操作——模型需要反复汇总中间结果、协调多芯片之间的状态。传统芯片处理这些操作时延迟很高。

TPU 8i的集合加速引擎（CAE）专门加速这类操作，片上集合操作延迟降低5倍。这意味着推理模型”思考”得更快，用户等待时间更短。

Boardfly拓扑：为推理量身定制的网络

TPU 8i放弃了训练芯片常用的3D环面（Torus）结构，采用了全新的Boardfly互联拓扑：

最大跳数：从16跳压缩至7跳（减少56%）
全对全通信延迟：改善最高50%

为什么推理芯片需要不同的网络？因为推理模型的计算模式与训练截然不同。混合专家模型（MoE）和推理模型中，token需要频繁在不同芯片之间路由——每一次路由都是一次跨芯片通信。跳数越少，延迟越低，用户体验越好。

单个Pod最多1,152块芯片，组间通过光学电路交换机（OCS）互联。

一张图看懂两代TPU差异

指标	Ironwood（TPU 7）	TPU 8t	TPU 8i
定位	统一芯片	训练专用	推理专用
性能提升	—	同等价格提升2.8倍	提升80%
每瓦性能	—	提升124%	提升117%
片上SRAM	128MB	—	384MB
存储访问速度	基准	提升10倍	—
集合操作延迟	基准	—	降低5倍
网络拓扑	—	Virgo（3D Torus）	Boardfly

拆分背后：AI智能体时代的算力新逻辑

谷歌CEO桑达尔·皮查伊在大会上透露了一个关键数据：谷歌75%的新增代码已由AI生成（经工程师审阅批准），较去年秋天的50%显著上升。

这不仅仅是一个数字，它揭示了AI正在从”辅助工具”变成”生产主力”。而当AI从”偶尔调用”变成”持续运行”，算力需求的结构就发生了根本变化：

训练是一次性的投入，推理是持续的消耗。

皮查伊指出，第八代TPU的架构旨在”以具有成本效益的方式，提供同时运行数百万个智能体所需的大规模吞吐量和低延迟”。

这也解释了为什么谷歌要把训练和推理拆开：

推理需求将远超训练。一旦AI智能体大规模部署，推理算力的消耗将是训练的数倍甚至数十倍。专用推理芯片可以在成本和性能上实现更优解。
统一芯片必然浪费。训练和推理对硬件的需求差异太大——训练需要极致的计算密度和扩展性，推理需要大容量片上缓存和低延迟互联。一颗芯片同时兼顾两者，必然有所取舍。
成本效率至关重要。当推理成为AI运营的主要成本，专用芯片带来的效率提升将直接转化为商业优势。