
一分为二!谷歌第八代TPU拆分训练推理,AI芯片进入专精时代
芯片世界的一次”分家”
4月22日,拉斯维加斯,Google Cloud Next 2026大会。谷歌云发布了一则让整个AI芯片行业震动的消息:第八代TPU不再是一款芯片,而是两款。
- TPU 8t——专为AI模型训练而生
- TPU 8i——专为AI推理优化而造
这是谷歌自2016年推出TPU以来,首次将训练与推理任务拆分至独立芯片。表面上看只是产品线的扩展,实际上却标志着AI芯片设计哲学的一次根本性转向:**从”通用全能”到”场景专精”**。
为什么要拆?一个无法回避的现实
过去十年,AI芯片的设计思路一直是”一颗芯片打天下”——训练和推理用同一款GPU或TPU来完成。但这种模式正面临越来越大的矛盾:
训练任务追求的是极致吞吐量。你需要把成千上万块芯片连成超级计算集群,拼命往里喂数据,追求的是”算得快、算得多”。
推理任务追求的是极低延迟和极高并发。你需要让数百万用户同时和AI对话,每一次回答都要在毫秒级返回,追求的是”响应快、等不了”。
这两种需求在硬件架构层面天然冲突。把两者硬塞进同一颗芯片,必然存在资源浪费——训练时推理单元闲置,推理时训练单元多余。
谷歌的答案很干脆:不妥协,拆开做。
TPU 8t:为”暴力美学”而生
训练专用芯片TPU 8t,是一款为极致规模而生的”算力怪兽”。
| 参数 | 规格 |
|---|---|
| 最大超级计算节点 | 9,600块芯片 |
| 单集群规模 | 超过100万块TPU |
| 同等价格下性能 | 较上代提升2.8倍 |
| 每瓦性能 | 提升124% |
三大核心技术突破
1. SparseCore加速器
训练大模型时,嵌入层(Embedding)的数据访问模式极不规则——它不像矩阵乘法那样规整,而是随机的、稀疏的。传统芯片处理这类操作时,大量计算单元在”等数据”,效率极低。
SparseCore专门处理这种不规则的内存访问,把数据依赖的全局聚合操作从矩阵乘法单元中卸载出来,避免了”零操作瓶颈”——计算单元空转等数据的尴尬。
2. 原生FP4支持
4位浮点数(FP4)听起来精度很低,但对于训练中的某些计算阶段已经足够。原生FP4支持带来了两大好处:
- 矩阵乘法吞吐量直接翻倍
- 更大的模型层可以驻留在本地硬件缓冲区,减少数据搬运
这意味着同样的芯片面积,能跑更大的模型。
3. 更均衡的VPU扩展设计
量化、softmax这些向量操作往往成为流水线的瓶颈。TPU 8t重新设计了VPU(向量处理单元)的扩展比例,让向量操作和矩阵乘法更好地重叠执行,提升整体芯片利用率。
网络:47拍比特/秒的数据高速公路
训练百万级芯片集群,最大的挑战不是单芯片算力,而是芯片之间的通信。
TPU 8t采用了全新的Virgo网络架构——扁平化两层非阻塞拓扑:
- 单一网络规模:可连接超过13.4万块TPU 8t
- 双向带宽:高达47拍比特/秒(即47,000,000 Gbps)
- 整体算力:超过160万ExaFlops
- 芯片间互联带宽:较上代提升2倍
- DCN带宽:较上代提升最高4倍
存储方面,TPUDirect RDMA和TPUDirect Storage技术让数据绕过主机CPU直接传输,存储访问速度较上代Ironwood提升10倍。
TPU 8i:为”极速响应”而造
如果说TPU 8t是暴力美学的代表,那TPU 8i就是精准手术刀。
| 参数 | 规格 |
|---|---|
| 片上SRAM | 384MB(上代3倍) |
| 张量核心 | 2个 |
| 集合加速引擎 | 1个芯粒 |
| 性能提升 | 较上代提升80% |
| 每瓦性能 | 提升117% |
| 片上集合操作延迟 | 降低5倍 |
为什么推理需要384MB片上SRAM?
推理时,尤其是长上下文对话场景,最大的性能杀手是KV Cache。这是大语言模型在生成每个token时需要反复读取的”记忆缓存”。
如果KV Cache放不下片上SRAM,就得去片外内存(HBM)取数据——这一来一回,计算核心就在干等,延迟飙升。
384MB的片上SRAM意味着更大的KV Cache可以完整保留在芯片上,大幅减少核心空闲等待时间。这在处理长文本、多轮对话时效果尤为显著。
集合加速引擎(CAE):为”思维链”加速
现代AI推理不再只是简单的”输入-输出”。像OpenAI o系列、DeepSeek-R1这样的推理模型,会在给出答案前进行多步”思考”——这就是思维链(Chain of Thought)。
思维链推理涉及大量的归约和同步操作——模型需要反复汇总中间结果、协调多芯片之间的状态。传统芯片处理这些操作时延迟很高。
TPU 8i的集合加速引擎(CAE)专门加速这类操作,片上集合操作延迟降低5倍。这意味着推理模型”思考”得更快,用户等待时间更短。
Boardfly拓扑:为推理量身定制的网络
TPU 8i放弃了训练芯片常用的3D环面(Torus)结构,采用了全新的Boardfly互联拓扑:
- 最大跳数:从16跳压缩至7跳(减少56%)
- 全对全通信延迟:改善最高50%
为什么推理芯片需要不同的网络?因为推理模型的计算模式与训练截然不同。混合专家模型(MoE)和推理模型中,token需要频繁在不同芯片之间路由——每一次路由都是一次跨芯片通信。跳数越少,延迟越低,用户体验越好。
单个Pod最多1,152块芯片,组间通过光学电路交换机(OCS)互联。
一张图看懂两代TPU差异
| 指标 | Ironwood(TPU 7) | TPU 8t | TPU 8i |
|---|---|---|---|
| 定位 | 统一芯片 | 训练专用 | 推理专用 |
| 性能提升 | — | 同等价格提升2.8倍 | 提升80% |
| 每瓦性能 | — | 提升124% | 提升117% |
| 片上SRAM | 128MB | — | 384MB |
| 存储访问速度 | 基准 | 提升10倍 | — |
| 集合操作延迟 | 基准 | — | 降低5倍 |
| 网络拓扑 | — | Virgo(3D Torus) | Boardfly |
拆分背后:AI智能体时代的算力新逻辑
谷歌CEO桑达尔·皮查伊在大会上透露了一个关键数据:谷歌75%的新增代码已由AI生成(经工程师审阅批准),较去年秋天的50%显著上升。
这不仅仅是一个数字,它揭示了AI正在从”辅助工具”变成”生产主力”。而当AI从”偶尔调用”变成”持续运行”,算力需求的结构就发生了根本变化:
训练是一次性的投入,推理是持续的消耗。
皮查伊指出,第八代TPU的架构旨在”以具有成本效益的方式,提供同时运行数百万个智能体所需的大规模吞吐量和低延迟”。
这也解释了为什么谷歌要把训练和推理拆开:
推理需求将远超训练。一旦AI智能体大规模部署,推理算力的消耗将是训练的数倍甚至数十倍。专用推理芯片可以在成本和性能上实现更优解。
统一芯片必然浪费。训练和推理对硬件的需求差异太大——训练需要极致的计算密度和扩展性,推理需要大容量片上缓存和低延迟互联。一颗芯片同时兼顾两者,必然有所取舍。
成本效率至关重要。当推理成为AI运营的主要成本,专用芯片带来的效率提升将直接转化为商业优势。
对英伟达意味着什么?
谷歌的TPU策略对英伟达构成了三层挑战:
第一层:云端AI芯片竞争加剧。 TPU仅供谷歌云客户使用,在谷歌云生态内,TPU可能比英伟达GPU更具性价比。对于大规模训练+高并发推理的企业客户,TPU 8t+8i的组合拳提供了从训练到部署的一站式方案。
第二层:软件生态壁垒正在瓦解。 谷歌宣布原生PyTorch对TPU的支持已进入预览阶段——用户可以直接迁移现有PyTorch模型,无需修改代码。这意味着英伟达CUDA生态的护城河正在被逐步填平。
第三层:自研芯片浪潮加速。 谷歌、亚马逊(Trainium/Inferentia)、微软(Maia)——云计算巨头纷纷自研AI芯片,减少对英伟达的依赖。当这些芯片只在各自云平台上提供,英伟达的GPU就不再是唯一选择。
不过,英伟达也有其独特优势:通用性、成熟的软件生态、以及在企业级市场的广泛部署。短期内,英伟达仍然是AI芯片市场的绝对霸主。但长期来看,专用化趋势不可逆转。
写在最后
从通用到专用,从一颗芯片到两颗芯片,谷歌第八代TPU的拆分不只是产品策略的调整,更是AI芯片行业进入**”专精时代”**的信号。
当AI从实验室走向千行百业,当智能体从概念变成日常工具,我们对算力的需求不再是”够用就行”,而是”精准匹配”。训练就该用训练的芯片,推理就该用推理的芯片——这个逻辑,和汽车分出轿车与卡车一样自然。
未来,我们可能会看到更多”一分为二”甚至”一分为N”的芯片设计。因为AI的世界,正在变得越来越细分,也越来越专精。
这不是芯片的分裂,而是芯片的进化。



