芯片世界的一次”分家”

4月22日,拉斯维加斯,Google Cloud Next 2026大会。谷歌云发布了一则让整个AI芯片行业震动的消息:第八代TPU不再是一款芯片,而是两款

  • TPU 8t——专为AI模型训练而生
  • TPU 8i——专为AI推理优化而造

这是谷歌自2016年推出TPU以来,首次将训练与推理任务拆分至独立芯片。表面上看只是产品线的扩展,实际上却标志着AI芯片设计哲学的一次根本性转向:**从”通用全能”到”场景专精”**。

为什么要拆?一个无法回避的现实

过去十年,AI芯片的设计思路一直是”一颗芯片打天下”——训练和推理用同一款GPU或TPU来完成。但这种模式正面临越来越大的矛盾:

训练任务追求的是极致吞吐量。你需要把成千上万块芯片连成超级计算集群,拼命往里喂数据,追求的是”算得快、算得多”。

推理任务追求的是极低延迟和极高并发。你需要让数百万用户同时和AI对话,每一次回答都要在毫秒级返回,追求的是”响应快、等不了”。

这两种需求在硬件架构层面天然冲突。把两者硬塞进同一颗芯片,必然存在资源浪费——训练时推理单元闲置,推理时训练单元多余。

谷歌的答案很干脆:不妥协,拆开做

TPU 8t:为”暴力美学”而生

训练专用芯片TPU 8t,是一款为极致规模而生的”算力怪兽”。

参数规格
最大超级计算节点9,600块芯片
单集群规模超过100万块TPU
同等价格下性能较上代提升2.8倍
每瓦性能提升124%

三大核心技术突破

1. SparseCore加速器

训练大模型时,嵌入层(Embedding)的数据访问模式极不规则——它不像矩阵乘法那样规整,而是随机的、稀疏的。传统芯片处理这类操作时,大量计算单元在”等数据”,效率极低。

SparseCore专门处理这种不规则的内存访问,把数据依赖的全局聚合操作从矩阵乘法单元中卸载出来,避免了”零操作瓶颈”——计算单元空转等数据的尴尬。

2. 原生FP4支持

4位浮点数(FP4)听起来精度很低,但对于训练中的某些计算阶段已经足够。原生FP4支持带来了两大好处:

  • 矩阵乘法吞吐量直接翻倍
  • 更大的模型层可以驻留在本地硬件缓冲区,减少数据搬运

这意味着同样的芯片面积,能跑更大的模型。

3. 更均衡的VPU扩展设计

量化、softmax这些向量操作往往成为流水线的瓶颈。TPU 8t重新设计了VPU(向量处理单元)的扩展比例,让向量操作和矩阵乘法更好地重叠执行,提升整体芯片利用率。

网络:47拍比特/秒的数据高速公路

训练百万级芯片集群,最大的挑战不是单芯片算力,而是芯片之间的通信。

TPU 8t采用了全新的Virgo网络架构——扁平化两层非阻塞拓扑:

  • 单一网络规模:可连接超过13.4万块TPU 8t
  • 双向带宽:高达47拍比特/秒(即47,000,000 Gbps)
  • 整体算力:超过160万ExaFlops
  • 芯片间互联带宽:较上代提升2倍
  • DCN带宽:较上代提升最高4倍

存储方面,TPUDirect RDMA和TPUDirect Storage技术让数据绕过主机CPU直接传输,存储访问速度较上代Ironwood提升10倍

TPU 8i:为”极速响应”而造

如果说TPU 8t是暴力美学的代表,那TPU 8i就是精准手术刀。

参数规格
片上SRAM384MB(上代3倍)
张量核心2个
集合加速引擎1个芯粒
性能提升较上代提升80%
每瓦性能提升117%
片上集合操作延迟降低5倍

为什么推理需要384MB片上SRAM?

推理时,尤其是长上下文对话场景,最大的性能杀手是KV Cache。这是大语言模型在生成每个token时需要反复读取的”记忆缓存”。

如果KV Cache放不下片上SRAM,就得去片外内存(HBM)取数据——这一来一回,计算核心就在干等,延迟飙升。

384MB的片上SRAM意味着更大的KV Cache可以完整保留在芯片上,大幅减少核心空闲等待时间。这在处理长文本、多轮对话时效果尤为显著。

集合加速引擎(CAE):为”思维链”加速

现代AI推理不再只是简单的”输入-输出”。像OpenAI o系列、DeepSeek-R1这样的推理模型,会在给出答案前进行多步”思考”——这就是思维链(Chain of Thought)

思维链推理涉及大量的归约和同步操作——模型需要反复汇总中间结果、协调多芯片之间的状态。传统芯片处理这些操作时延迟很高。

TPU 8i的集合加速引擎(CAE)专门加速这类操作,片上集合操作延迟降低5倍。这意味着推理模型”思考”得更快,用户等待时间更短。

Boardfly拓扑:为推理量身定制的网络

TPU 8i放弃了训练芯片常用的3D环面(Torus)结构,采用了全新的Boardfly互联拓扑

  • 最大跳数:从16跳压缩至7跳(减少56%)
  • 全对全通信延迟:改善最高50%

为什么推理芯片需要不同的网络?因为推理模型的计算模式与训练截然不同。混合专家模型(MoE)和推理模型中,token需要频繁在不同芯片之间路由——每一次路由都是一次跨芯片通信。跳数越少,延迟越低,用户体验越好。

单个Pod最多1,152块芯片,组间通过光学电路交换机(OCS)互联。

一张图看懂两代TPU差异

指标Ironwood(TPU 7)TPU 8tTPU 8i
定位统一芯片训练专用推理专用
性能提升同等价格提升2.8倍提升80%
每瓦性能提升124%提升117%
片上SRAM128MB384MB
存储访问速度基准提升10倍
集合操作延迟基准降低5倍
网络拓扑Virgo(3D Torus)Boardfly

拆分背后:AI智能体时代的算力新逻辑

谷歌CEO桑达尔·皮查伊在大会上透露了一个关键数据:谷歌75%的新增代码已由AI生成(经工程师审阅批准),较去年秋天的50%显著上升。

这不仅仅是一个数字,它揭示了AI正在从”辅助工具”变成”生产主力”。而当AI从”偶尔调用”变成”持续运行”,算力需求的结构就发生了根本变化:

训练是一次性的投入,推理是持续的消耗。

皮查伊指出,第八代TPU的架构旨在”以具有成本效益的方式,提供同时运行数百万个智能体所需的大规模吞吐量和低延迟”。

这也解释了为什么谷歌要把训练和推理拆开:

  1. 推理需求将远超训练。一旦AI智能体大规模部署,推理算力的消耗将是训练的数倍甚至数十倍。专用推理芯片可以在成本和性能上实现更优解。

  2. 统一芯片必然浪费。训练和推理对硬件的需求差异太大——训练需要极致的计算密度和扩展性,推理需要大容量片上缓存和低延迟互联。一颗芯片同时兼顾两者,必然有所取舍。

  3. 成本效率至关重要。当推理成为AI运营的主要成本,专用芯片带来的效率提升将直接转化为商业优势。

对英伟达意味着什么?

谷歌的TPU策略对英伟达构成了三层挑战:

第一层:云端AI芯片竞争加剧。 TPU仅供谷歌云客户使用,在谷歌云生态内,TPU可能比英伟达GPU更具性价比。对于大规模训练+高并发推理的企业客户,TPU 8t+8i的组合拳提供了从训练到部署的一站式方案。

第二层:软件生态壁垒正在瓦解。 谷歌宣布原生PyTorch对TPU的支持已进入预览阶段——用户可以直接迁移现有PyTorch模型,无需修改代码。这意味着英伟达CUDA生态的护城河正在被逐步填平。

第三层:自研芯片浪潮加速。 谷歌、亚马逊(Trainium/Inferentia)、微软(Maia)——云计算巨头纷纷自研AI芯片,减少对英伟达的依赖。当这些芯片只在各自云平台上提供,英伟达的GPU就不再是唯一选择。

不过,英伟达也有其独特优势:通用性、成熟的软件生态、以及在企业级市场的广泛部署。短期内,英伟达仍然是AI芯片市场的绝对霸主。但长期来看,专用化趋势不可逆转。

写在最后

从通用到专用,从一颗芯片到两颗芯片,谷歌第八代TPU的拆分不只是产品策略的调整,更是AI芯片行业进入**”专精时代”**的信号。

当AI从实验室走向千行百业,当智能体从概念变成日常工具,我们对算力的需求不再是”够用就行”,而是”精准匹配”。训练就该用训练的芯片,推理就该用推理的芯片——这个逻辑,和汽车分出轿车与卡车一样自然。

未来,我们可能会看到更多”一分为二”甚至”一分为N”的芯片设计。因为AI的世界,正在变得越来越细分,也越来越专精。

这不是芯片的分裂,而是芯片的进化。