四月AI芯片三连发！英伟达无惧竞争

四月我们迎来了AI芯片三连发！

4月9日Intel打头阵，在Vision 2024活动中，发布了新一代Gaudi 3 AI芯片。同一天，Cloud Next 2024大会上，Google Cloud首度公开专为数据中心设计的首款Arm架构CPU──Google Axion。隔天，4月11日Meta官方发文，展示新款自研AI芯片MTIA。

在这三款产品中，Intel新一代Gaudi 3与NVIDIA H100展开直接竞争。在AI模型算力中，Gaudi3 AI芯片的模型训练速度、推理速度都更出色，分别提升了40%和50%，平均性能提升达到了50%，能效更是提高了40%。更重要的是，Gaudi3 AI芯片的成本比H100更低，妥妥的性能更强，价格更低。

从官方公布的数据来看，Gaudi 3即使是面对NVIDIA的H200 GPU，表现也毫不逊色。在LLAMA-7B以及LLAMA-70B的部分场景与H200基本是伯仲之间，差距基本在10%以内。

Intel在Vision 2024上也同步介绍了这款芯片的生产节点，计划在今年第三季度向客户发货Gaudi 3 AI芯片，包括联想、惠普、Dell和Supermicro等OEM厂商都会使用这款新品构建系统。

但是Gaudi 3很难撼动NVIDIA在AI新领域的地位，即便加上AMD的Instinct MI300。

美银分析师Vivek Arya发表研究报告指出，英伟达2024年AI加速器的占有率将超过75%，定制化芯片（如Google TPU、亚马逊Trainium/Inferentia加速器、微软Maia）的占有率为10~15%，而剩余的10~15%才是AMD、英特尔及其他未上市企业的天下。

尽管目前定制化芯片市场占有率不高，但几乎所有服务商都在加速开发各类芯片芯片产品，Google也不例外。

在9日举行的Cloud Next 2024大会上，Google Cloud首度公开专为数据中心设计的首款Arm架构CPU──Google Axion，相较目前最新一代的同等x86架构执行个体，效能最高提升50%、能源效率最高提升60%。

Axion CPU正在支持YouTube广告、Google Earth Engine等多项Google服务。Google Cloud表示,Axion基于开放架构设计,使用Arm技术的客户可以轻松采用,无需进行应用程序重构。

Google Cloud客户可在旗下Compute Engine、Kubernetes Engine、Dataproc、Dataflow、Cloud Batch等云服务中使用Axion CPU。Google Cloud计划于今年稍晚时间向客户开放Axion CPU的使用。

此外，Google Cloud还推出了下一代AI加速器TPU v5p。单个TPU v5p Pod包含8,960个芯片，是上代TPU v4 Pod的2倍以上。

TPU v5p主要用于训练规模最大、要求最高的生成式AI模型。Google Cloud不会对外直接销售Axion CPU和TPU v5p芯片，而是提供给企业客户作为云服务使用。这样做不仅可以减少对英特尔、NVIDIA等外部供应商的依赖，还能更好地优化硬件以满足自家业务的特定需求，为客户提供更具竞争力的云计算和AI服务。

相比Google在AI算力方面具有的规模，Meta的资源相对较少。不过，Meta在AI领域的投入也可谓阔绰。此前有报道称，Meta一次性购买了35万枚NVIDIA H100 GPU，每张售价数万美元，这极大地提升了其AI算力水平，为Meta在人工通用智能(AGI)领域的研发提供了强大支撑。

Meta计划将其计算基础设施升级为“相当于近60万张H100的算力”。除购买GPU外，自研是另一条路径。Meta基础设施副总裁Alexis Bjorlin表示，自研硬件能让公司控制整个技术栈，从数据中心设计到训练框架，这种垂直整合是实现AI研究突破的关键。

去年五月Meta官宣了第一代AI推理加速器MTIA v1，近期又发布下一代产品。新款MTIA芯片采用5nm工艺，拥有更多的处理核心，功耗也从25W提升到了90W，时钟频率也从 800MHz提高到了1.35GHz。

Meta表示目前已经在16个数据中心使用新款MTIA芯片，与MTIA v1相比，整体性能提高了3倍。但Meta表示，这个提升是通过测试两种芯片的 "四个关键模型" 性能表现得出的。

据Meta官方介绍，新一代MTIA的设计理念在于寻求计算、内存带宽和内存容量三者之间的理想平衡。这一改进不仅优化了芯片的性能，更使得推理任务的执行变得更为顺畅。

科技大厂自研定制化芯片，一方面是可以和自身需求高度匹配，另一方面也是出于安全和经济性的考虑，拿NVIDIA H100来说，不仅售价不菲，而且还出现了产能的问题，而AI的发展有高度依赖算力支持。

所以科技巨头内部开发芯片的运动正在增长。Meta正加入亚马逊AWS、微软和谷歌母公司Alphabet的行列，试图摆脱这种昂贵的依赖。

然而，这并未对行业对NVIDIA AI加速器的巨大需求产生显著影响。在AI热潮下，NVIDIA成为世界第三大科技公司，仅次于微软和苹果公司。

其在2024财年的数据中心运营商销售额总计475亿美元，高于前一年的150亿美元。分析师预测，这一数字在2025财年将进一步翻倍，来数年内这一地位可能还会进一步巩固。

AI转变PC处理器升级重点

AI技术的蓬勃发展不仅改变了服务器端芯片的走向，也正在深刻影响个人电脑(PC)处理器的发展。自苹果M系列芯片率先集成神经网络处理单元(NPU)以来，其他厂商也纷纷跟进。

AMD从锐龙7000系列笔记本处理器中开始加入NPU。而英特尔则在推出"AI PC"的概念时，明确将NPU作为硬性指标之一。

NPU是专门针对人工智能和机器学习场景进行优化设计的处理器。相比通用的CPU和GPU，NPU在硬件结构上做了针对性优化，专注于高效执行神经网络推理等AI相关计算任务。

过去几十年里，PC处理器的发展一直围绕CPU性能提升为主。但在AI时代，各类AI技术的爆发性增长，迫使芯片厂商不得不在AI能力上下大力气。微软推出的Windows Copilot等AI功能，对PC芯片的AI性能提出了更高要求。

为满足这一需求，AMD计划在即将推出的Strix Point APU上大幅增强NPU性能，甚至牺牲了部分CPU和GPU缓存空间。英特尔在Arrow Lake、Lunar Lake和Panther Lake等新一代芯片中也投入了大量资源，致力于提升NPU算力，分别达到约35 TOPS、105 TOPS和140 TOPS。

可以看出，AI PC正成为芯片厂商新的竞争焦点。NPU正从辅助性能向核心功能转变，未来可能成为PC处理器升级的重点，取代传统CPU和GPU性能的优先地位。这一趋势反映了AI正深刻改变着PC生态的技术架构。

SoC是大势所趋

NPU的加入也在影响芯片设计制造方式，SoC（System-on-Chip）在手机行业中已经变得非常普遍，现在，这种集成设计的理念也开始渗透到个人电脑芯片的设计中，

SoC设计的优势在于可以将CPU、GPU、NPU等各种功能单元集成在一个芯片上，使内存和处理器能够更加紧密地集成，从而提高数据传输速度和整体系统性能。这正如苹果M系列芯片所展现的优势：通过紧密集成内存，可以显著提升内存带宽。

Intel的Core Ultra和AMD的Ryzen 8000系列处理器都采用了SoC设计，充分证明了这一趋势。这些新一代处理器集成了CPU、GPU、NPU等多种功能单元，并且多数与板载内存直接连接，进一步提升了系统性能。

不过，对于桌面PC来说，SoC设计还存在一些局限性。台式机处理器往往需要更强的升级性，而SoC结构不利于后续的硬件升级。因此，Intel和AMD在笔记本芯片上采用了SoC和传统处理器+芯片组的双线并进策略，以兼顾不同市场需求。