AI,这个在2023年犹如井泉喷涌进我们日常生活的词语,现如今正以惊人的速度重塑着我们的生活方式,同时间改变着整个世界的面貌。从大语言LLMs模型到先进的AI图像生成,从智能算法推荐到惊人的AI视频生成,人工智能的触角已经伸展到了科技的各个角落。
从GPT-4发布,到谷歌Bard的入场、Meta开源模型LLama的问世,再到国内文心一言、星火大模型、通义千问、月之暗面等诸多国产模型的纷纷亮相。我们目睹了全球人工智能领域的快速发展和技术突破。
如今AI的竞争依然处于百花齐放百家争鸣的阶段,每一家都在使用自身优势在AI浪潮中分得一杯羹。从北美的硅谷到欧洲的科技集群,从亚洲的研发中心到其他地区的创新孵化器,AI正在成为跨国界、跨文化的合作与竞争的焦点。
若将人工智能比作科技高峰上的璀璨之花,那么NVIDIA无疑是这些花朵赖以绽放的肥沃土壤。正是NVIDIA提供的先进计算平台,成为滋养人工智能之林的关键养分,让这些技术之花竞相开放,展现出惊世之美。
2024 NVIDIA GTC主题演讲 见证 AI 的变革时刻
每年春季,NVIDIA的GTC主题演讲就如约而至。自2019年以“GPU Computing: The Future of Computing”揭开序幕,AI便成了GTC年会的重头戏。NVIDIA始终致力于将旗下产品的强大算力与AI技术的前沿需求无缝对接。正是老黄远见卓识的策略布局,使NVIDIA在AI的黄金时代巍然屹立,稳占行业霸主之位。
2023年,老黄在演讲中详细阐述了NVIDIA在人工智能、数据中心、云计算等关键领域取得的最新成果。
重点介绍了NVIDIA Hopper GPU架构,它使AI性能相比前一代产品实现了翻倍的飞跃。同时,NVIDIA DGX Cloud为企业级用户带来了前所未有的强大算力支持。
而NVIDIA Omniverse平台则将AI技术的应用拓展到了设计和建筑行业。老黄在演讲中富有预见性地指出:我们现在正处在人工智能的‘iPhone时代’。
那么在今天的GTC大会上,老黄,这位“人类AI教父”又给我们带来了什么新鲜事呢?
Blackwell 2080亿晶体管的算力猛兽
当下,世界范围内使用最多的AI应用-LLMs,如Google的Gemini、Meta的NLLB、Maxtral的Mistral以及OpenAI的GPT-4等模型,均采用了“专家混合”(Mixtures of Experts,MoEs)技术。这些模型功能的强大,对芯片硬件提出了更高的要求。2023年,NVIDIA 凭借其Hopper架构,成功地迎接了这些挑战。
在今年的GTC上,老黄再一次地刷新了世界AI商用算力的排行榜,发布了Blackwell 架构和同名AI处理器B100、B200和GB200,产品取名自杰出数学家和统计学家 David H. Blackwell,体现了其在概率计算、博弈论、统计学和动态规划等多个领域的杰出贡献。
此次发布的 Blackwell GPU B100使用了两个台积电4NP工艺制造的芯片,芯片面积为814平方毫米,这个数据已经接近了EUV光刻技术的理论极限值(858平方毫米),两个芯片通过C2C-Interface进行相连,组成一个“1600平方毫米”的超大处理单元。
单个GPU芯片含1040亿晶体管,整体达到2080亿个,比上一代的Hopper架构增加了240亿个。每个GPU连接了四个各有24GB的HBM3E存储芯片,使得B100 AI处理器拥有192GB的高速存储,并且存储带宽达到了8TB/s。
B100/B200/H100/AMDMI300X AI处理器重点参数对比 图片源自于网络
在计算性能方面,NVIDIA 目前主要公布了 Blackwell 架构中 Tensor Cores 的性能数据。对比 NVIDIA Hopper架构的数据显示,对于低精度计算,Blackwell GPU 的性能是前代的2.5倍。
而针对 FP64 计算,性能从 67 TFLOPS 降低至 30 TFLOPS。对此,NVIDIA并没有进行解释,许多博主也对FP64精度计算性能的下降表示了疑惑。
在日常的计算任务中,FP32(单精度浮点数)和FP64是最为普遍的数据格式,它们使用32位和64位分别对浮点数进行编码,既能提供较大的数值范围也保障了较高的数值精度,但相对地,也对内存和计算资源的需求更高。
与之相对,FP16(半精度浮点数)和FP4提供的算力精度较低,特别是FP4,其低精度下的性能并不理想,即使在大型语言模型(LLMs)中开启FP4精度运行也是如此。
尚不明确NVIDIA此次为何将主要升级焦点放在FP4运算上。随着针对移动端LLMs需求的增长,对FP4运算的依赖可能有所增加,这或许促使NVIDIA优化了对FP4的支持,以提升这些应用的运算效率。
功耗方面,NVIDIA 宣布 Blackwell 系列的TDP范围在 700 至 1200 W之间。其中,风冷版本的 B100 和 B200 的 TDP 分别为 700W和 1000 W,而 1200 W版本的则需使用上水冷散热。此外,Blackwell GPU 还配备了支持 6.0 标准的 PCI-Express 控制器。
然后也放一下B100和B200的对比图,B200在运算性能与显存上对比B100有了不小的提升,相当于B100的“官方灰烬版”。同时NVIDIA还推出了GB200。
GB200就是将2个B200芯片和1个GraceCPU整合到一起,“合体之后”的性能表现将是单片H100的30倍左右的提升。当然GB200是应该是不会单独售卖的,如同去年推出的HGX 100 72X一样,GB200主要还是通过整合,然后形成一个GB200 NVL72的计算中心进行出售。
回顾最近发布的Blackwell GPU,我认为其最大亮点并非在于算力的显著提升,而是它所搭载的192GB HBM 3E高带宽存储。面对如今日益增长的模型尺寸——例如,埃隆·马斯克最近宣布开源的Grok-1模型,它至少需要800GB的显存才能运行。
若使用H100 GPU(配备80GB显存),运行该模型需要整整10张卡,而采用B100 GPU(如果每张配备192GB显存),仅需4张便可满足需求。这对于运维商而言,无疑是一种成本效率极高的解决方案。
这也是未来AI处理器发展的一个趋势,为了更好地AMD 的 Instinct MI300 系列产品形成压制。NVIDIA 还计划在今年下半年为 H100 系列加速器增加新的 H200 或 GH200 代,这将提供更高的 141 GB HBM3E 存储以及 4.8 TB/s 的存储带宽,也就是官方的显存提升版本。
Omniverse 再升级,Vision Pro应用新场景?
NVIDIA在本次的GTC 2024中进一步升级了其Omniverse平台,并将其企业技术扩展到了苹果生态系统。这一策略在于借助Vision Pro应用,使开发者得以在增强现实/虚拟现实(AR/VR)环境中利用Omniverse的强大工具。
在GTC大会上上,NVIDIA展示了设计师如何利用Vision Pro中的汽车配置工具操作车辆模型,并能够以虚拟的方式“进入”车辆内部进行查看。这种交互是通过Omniverse Cloud API实现的,此外,图形内容还可以通过云计算服务直接流式传输至Vision Pro,实现高效的图形传输网络服务。
这一升级意味着,Omniverse和Vision Pro的结合将为AR/VR领域带来更加沉浸式和互动性强的体验。用户能够在三维空间中以更加自然和直观的方式进行设计、模拟和创作,这对于产品设计、建筑可视化以及互动娱乐等多个应用场景都将是一次质的飞跃。
机器人的ChatGPT时代可能即将来临
正当我们以为今天的大会只会聚焦于算力话题时,老黄却给我们带来了意想不到的惊喜——备受瞩目的年度机器人环节如约而至,NVIDIA宣布了其人形机器人项目GR00T。
在今日的主题演讲中,黄仁勋展示了多款由GR00T平台驱动的人形机器人如何高效完成多项任务,这些机器人分别来自 Agility Robotics、Apptronik、傅利叶智能以及宇树科技。
GR00T的诞生源自NVIDIA的Isaac机器人平台工具,它基于全新的通用基础模型设计,使得GR00T驱动的人形机器人能够接收并处理文本、语音、视频乃至现场示范的输入信息,从而执行精确的操作。这些操作包括理解自然语言、模仿人类行为、在现实世界中的导航和互动等。可以说,AI已经变成了机器人的“灵魂”。
NVIDIA还开发了一款新型的“机器人大脑”计算芯片——Jetson Thor,该芯片能够执行复杂的任务,并借助Transformer引擎处理多元的传感器数据。
未来,NVIDIA将人形机器人定位为公司的一个关键战略方向。正如黄仁勋所预示的,机器人界的ChatGPT时代可能即将来临。
在过去,NVIDIA给人更多的印象就是一个游戏显卡的制造商,很少有人能够想到在不到20年的时间里,NVIDIA通过CUDA能够让GPU从一个“游戏硬件”概念变成一个改变世界的“数字石油”。
未来,随着技术的不断进步,NVIDIA的GPU很可能继续拓展其影响力。随着量子计算、边缘计算和物联网的发展,NVIDIA的技术有望在新的领域中发挥关键作用,进一步加速世界的数字化转型。