AI PC的概念逐渐深入人心,CounterPoint数据显示今年一季度出货的笔记本大约45%都是AI PC,成功带动全球PC市场止住了连续八个季度的颓势,终于反弹增长约3%。
行业对于AI PC的定义也逐渐明晰,CPU、GPU、NPU三大引擎被认为都是必需,而且各有所长。
其中CPU适合通用性负载,最为灵活,新兴的NPU适合持续性低负载以大大节约功耗,只是应用范围还比较有限,算力也不可能太高,GPU则凭借无可比拟的强大算力,一直承担着核心责任。
这方面最有话语权的自然是NVIDIA,一方面是专业级的GPU加速器近乎垄断整个行业,另一方面是消费级的GeForce RTX 40系列GPU正在各行各业变革体验。
2018年,NVIDIA推出了全新的GeForce RTX 20系列GPU、RTX技术,首次通过专用的Tensor Core为AI提供全面加速,DLSS超分辨率技术正是AI在游戏中最领先、最直观的体现。
即使是入门的GeForce RTX 4050笔记本电脑GPU,也可提供高达194 TOPS的算力,GeForce RTX 4090 D则能提供高达1177 TOPS的算力,覆盖各式台式机、笔记本、工作站,而目前没有独立GPU的轻量级AI PC,算力只有大约10-45 TOPS,下一代才能突破100 TOPS。
硬件之上,NVIDIA RTX也提供了极为丰富的AI相关开发套件和应用软件加速,尤其是TensorRT可以大大加速非常热门的AIGC模型,包括最流行的Stable Diffusion 1.5、SDXL 1.0等等,还获得了全新UL Procyon AI图像生成基准测试的支持。
目前,RTX AI PC已拥有超过1亿用户、500多款应用和游戏,形成了丰富的生态。
近日,NVIDIA举办了一场特别的RTX AI媒体品鉴会,宣布了多项AI相关内容更新,展示了多项AIGC艺术创作作品,并演示了最新的技术DEMO。
【NVIDIA RTX AI:无处不在】
在全行业的合力推进之下,AI技术尤其是AIGC正在极大普及,深入各行各业,概括起来可分为绘画、平面设计、3D创作、视频编辑、视频体验、会议/直播、文档助手、编程开发、游戏、游戏开发等十大领域。
在每一个领域甚至每一个场景,NVIDIA RTX GPU都在提供各种创新的加速技术。
Stable Diffusion生图绘画,RTX GPU是PC上最快的加速方法。RTX 4090 D默认可以每秒生成8张图,TensorRT加速后结合进一步性能优化,每秒生成超过120张图片。
RTX GPU还是最具生产力的加速方法,支持市面上所有的SD WebUI(Automatic1111、ComfyUI、SD-Forge、秋葉等),支持最先进的SD工作流(LoRA、ControlNet、微调、AnimateDiff、IPAdapter、InstantID、实时绘画等)。
平面设计,全面支持市面上主流的设计软件,可为各种图片编辑功能提供加速。
诸如智能肖像、对象选择、细节增强、图像超分辨率、图片修复、色彩还原、RAW增强、天空选择、眼部增强,等等。
来到3D设计,RTX 40 系列GPU可以为各种离线渲染器、实时渲染器提供AI加速,最近流行的D5,大名鼎鼎的UE、Unity都可以从中获益匪浅,其中更是可以用到DLSS。
视频编辑方面,同样支持主流软件工具,功能也相当丰富,比如对象遮罩、自动场景检测、自动画面重构、视频超分辨率、锐化遮罩、颜色矫正、语音识别、人体跟踪、风格转换、视频补帧等。
视频体验方面,最值得一提的是RTX VSR超级分辨率、Video HDR,可大大增强在线视频的画质体验,支持在Chrome、Edge浏览器内播放任意视频,支持国内主流视频网站,而且是驱动自带功能,无需额外下载任何软件、插件。
无论是最新的RTX 40系列,还是早期的RTX 30/20系列,都可以享受这一福利。
会议与直播方面,NVIDIA Broadcast提供了非常完美的解决方案,通过目光接触、人脸跟踪、背景模糊、自动聚焦、视频降噪、虚光、回声消除等等,可带来最佳的流媒体质量优化。
它支持市面上几乎所有的视频会议软件、直播软件,包括腾讯会议、钉钉、飞书、Teams、OBS等等,RTX 40/30/20系列都能用。
人机交互方面,AI对话、文档整理是典型的应用,NVIDIA也打造了ChatRTX技术Demo。,用于本地增强检索生成。
它可以使用本地的RTX 40/30 系列 GPU (8GB及以上显存) 算力加速,进行大语言模型推理,智能离线检索本地隐私文档(txt/docx/pdf等等)并生成结果,尤其是支持中文对话模型和文档检索,包括智谱ChatGLM3等等,开发者还可以自行添加其它支持TensorRT-LLM加速的大语言模型。
更关键的是,ChatRTX是免费的,而且开源。
开发方面,TensorRT可以说是当前市面上最快的深度学习推理加速框架,尤其是支持领先的中文开源模型,RTX 40/30/20 GPU都可以跑。
推理性能上,相比于LlaMA.cpp,它的生成速度可以领先多达4倍,Batch Size越大优势越明显。
Stable Diffusion生图上,相比于通用的PyTorch,速度可以轻松翻番,更是可以轻松碾压苹果CoreML框架。
游戏应用中最典型的就是实时光追、DLSS的联手,可以根据需要,选择不同的质量和速度,这个就不多说了。
游戏上的典型例子就是NVIDIA RTX Remix,可以让DX8、DX9老游戏焕发新生,自动捕获游戏场景和材质,通过AI进行增强,并加入实时光追、DLSS 3/3.5,传送门RTX版就是最佳例子。
硬件方面支持RTX 40/30 GPU。
事实上,NVIDIA已经为全领域AI开发提供端到端的开发平台支持,开发、训练、整合、部署都能获得RTX GPU的加速。
Omniverse、Nemo、DLSS、ACE、Optix、VSR、Maxine、TensorRT、CUDNN……如此丰富的开发工具,恐怕仅此一家。