推理和機器人，哪一個才是英偉達「AI工廠」的增長故事？

本文作者：劉伊倫

2025-03-21 15:57

導語：GTC2025，英偉達帶來Blackwell Ultra、Rubin等全新發(fā)布。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))消息，北京時間3月19日凌晨，英偉達公司創(chuàng)始人兼CEO黃仁勛在GTC會議上發(fā)表主題演講。

DeepSeek爆火后，英偉達被推上風口浪尖，對于AI發(fā)展是否會帶來更大數(shù)量級的算力需求，市場生出隱憂。演講開場，黃仁勛便做出回答：“全世界都錯了，Scaling law有更強的韌性，現(xiàn)在的計算量是去年同期的100倍?！?/strong>

推理讓AI具備“思維鏈”，模型響應需求時會對問題進行拆解，而不是直接給出答案，對每個步驟進行推理勢必讓產(chǎn)生的Token數(shù)量增加。模型變得更加復雜，為了保證原有的推理速度以及響應能力，便對算力提出了更高的要求。

Token是AI的基本單元，推理模型本質上是一座生產(chǎn)Token的工廠，提高Token的生產(chǎn)速度就是提高工廠的生產(chǎn)效率，效率越高，利益越大，算力要做的就是探索生產(chǎn)效率的邊界。

而具備自主推理能力的Agentic AI發(fā)展趨勢之下，勢必帶動物理AI的發(fā)展。GTC會議上，英偉達帶來Blackwell Ultra、推理系統(tǒng)Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新發(fā)布，用性能回應需求。

AI芯片將「年更」，Rubin性能達Hopper「900倍」

AI的發(fā)展讓數(shù)據(jù)中心的資本支出不斷攀升，數(shù)據(jù)顯示，2028年數(shù)據(jù)中心資本支出將達到1萬億美元，黃仁勛稱：“這其中的大部分增長可能還會加速?！?/strong>資本支出增加、盈利能力提升，帶來的是英偉達在數(shù)據(jù)中心領域的營收增加。

為了讓計算機成為更強的“Token生成器”，英偉達發(fā)布新一代“最強AI芯片” Blackwell Ultra。

單從硬件上看，Blackwell Ultra相較于GB200帶來的最大升級是采用12層堆疊的HBM3e內(nèi)存，成為全球首個顯存達到288GB的GPU。對此，有消息稱，SK海力士將獨家供應Blackwell Ultra。

高效響應推理模型，對算力、內(nèi)存及帶寬提出更高的要求。英偉達推出Blackwell Ultra GB300 NVL72機架級解決方案，集成72個Blackwell Ultra GPU和36個Grace CPU，滿足AI推理工作負載對算力和內(nèi)存的要求。

Blackwell Ultra GB300 NVL72將于2025年下半年發(fā)布，其性能為GB200 NVL72的1.5倍、40TB快速閃存為前代1.5倍，14.4TB/s帶寬為前代2倍。

要更好釋放硬件的算力，軟硬件協(xié)同變得更加重要，為此，英偉達推出分布式推理服務庫NVIDIA Dynamo，通過協(xié)調(diào)并加速數(shù)千個GPU之間的推理通信，為部署推理AI模型的AI工廠最大化其token收益。

在GPU數(shù)量相同的情況下，Dynamo可以實現(xiàn)Hopper平臺上運行Llama模型的AI工廠性能和收益翻倍，在由GB200 NVL72機架組成的集群上運行DeepSeek-R1模型時，Dynamo的智能推理優(yōu)化能將每個GPU生成的Token數(shù)量提高30倍以上，并讓Blackwell的性能相較于Hopper提升了25倍。

黃仁勛表示，Dynamo將完全開源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM，使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署AI模型的方法。

在推理模型中，Dynamo則讓Blackwell的性能達到Hopper的40倍，黃仁勛笑稱：“當Blackwell批量發(fā)貨時，就不要再拿Hopper去送人了。”

以功率為100兆瓦的AI工廠為例，其能供能45000個H100芯片，共計1400個H100 NVL8機架，生產(chǎn)力為3億個Token。同等功率下，其能供能85000個GB200芯片，共計600個機架，生產(chǎn)力為120億個Token。相較于H100 NVL8，GB200 NVL72不僅帶來更強的算力，而且在功耗和空間占用上更有優(yōu)勢。

“買得越多，省得越多?！秉S仁勛又說出了他的帶貨名言，這次還補充道，“買得越多，賺得越多?！?/strong>

旗艦版AI芯片作為GTC的“最大看點”，僅僅宣布Blackwell Ultra很難滿足外界預期。對此，黃仁勛公布了英偉達旗艦芯片的全新路線圖，芯片架構的更新周期正在加速，由每兩年推出新的產(chǎn)品線調(diào)整為“每年一更”的產(chǎn)品節(jié)奏。

每代產(chǎn)品更新均基于全棧解決方案、依托統(tǒng)一架構，并秉持“CUDA無處不在”的理念推進。按照路線圖規(guī)劃，黃仁勛提前預告了下一代AI芯片“Rubin”，遵循以往采用科學家名字命名架構的慣例，本次新架構以美國天文學家“Vera Rubin”的姓氏命名，以紀念其證實了暗物質存在的卓越貢獻。

Vera Rubin NVL144預計將在2026年下半年發(fā)布，在進行FP4精度的推理任務時，性能達到3.6ExaFLOPS，進行FP8精度的訓練任務時，性能為1.2ExaFLOPS，與GB300 NVL72相比，性能提升了3.3倍。

Vera Rubin NVL144配備HBM4，帶寬達到13TB/s，擁有達到前代1.6倍的75TB快速閃存。支持NVLink6和CX9，帶寬均達到前代2倍，實現(xiàn)數(shù)據(jù)傳輸效率的提升。

黃仁勛表示，Blackwell的性能相較于Hopper提升了68倍，而Rubin的性能將達到Hopper的900倍。

與Blackwell一樣，除了標準版本，英偉達還計劃于2027年下半年推出Rubin Ultra NVL576，在進行FP4精度的推理任務時，其性能達到15ExaFLOPS，進行FP8精度的訓練任務時，性能為5ExaFLOPS，與GB300 NVL72相比，性能提升了14倍。

Vera Rubin NVL144將配備HBM4e，帶寬達到4.6PB/s，擁有達到前代8倍的365TB快速內(nèi)存。支持NVLink7，帶寬1.5PB/s，為前代12倍。支持CX9，帶寬115.2TB/s，為前代8倍。

CPU部分，Vera芯片搭載88個定制Arm核心，支持176線程，具備1.8TB/s的NVLink - C2C（芯片到芯片）帶寬，在多芯片互聯(lián)等場景下能高效傳輸數(shù)據(jù)。GPU方面，Rubin Ultra集成4個Reticle-Sized GPU，每顆GPU擁有100PF的FP4算力，搭配1TB HBM4e顯存，在性能和內(nèi)存容量上達到新高。

在訓練、推理及應用部署等關鍵環(huán)節(jié)，AI芯片平臺都需要網(wǎng)絡為其提供高速穩(wěn)定的數(shù)據(jù)傳輸。英偉達推出Spectrum-X和Quantum-X硅光網(wǎng)絡交換機，為全球最先進的AI云及AI工廠提供支持。

Spectrum-X網(wǎng)絡交換機有多種配置，最高配置512端口800Gb/s或2048端口200Gb/s，總吞吐量達400Tb/s。與之配套的Quantum - X網(wǎng)絡交換機基于200Gb/s SerDes技術，提供144端口800Gb/s的InfiniBand連接，與上一代相比，速度提升2倍、可擴展性提升5倍。

不止AI工廠，DGX Spark和DGX Station打造「AI桌面」

為了支持AI開發(fā)者、研究人員、數(shù)據(jù)科學家和學生等群體，英偉達推出“全球最小AI超級計算機”DGX Spark，其支持在臺式電腦上對大模型進行原型設計、微調(diào)和推理，用戶可以在本地、云或數(shù)據(jù)中心基礎設施中運行這些模型。

DGX Spark是基于GB10 Grace Blackwell打造的個人AI超級計算機系列產(chǎn)品，根據(jù)臺式電腦外形規(guī)格進行了針對性優(yōu)化，其支持第五代Tensor Core和FP4，每秒計算次數(shù)達到1000萬億次。GB10采用NVIDIA NVLink-C2C互連技術，帶寬是第五代PCIe的五倍，并且能夠訪問GPU和CPU之間的數(shù)據(jù)，為內(nèi)存密集型AI開發(fā)者工作負載優(yōu)化性能。

英偉達的全棧AI平臺支持DGX Spark用戶將其模型從臺式機遷移到DGX Cloud、其他加速云及數(shù)據(jù)中心基礎設施中，并且無需修改代碼，簡化了對其工作流進行原型設計、微調(diào)和迭代的要求。

黃仁勛表示：“AI改變了每一層計算堆棧。我們有理由相信將出現(xiàn)一類專為AI原生開發(fā)者而設計并用于運行AI原生應用的新型計算機。借助全新的DGX個人AI計算機，AI能夠從云服務擴展到臺式電腦和邊緣應用?！?nbsp;

DGX Station是Ultra平臺的高性能桌面超級計算機，定位為面向企業(yè)和科研機構的高性能AI計算站，能夠幫助企業(yè)構建私有AI推理系統(tǒng)，相較于DGX Spark，適用于更大規(guī)模的AI開發(fā)領域。

DGX Station是第一款采用英偉達GB300 Grace Blackwell Ultra桌面超級芯片構建的臺式機系統(tǒng)，擁有784GB統(tǒng)一系統(tǒng)內(nèi)存，支持800Gb/s網(wǎng)絡連接的ConnectX-8 SuperNIC，AI性能達到20PFLOPS。

從數(shù)據(jù)、模型到算力，英偉達「全面驅動」人形機器人

“機器人時代已經(jīng)到來，其能夠與物理世界交互并執(zhí)行數(shù)字信息無法完成的任務?！?/strong>黃仁勛說，“世界正面臨嚴重的勞動力短缺，到2030年，全世界將短缺5000萬名工人，我們可能不得不每年支付5萬美元薪水給機器人?！?/strong>

物理AI正在改變規(guī)模50萬億美元的產(chǎn)業(yè)。英偉達推出全新Cosmos世界基礎模型，引入開放式、可完全定制的物理AI開發(fā)推理模型，包含各種模型尺寸并適用于多種輸入數(shù)據(jù)格式，幫助生成大型數(shù)據(jù)集，能將圖像從3D擴展到真實場景，縮小仿真與現(xiàn)實之間的差距。

1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業(yè)，可更快、更大規(guī)模地為物理AI生成更豐富的訓練數(shù)據(jù)。

“正如大語言模型改變了生成式和代理式 AI，Cosmos世界基礎模型是物理AI的一項重大突破?！?/strong>黃仁勛表示， “Cosmos為物理AI帶來了一個開放式、可完全定制的推理模型，為機器人和物理工業(yè)領域的突破性發(fā)展帶來了機遇?！?/p>

滿足數(shù)據(jù)需求之外，英偉達推出人形機器人基礎模型Isaac GR00T N1，采用“快速反應”的系統(tǒng)1以及“深度推理”的系統(tǒng)2雙架構，黃仁勛表示，Isaac GR00T N1將開源，機器人開發(fā)者可以用真實或合成數(shù)據(jù)進行后訓練。

Isaac GR00T N1基礎模型采用廣義類人推理和技能進行了預訓練，開發(fā)者可以通過進行后訓練，使其滿足特定的需求，例如完成不同工廠生產(chǎn)線的特定任務以及自主完成不同的家務。

英偉達、谷歌DeepMind及迪士尼合作開發(fā)了開源物理引擎Newton，采用Isaac GR00T N1作為底座驅動了迪士尼BDX機器人。

人形機器人是AI時代下一個增長點，從數(shù)據(jù)生成、基礎大模型到算力，英偉達為開發(fā)者提供了全面支持。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

英偉達 GTC 推理模型人形機器人

要向美國「交保護費」！英偉達、AMD同意上繳15%在華 ...

英偉達H20算力芯片被曝存在嚴重安全問題；樂道沈斐截 ...

吉利汽車與極氪正式宣布合并；羅馬仕旗艦店恢復營業(yè) ...

英偉達：美國禁令逼走大量人才，大多去了華為；雷軍 ...

劉伊倫

編輯

微信YONGGANLL6662，歡迎交流

發(fā)私信

當月熱門文章

H20限時返場，降價出售已成必然

超20%的年均復合增長率，移動游戲硬件進入「第二曲線」｜ChinaJoy 2025

蓮花紫星算力項目縮水超9成；某國產(chǎn)全功能GPU性能對標H100；芯片公司40億建智算中心；華東大廠購入GB200丨算力情報局

十載磨「芯」：云天勵飛沖擊港股AI推理芯片第一股

最新文章

AI PC進入全民創(chuàng)新時代？英特爾人工智能創(chuàng)新應用大賽給出答案

Arm罕見地提前發(fā)布GPU新技術，2026年將在手機上實現(xiàn)桌面級神經(jīng)技術

超20%的年均復合增長率，移動游戲硬件進入「第二曲線」｜ChinaJoy 2025

十載磨「芯」：云天勵飛沖擊港股AI推理芯片第一股

蓮花紫星算力項目縮水超9成；某國產(chǎn)全功能GPU性能對標H100；芯片公司40億建智算中心；華東大廠購入GB200丨算力情報局

H20限時返場，降價出售已成必然

熱門搜索

蘋果美團科技硬件地平線日本小程序 Fintech 數(shù)據(jù)庫 TechCrunch Disrupt 智能投顧

推理和機器人，哪一個才是英偉達「AI工廠」的增長故事？

推理和機器人，哪一個才是英偉達「AI工廠」的增長故事？