0
本文作者: 劉伊倫 | 2025-03-21 15:57 |
雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息,北京時間3月19日凌晨,英偉達公司創(chuàng)始人兼CEO黃仁勛在GTC會議上發(fā)表主題演講。
DeepSeek爆火后,英偉達被推上風口浪尖,對于AI發(fā)展是否會帶來更大數(shù)量級的算力需求,市場生出隱憂。演講開場,黃仁勛便做出回答:“全世界都錯了,Scaling law有更強的韌性,現(xiàn)在的計算量是去年同期的100倍?!?/strong>
推理讓AI具備“思維鏈”,模型響應需求時會對問題進行拆解,而不是直接給出答案,對每個步驟進行推理勢必讓產(chǎn)生的Token數(shù)量增加。模型變得更加復雜,為了保證原有的推理速度以及響應能力,便對算力提出了更高的要求。
Token是AI的基本單元,推理模型本質上是一座生產(chǎn)Token的工廠,提高Token的生產(chǎn)速度就是提高工廠的生產(chǎn)效率,效率越高,利益越大,算力要做的就是探索生產(chǎn)效率的邊界。
而具備自主推理能力的Agentic AI發(fā)展趨勢之下,勢必帶動物理AI的發(fā)展。GTC會議上,英偉達帶來Blackwell Ultra、推理系統(tǒng)Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新發(fā)布,用性能回應需求。
AI芯片將「年更」,Rubin性能達Hopper「900倍」
AI的發(fā)展讓數(shù)據(jù)中心的資本支出不斷攀升,數(shù)據(jù)顯示,2028年數(shù)據(jù)中心資本支出將達到1萬億美元,黃仁勛稱:“這其中的大部分增長可能還會加速?!?/strong>資本支出增加、盈利能力提升,帶來的是英偉達在數(shù)據(jù)中心領域的營收增加。
為了讓計算機成為更強的“Token生成器”,英偉達發(fā)布新一代“最強AI芯片” Blackwell Ultra。
單從硬件上看,Blackwell Ultra相較于GB200帶來的最大升級是采用12層堆疊的HBM3e內(nèi)存,成為全球首個顯存達到288GB的GPU。對此,有消息稱,SK海力士將獨家供應Blackwell Ultra。
高效響應推理模型,對算力、內(nèi)存及帶寬提出更高的要求。英偉達推出Blackwell Ultra GB300 NVL72機架級解決方案,集成72個Blackwell Ultra GPU和36個Grace CPU,滿足AI推理工作負載對算力和內(nèi)存的要求。
Blackwell Ultra GB300 NVL72將于2025年下半年發(fā)布,其性能為GB200 NVL72的1.5倍、40TB快速閃存為前代1.5倍,14.4TB/s帶寬為前代2倍。
要更好釋放硬件的算力,軟硬件協(xié)同變得更加重要,為此,英偉達推出分布式推理服務庫NVIDIA Dynamo,通過協(xié)調(diào)并加速數(shù)千個GPU之間的推理通信,為部署推理AI模型的AI工廠最大化其token收益。
在GPU數(shù)量相同的情況下,Dynamo可以實現(xiàn)Hopper平臺上運行Llama模型的AI工廠性能和收益翻倍,在由GB200 NVL72機架組成的集群上運行DeepSeek-R1模型時,Dynamo的智能推理優(yōu)化能將每個GPU生成的Token數(shù)量提高30倍以上,并讓Blackwell的性能相較于Hopper提升了25倍。
黃仁勛表示,Dynamo將完全開源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署AI模型的方法。
在推理模型中,Dynamo則讓Blackwell的性能達到Hopper的40倍,黃仁勛笑稱:“當Blackwell批量發(fā)貨時,就不要再拿Hopper去送人了。”
以功率為100兆瓦的AI工廠為例,其能供能45000個H100芯片,共計1400個H100 NVL8機架,生產(chǎn)力為3億個Token。同等功率下,其能供能85000個GB200芯片,共計600個機架,生產(chǎn)力為120億個Token。相較于H100 NVL8,GB200 NVL72不僅帶來更強的算力,而且在功耗和空間占用上更有優(yōu)勢。
“買得越多,省得越多?!秉S仁勛又說出了他的帶貨名言,這次還補充道,“買得越多,賺得越多?!?/strong>
旗艦版AI芯片作為GTC的“最大看點”,僅僅宣布Blackwell Ultra很難滿足外界預期。對此,黃仁勛公布了英偉達旗艦芯片的全新路線圖,芯片架構的更新周期正在加速,由每兩年推出新的產(chǎn)品線調(diào)整為“每年一更”的產(chǎn)品節(jié)奏。
每代產(chǎn)品更新均基于全棧解決方案、依托統(tǒng)一架構,并秉持“CUDA無處不在”的理念推進。按照路線圖規(guī)劃,黃仁勛提前預告了下一代AI芯片“Rubin”,遵循以往采用科學家名字命名架構的慣例,本次新架構以美國天文學家“Vera Rubin”的姓氏命名,以紀念其證實了暗物質存在的卓越貢獻。
Vera Rubin NVL144預計將在2026年下半年發(fā)布,在進行FP4精度的推理任務時,性能達到3.6ExaFLOPS,進行FP8精度的訓練任務時,性能為1.2ExaFLOPS,與GB300 NVL72相比,性能提升了3.3倍。
Vera Rubin NVL144配備HBM4,帶寬達到13TB/s,擁有達到前代1.6倍的75TB快速閃存。支持NVLink6和CX9,帶寬均達到前代2倍,實現(xiàn)數(shù)據(jù)傳輸效率的提升。
黃仁勛表示,Blackwell的性能相較于Hopper提升了68倍,而Rubin的性能將達到Hopper的900倍。
與Blackwell一樣,除了標準版本,英偉達還計劃于2027年下半年推出Rubin Ultra NVL576,在進行FP4精度的推理任務時,其性能達到15ExaFLOPS,進行FP8精度的訓練任務時,性能為5ExaFLOPS,與GB300 NVL72相比,性能提升了14倍。
Vera Rubin NVL144將配備HBM4e,帶寬達到4.6PB/s,擁有達到前代8倍的365TB快速內(nèi)存。支持NVLink7,帶寬1.5PB/s,為前代12倍。支持CX9,帶寬115.2TB/s,為前代8倍。
CPU部分,Vera芯片搭載88個定制Arm核心,支持176線程,具備1.8TB/s的NVLink - C2C(芯片到芯片)帶寬,在多芯片互聯(lián)等場景下能高效傳輸數(shù)據(jù)。GPU方面,Rubin Ultra集成4個Reticle-Sized GPU,每顆GPU擁有100PF的FP4算力,搭配1TB HBM4e顯存,在性能和內(nèi)存容量上達到新高。
在訓練、推理及應用部署等關鍵環(huán)節(jié),AI芯片平臺都需要網(wǎng)絡為其提供高速穩(wěn)定的數(shù)據(jù)傳輸。英偉達推出Spectrum-X和Quantum-X硅光網(wǎng)絡交換機,為全球最先進的AI云及AI工廠提供支持。
Spectrum-X網(wǎng)絡交換機有多種配置,最高配置512端口800Gb/s或2048端口200Gb/s,總吞吐量達400Tb/s。與之配套的Quantum - X網(wǎng)絡交換機基于200Gb/s SerDes技術,提供144端口800Gb/s的InfiniBand連接,與上一代相比,速度提升2倍、可擴展性提升5倍。
不止AI工廠,DGX Spark和DGX Station打造「AI桌面」
為了支持AI開發(fā)者、研究人員、數(shù)據(jù)科學家和學生等群體,英偉達推出“全球最小AI超級計算機”DGX Spark,其支持在臺式電腦上對大模型進行原型設計、微調(diào)和推理,用戶可以在本地、云或數(shù)據(jù)中心基礎設施中運行這些模型。
DGX Spark是基于GB10 Grace Blackwell打造的個人AI超級計算機系列產(chǎn)品,根據(jù)臺式電腦外形規(guī)格進行了針對性優(yōu)化,其支持第五代Tensor Core和FP4,每秒計算次數(shù)達到1000萬億次。GB10采用NVIDIA NVLink-C2C互連技術,帶寬是第五代PCIe的五倍,并且能夠訪問GPU和CPU之間的數(shù)據(jù),為內(nèi)存密集型AI開發(fā)者工作負載優(yōu)化性能。
英偉達的全棧AI平臺支持DGX Spark用戶將其模型從臺式機遷移到DGX Cloud、其他加速云及數(shù)據(jù)中心基礎設施中,并且無需修改代碼,簡化了對其工作流進行原型設計、微調(diào)和迭代的要求。
黃仁勛表示:“AI改變了每一層計算堆棧。我們有理由相信將出現(xiàn)一類專為AI原生開發(fā)者而設計并用于運行AI原生應用的新型計算機。借助全新的DGX個人AI計算機,AI能夠從云服務擴展到臺式電腦和邊緣應用?!?nbsp;
DGX Station是Ultra平臺的高性能桌面超級計算機,定位為面向企業(yè)和科研機構的高性能AI計算站,能夠幫助企業(yè)構建私有AI推理系統(tǒng),相較于DGX Spark,適用于更大規(guī)模的AI開發(fā)領域。
DGX Station是第一款采用英偉達GB300 Grace Blackwell Ultra桌面超級芯片構建的臺式機系統(tǒng),擁有784GB統(tǒng)一系統(tǒng)內(nèi)存,支持800Gb/s網(wǎng)絡連接的ConnectX-8 SuperNIC,AI性能達到20PFLOPS。
從數(shù)據(jù)、模型到算力,英偉達「全面驅動」人形機器人
“機器人時代已經(jīng)到來,其能夠與物理世界交互并執(zhí)行數(shù)字信息無法完成的任務?!?/strong>黃仁勛說,“世界正面臨嚴重的勞動力短缺,到2030年,全世界將短缺5000萬名工人,我們可能不得不每年支付5萬美元薪水給機器人?!?/strong>
物理AI正在改變規(guī)模50萬億美元的產(chǎn)業(yè)。英偉達推出全新Cosmos世界基礎模型,引入開放式、可完全定制的物理AI開發(fā)推理模型,包含各種模型尺寸并適用于多種輸入數(shù)據(jù)格式,幫助生成大型數(shù)據(jù)集,能將圖像從3D擴展到真實場景,縮小仿真與現(xiàn)實之間的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業(yè),可更快、更大規(guī)模地為物理AI生成更豐富的訓練數(shù)據(jù)。
“正如大語言模型改變了生成式和代理式 AI,Cosmos世界基礎模型是物理AI的一項重大突破?!?/strong>黃仁勛表示, “Cosmos為物理AI帶來了一個開放式、可完全定制的推理模型,為機器人和物理工業(yè)領域的突破性發(fā)展帶來了機遇?!?/p> 滿足數(shù)據(jù)需求之外,英偉達推出人形機器人基礎模型Isaac GR00T N1,采用“快速反應”的系統(tǒng)1以及“深度推理”的系統(tǒng)2雙架構,黃仁勛表示,Isaac GR00T N1將開源,機器人開發(fā)者可以用真實或合成數(shù)據(jù)進行后訓練。 Isaac GR00T N1基礎模型采用廣義類人推理和技能進行了預訓練,開發(fā)者可以通過進行后訓練,使其滿足特定的需求,例如完成不同工廠生產(chǎn)線的特定任務以及自主完成不同的家務。 英偉達、谷歌DeepMind及迪士尼合作開發(fā)了開源物理引擎Newton,采用Isaac GR00T N1作為底座驅動了迪士尼BDX機器人。 人形機器人是AI時代下一個增長點,從數(shù)據(jù)生成、基礎大模型到算力,英偉達為開發(fā)者提供了全面支持。 雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。