Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

本文作者：包永剛

2024-03-19 18:58

導(dǎo)語(yǔ)：加速計(jì)算已到達(dá)臨界點(diǎn)，通用計(jì)算已失去動(dòng)力。

去年英偉達(dá)市值突破1萬(wàn)億之后，這家加速計(jì)算公司在全球范圍內(nèi)就吸引了越來(lái)越多的關(guān)注。

今年2月，英偉達(dá)的市值一度突破2萬(wàn)億，讓這家加速計(jì)算公司的熱度再次攀升，也讓今天在加州圣何塞舉行的GTC 2024擠滿了來(lái)自全球各地超11000名與會(huì)者。

“未來(lái)將是可生成的，這就是為什么這是一個(gè)全新的行業(yè)。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛開場(chǎng)就說，“我們需要一種全新的計(jì)算方式——由此我們才可以繼續(xù)擴(kuò)展，繼續(xù)降低計(jì)算成本，并在保證可持續(xù)性的同時(shí)繼續(xù)進(jìn)行越來(lái)越多的計(jì)算?！?/p>

黃仁勛說道，“加速計(jì)算已到達(dá)臨界點(diǎn)，通用計(jì)算已失去動(dòng)力。與通用計(jì)算相比，加速計(jì)算使每個(gè)行業(yè)都可以大幅提速?！?/p>

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

全新的行業(yè)需要更大的模型，更大的多模態(tài)AI需要更大的GPU。

黃仁勛從口袋里掏出一塊全新的Blackwell芯片，將它與Hopper芯片并排舉起，后者顯得小了一些。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

基于NVIDIA GB200構(gòu)建的DGX SuperPOD，相比英偉達(dá)前代H100 GPU構(gòu)建的系統(tǒng)，大語(yǔ)言模型性能飆升了30倍，能夠處理萬(wàn)億參數(shù)的模型。

架構(gòu)迭代帶來(lái)如此巨大的性能提升，證明了英偉達(dá)依舊在加速計(jì)算的道路上飛速前進(jìn)，英偉達(dá)進(jìn)一步拉大了與追趕者們距離。

英偉達(dá)還有更遠(yuǎn)大的目標(biāo)，GTC2024上推出的NVIDIA NIM微服務(wù)，通過推理加速讓生成式AI能夠普及，這才是生成式AI商業(yè)價(jià)值更高的地方。

“下一波AI浪潮將是AI對(duì)物理世界的學(xué)習(xí)。”黃仁勛還有更長(zhǎng)遠(yuǎn)的布局。

Blackwell 架構(gòu)如何支撐10萬(wàn)億參數(shù)模型需求？

最新的Blackwell 架構(gòu)是兩年前推出的Hopper架構(gòu)的繼承者，延續(xù)過去英偉達(dá)以科學(xué)家名字命名架構(gòu)的方式，新架構(gòu)是以一位加州大學(xué)伯克利分校的數(shù)學(xué)家 David Harold Blackwell 命名。這位數(shù)學(xué)家專門研究博弈論和統(tǒng)計(jì)學(xué)，是第一位入選美國(guó)國(guó)家科學(xué)院的黑人學(xué)者。

相比Hopper架構(gòu)GPU，Blackwell架構(gòu)GPU單芯片訓(xùn)練性能（FP8）是Hopper架構(gòu)的2.5 倍，推理性能（FP4）是Hopper架構(gòu)的5倍。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

要讓Blackwell架構(gòu)支撐高達(dá)10萬(wàn)億參數(shù)的模型訓(xùn)練和實(shí)時(shí) LLM 推理，需要一系列獨(dú)特的技術(shù)。

先進(jìn)的工藝和Chiplet技術(shù)就是關(guān)鍵之一，Blackwell架構(gòu)GPU具有2080億個(gè)晶體管，采用專門定制的雙倍光刻極限尺寸 4NP TSMC 工藝制造，通過 10 TB/s 的片間互聯(lián)，將 GPU 裸片連接成一塊統(tǒng)一的 GPU。

為了更好支持Transformer模型，Balckwell架構(gòu)集成了第二代Transformer 引擎，支持全新微張量縮放，集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA動(dòng)態(tài)范圍管理算法，Blackwell將在新型FP4 AI推理能力下實(shí)現(xiàn)算力和模型大小翻倍。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

為了擴(kuò)大Blackwell規(guī)模，NVIDIA構(gòu)建了一款名為NVLink Switch的新芯片。每個(gè)芯片可以以每秒1.8 TB的速度（幾乎是上一代的10倍）連接四個(gè)NVLink，通過減少網(wǎng)絡(luò)內(nèi)流量來(lái)消除流量擁塞，幫助構(gòu)建GB200。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

NVIDIA GB200 Grace Blackwell 超級(jí)芯片通過 900GB/s 超低功耗的NVLink芯片間互連，將兩個(gè) Blackwell NVIDIA B200 Tensor Core GPU 連接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的關(guān)鍵組件。

NVIDIA GB200 NVL72是多節(jié)點(diǎn)、液冷、機(jī)架級(jí)系統(tǒng)，將36個(gè)Grace Blackwell超級(jí)芯片組合在一起，其中包含通過第五代NVLink相互連接的72 個(gè)Blackwell GPU 和 36 個(gè) Grace CPU，還內(nèi)置 NVIDIA BlueField-3 數(shù)據(jù)處理器，可在超大規(guī)模 AI 云中實(shí)現(xiàn)云網(wǎng)絡(luò)加速、組合式存儲(chǔ)、零信任安全和 GPU 計(jì)算彈性。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

相較于同樣數(shù)量的NVIDIA H100 Tensor Core GPU，GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在單個(gè)機(jī)架中可實(shí)現(xiàn)720 petaflops 的 AI 訓(xùn)練性能和 1.4 exaflops 的 AI 推理性能。該機(jī)器包含600,000個(gè)零件，重3,000磅（約1360.78公斤）。

黃仁勛介紹：“此時(shí)此刻，地球上也許只有三臺(tái)百億億次浮點(diǎn)運(yùn)算（exaflop）機(jī)器。而這是一個(gè)單一機(jī)架中的 1 個(gè)百億億次浮點(diǎn)運(yùn)算AI 系統(tǒng)。”

要進(jìn)一步實(shí)現(xiàn)對(duì)10萬(wàn)億參數(shù)大模型的支持，需要更強(qiáng)大的DGX SuperPOD。

Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個(gè)或以上的 DGX GB200（每個(gè)包含36 個(gè) NVIDIA Grace CPU 和 72 個(gè) NVIDIA Blackwell GPU）系統(tǒng)構(gòu)建而成，采用新型高效液冷機(jī)架規(guī)模架構(gòu)。

這個(gè)系統(tǒng)還需要通過GTC 2024發(fā)布的第五代NVIDIA NVLink，NVIDIA BlueField-3 DPU，NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)（為每塊GPU提供每秒800 GB 的帶寬），新一代 DGX SuperPOD 架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提高了4倍，可擴(kuò)展到數(shù)萬(wàn)個(gè) GB200 超級(jí)芯片。

用戶可通過 NVLink 連接 8 個(gè) DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU，可在 FP4 精度下提供 11.5 exaflops 的 AI 超級(jí)計(jì)算能力和 240 TB 的快速內(nèi)存，并可通過額外的機(jī)架進(jìn)行擴(kuò)展。

2016 年，黃仁勛給OpenAI的DGX算力是 0.17Petaflops，現(xiàn)在DGX GB200的算力以 exaflop 計(jì)算。

除了GB200，NVIDIA還發(fā)布了一款統(tǒng)一用于 AI 模型訓(xùn)練、微調(diào)和推理的通用 AI 超級(jí)計(jì)算平臺(tái) NVIDIA DGX B200 系統(tǒng)。

DGX B200是DGX 系列的第六代產(chǎn)品，使用風(fēng)冷機(jī)架設(shè)計(jì)，包含 8 個(gè) NVIDIA B200 Tensor Core GPU和2個(gè)第五代英特爾至強(qiáng)處理器。

DGX B200系統(tǒng)可提供144 petaflops（FP4精度）的AI性能、1.4TB的 GPU 顯存和 64TB/s 的顯存帶寬，使得該系統(tǒng)萬(wàn)億參數(shù)模型實(shí)時(shí)推理速度比上一代產(chǎn)品提升了 15 倍。

另外，DGX B200 系統(tǒng)也包含帶有8個(gè)NVIDIA ConnectX-7 網(wǎng)卡和2個(gè)BlueField-3 DPU 的高性能網(wǎng)絡(luò)，每個(gè)連接的帶寬高達(dá)400 Gb/s，可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)支持更高的 AI 性能。

“未來(lái)，數(shù)據(jù)中心將成為 AI 工廠”，黃仁勛說，“AI 工廠的使命是創(chuàng)造收入，同時(shí)也創(chuàng)造智能?！?/p>

AI推理微服務(wù)挖掘「金礦」

“生成式 AI 改變了應(yīng)用程序的編寫方式?！秉S仁勛解釋，未來(lái)的公司會(huì)將精力放在組裝 AI 模型，賦予它們?nèi)蝿?wù)，給出工作產(chǎn)品示例，審查計(jì)劃和中間結(jié)果，而不是編寫軟件。

GTC 2024上，NVIDIA NIM微服務(wù)推出，這是根據(jù) NVIDIA 的加速計(jì)算庫(kù)和生成式 AI 模型構(gòu)建，提供基于 NVIDIA 推理軟件的預(yù)構(gòu)建容器，包括Triton 推理服務(wù)器和TensorRT-LLM，使開發(fā)者能夠?qū)⒉渴饡r(shí)間從幾周縮短至幾分鐘。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

“企業(yè)IT行業(yè)正坐在一座‘金礦’上，”黃仁勛說道， “他們擁有多年來(lái)創(chuàng)建的所有這些令人驚嘆的工具（和數(shù)據(jù)）。如果他們能把這個(gè)‘金礦’變成 AI 助手，就能給用戶提供更多可能。”

NVIDIA 幫助領(lǐng)先的科技公司，包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 構(gòu)建 AI 助手和虛擬助理。其它領(lǐng)域也正在采用。

在電信領(lǐng)域，NVIDIA推出 6G研究云，這是由 AI 和 Omniverse 支持的生成平臺(tái)，它采用 NVIDIA 的 Sionna 神經(jīng)無(wú)線電框架、NVIDIA Aerial CUDA 加速無(wú)線電接入網(wǎng)絡(luò)和 NVIDIA Aerial Omniverse Digital Twin for 6G 構(gòu)建。

在半導(dǎo)體設(shè)計(jì)和制造領(lǐng)域，NVIDIA 正在與 TSMC 和 Synopsys 合作，將計(jì)算光刻平臺(tái) cuLitho 投入生產(chǎn)，這一平臺(tái)將把半導(dǎo)體制造中計(jì)算最密集的工作負(fù)載加速 40-60 倍。

黃仁勛還宣布推出NVIDIA 地球氣候數(shù)字孿生Earth-2，可實(shí)現(xiàn)交互式高分辨率模擬，戶在數(shù)秒內(nèi)發(fā)布預(yù)警和最新預(yù)報(bào)，使用傳統(tǒng)模型在CPU上運(yùn)行需要耗時(shí)數(shù)分鐘乃至數(shù)小時(shí)。

黃仁勛表示，AI 的最大影響將體現(xiàn)在醫(yī)療領(lǐng)域，NVIDIA 已經(jīng)涉足成像系統(tǒng)、基因測(cè)序儀器，并與領(lǐng)先的手術(shù)機(jī)器人公司合作。

NVIDIA 正在推出一種新型生物學(xué)軟件。 GTC 2024發(fā)布了二十多個(gè)新的微服務(wù)，使全球醫(yī)療企業(yè)能夠在任何地方、任何云上利用生成式 AI 的最新進(jìn)展。

下一波AI浪潮將是 AI 對(duì)物理世界的學(xué)習(xí)

黃仁勛說，“我們需要一個(gè)模擬引擎，以數(shù)字方式為機(jī)器人呈現(xiàn)世界，這樣機(jī)器人就有了一個(gè)學(xué)習(xí)如何成為機(jī)器人的‘健身房’，我們稱這個(gè)虛擬世界為 Omniverse?！?/p>

NVIDIA宣布將以API形式提供 NVIDIA Omniverse Cloud，將全球領(lǐng)先的工業(yè)數(shù)字孿生應(yīng)用和工作流創(chuàng)建平臺(tái)的覆蓋范圍擴(kuò)展到整個(gè)軟件制造商生態(tài)系統(tǒng)。

為了展示其工作原理，黃仁勛分享了一個(gè)機(jī)器人倉(cāng)庫(kù)的演示——使用多攝像頭感知和追蹤，看顧工人并協(xié)調(diào)機(jī)器人叉車，在整個(gè)機(jī)器人堆棧運(yùn)行的情況下，這些叉車能夠?qū)崿F(xiàn)自動(dòng)駕駛。

NVIDIA還宣布將把 Omniverse 引入 Apple Vision Pro 中，通過新的 Omniverse Cloud API，開發(fā)者可以將交互式工業(yè)數(shù)字孿生流式傳輸?shù)?VR 頭顯中。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

一些全球大型工業(yè)軟件制造商正在采用 Omniverse Cloud API，包括 Ansys、Cadence、達(dá)索系統(tǒng)旗下 3DEXCITE 品牌、Hexagon、微軟、羅克韋爾自動(dòng)化、西門子和 Trimble 等。

機(jī)器人的巨大空間

“所有會(huì)動(dòng)的東西都可能成為機(jī)器人，汽車行業(yè)將是其中的一個(gè)重要部分?！秉S仁勛表示。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))了解到，比亞迪已選擇 NVIDIA 的下一代計(jì)算平臺(tái)用于其自動(dòng)駕駛汽車，在 DRIVE Thor 上構(gòu)建其下一代電動(dòng)汽車車隊(duì)。昊鉑、小鵬、理想汽車、極氪也已經(jīng)宣布將在DRIVE Thor上構(gòu)建其未來(lái)的汽車產(chǎn)品。

人形機(jī)器人也是機(jī)器人的重要方向。

為此NVIDIA宣布了 Project GR00T（代表通用機(jī)器人 00 技術(shù)），這是一個(gè)為人形機(jī)器人設(shè)計(jì)的通用基礎(chǔ)模型。

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

GR00T 脫胎于英偉達(dá)的 Isaac 機(jī)器人平臺(tái)工具，GR00T 驅(qū)動(dòng)的人形機(jī)器人能夠接受文本、語(yǔ)音、視頻甚至現(xiàn)場(chǎng)演示的輸入，并對(duì)其進(jìn)行處理以采取特定的操作，包括理解自然語(yǔ)言、模擬人類行為、在現(xiàn)實(shí)世界中導(dǎo)航和交互。

黃仁勛還推出了一款用于人形機(jī)器人的新型計(jì)算機(jī) Jetson Thor，它基于 NVIDIA Thor 系統(tǒng)級(jí)芯片，并對(duì) NVIDIA Isaac 機(jī)器人平臺(tái)進(jìn)行了重大升級(jí)。

Jetson Thor采用Blackwell架構(gòu)，可提供每秒 800 萬(wàn)億次8位浮點(diǎn)運(yùn)算 AI 性能，能夠執(zhí)行復(fù)雜的任務(wù)并使用 Transformer 引擎處理多個(gè)傳感器，以運(yùn)行 GR00T 等多模態(tài)生成式 AI 模型。

如果用一句話總結(jié)GTC的全新發(fā)布，可以借用黃仁勛的“我們創(chuàng)造了為生成式 AI 時(shí)代而生的處理器?！?/p>

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024

Blackwell 架構(gòu)GPU性能暴漲30倍，英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) ｜GTC 2024