丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

本文作者: 包永剛 2024-03-19 18:58
導(dǎo)語:加速計(jì)算已到達(dá)臨界點(diǎn),通用計(jì)算已失去動(dòng)力。

去年英偉達(dá)市值突破1萬億之后,這家加速計(jì)算公司在全球范圍內(nèi)就吸引了越來越多的關(guān)注。

今年2月,英偉達(dá)的市值一度突破2萬億,讓這家加速計(jì)算公司的熱度再次攀升,也讓今天在加州圣何塞舉行的GTC 2024擠滿了來自全球各地超11000名與會(huì)者。

未來將是可生成的,這就是為什么這是一個(gè)全新的行業(yè)。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛開場(chǎng)就說,“我們需要一種全新的計(jì)算方式——由此我們才可以繼續(xù)擴(kuò)展,繼續(xù)降低計(jì)算成本,并在保證可持續(xù)性的同時(shí)繼續(xù)進(jìn)行越來越多的計(jì)算?!?/p>

黃仁勛說道,“加速計(jì)算已到達(dá)臨界點(diǎn),通用計(jì)算已失去動(dòng)力。與通用計(jì)算相比,加速計(jì)算使每個(gè)行業(yè)都可以大幅提速?!?/p>

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

全新的行業(yè)需要更大的模型,更大的多模態(tài)AI需要更大的GPU。

黃仁勛從口袋里掏出一塊全新的Blackwell芯片,將它與Hopper芯片并排舉起,后者顯得小了一些。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

基于NVIDIA GB200構(gòu)建的DGX SuperPOD,相比英偉達(dá)前代H100 GPU構(gòu)建的系統(tǒng),大語言模型性能飆升了30倍,能夠處理萬億參數(shù)的模型。

架構(gòu)迭代帶來如此巨大的性能提升,證明了英偉達(dá)依舊在加速計(jì)算的道路上飛速前進(jìn),英偉達(dá)進(jìn)一步拉大了與追趕者們距離。

英偉達(dá)還有更遠(yuǎn)大的目標(biāo),GTC2024上推出的NVIDIA NIM微服務(wù),通過推理加速讓生成式AI能夠普及,這才是生成式AI商業(yè)價(jià)值更高的地方。

“下一波AI浪潮將是AI對(duì)物理世界的學(xué)習(xí)?!秉S仁勛還有更長(zhǎng)遠(yuǎn)的布局。

Blackwell 架構(gòu)如何支撐10萬億參數(shù)模型需求?

最新的Blackwell 架構(gòu)是兩年前推出的Hopper架構(gòu)的繼承者,延續(xù)過去英偉達(dá)以科學(xué)家名字命名架構(gòu)的方式,新架構(gòu)是以一位加州大學(xué)伯克利分校的數(shù)學(xué)家 David Harold Blackwell 命名。這位數(shù)學(xué)家專門研究博弈論和統(tǒng)計(jì)學(xué),是第一位入選美國(guó)國(guó)家科學(xué)院的黑人學(xué)者。

相比Hopper架構(gòu)GPU,Blackwell架構(gòu)GPU單芯片訓(xùn)練性能(FP8)是Hopper架構(gòu)的2.5 倍,推理性能(FP4)是Hopper架構(gòu)的5倍。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

要讓Blackwell架構(gòu)支撐高達(dá)10萬億參數(shù)的模型訓(xùn)練和實(shí)時(shí) LLM 推理,需要一系列獨(dú)特的技術(shù)。

先進(jìn)的工藝和Chiplet技術(shù)就是關(guān)鍵之一,Blackwell架構(gòu)GPU具有2080億個(gè)晶體管,采用專門定制的雙倍光刻極限尺寸 4NP TSMC 工藝制造,通過 10 TB/s 的片間互聯(lián),將 GPU 裸片連接成一塊統(tǒng)一的 GPU。

為了更好支持Transformer模型,Balckwell架構(gòu)集成了第二代Transformer 引擎,支持全新微張量縮放,集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA動(dòng)態(tài)范圍管理算法,Blackwell將在新型FP4 AI推理能力下實(shí)現(xiàn)算力和模型大小翻倍。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

為了擴(kuò)大Blackwell規(guī)模,NVIDIA構(gòu)建了一款名為NVLink Switch的新芯片。每個(gè)芯片可以以每秒1.8 TB的速度(幾乎是上一代的10倍)連接四個(gè)NVLink,通過減少網(wǎng)絡(luò)內(nèi)流量來消除流量擁塞,幫助構(gòu)建GB200。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

NVIDIA GB200 Grace Blackwell 超級(jí)芯片通過 900GB/s 超低功耗的NVLink芯片間互連,將兩個(gè) Blackwell NVIDIA B200 Tensor Core GPU 連接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的關(guān)鍵組件。

NVIDIA GB200 NVL72是多節(jié)點(diǎn)、液冷、機(jī)架級(jí)系統(tǒng),將36個(gè)Grace Blackwell超級(jí)芯片組合在一起,其中包含通過第五代NVLink相互連接的72 個(gè)Blackwell GPU 和 36 個(gè) Grace CPU,還內(nèi)置 NVIDIA BlueField-3 數(shù)據(jù)處理器,可在超大規(guī)模 AI 云中實(shí)現(xiàn)云網(wǎng)絡(luò)加速、組合式存儲(chǔ)、零信任安全和 GPU 計(jì)算彈性。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

相較于同樣數(shù)量的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在單個(gè)機(jī)架中可實(shí)現(xiàn)720 petaflops 的 AI 訓(xùn)練性能和 1.4 exaflops 的 AI 推理性能。該機(jī)器包含600,000個(gè)零件,重3,000磅(約1360.78公斤)。

黃仁勛介紹:“此時(shí)此刻,地球上也許只有三臺(tái)百億億次浮點(diǎn)運(yùn)算(exaflop)機(jī)器。而這是一個(gè)單一機(jī)架中的 1 個(gè)百億億次浮點(diǎn)運(yùn)算AI 系統(tǒng)?!?/p>

要進(jìn)一步實(shí)現(xiàn)對(duì)10萬億參數(shù)大模型的支持,需要更強(qiáng)大的DGX SuperPOD。

Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個(gè)或以上的 DGX GB200(每個(gè)包含36 個(gè) NVIDIA Grace CPU 和 72 個(gè) NVIDIA Blackwell GPU)系統(tǒng)構(gòu)建而成,采用新型高效液冷機(jī)架規(guī)模架構(gòu)。

這個(gè)系統(tǒng)還需要通過GTC 2024發(fā)布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)(為每塊GPU提供每秒800 GB 的帶寬),新一代 DGX SuperPOD 架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提高了4倍,可擴(kuò)展到數(shù)萬個(gè) GB200 超級(jí)芯片。

用戶可通過 NVLink 連接 8 個(gè) DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,可在 FP4 精度下提供 11.5 exaflops 的 AI 超級(jí)計(jì)算能力和 240 TB 的快速內(nèi)存,并可通過額外的機(jī)架進(jìn)行擴(kuò)展。

2016 年,黃仁勛給OpenAI的DGX算力是 0.17Petaflops,現(xiàn)在DGX GB200的算力以 exaflop 計(jì)算。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

除了GB200,NVIDIA還發(fā)布了一款統(tǒng)一用于 AI 模型訓(xùn)練、微調(diào)和推理的通用 AI 超級(jí)計(jì)算平臺(tái) NVIDIA DGX B200 系統(tǒng)。

DGX B200是DGX 系列的第六代產(chǎn)品,使用風(fēng)冷機(jī)架設(shè)計(jì),包含 8 個(gè) NVIDIA B200 Tensor Core GPU和2個(gè)第五代英特爾至強(qiáng)處理器。

DGX B200系統(tǒng)可提供144 petaflops(FP4精度)的AI性能、1.4TB的 GPU 顯存和 64TB/s 的顯存帶寬,使得該系統(tǒng)萬億參數(shù)模型實(shí)時(shí)推理速度比上一代產(chǎn)品提升了 15 倍。

另外,DGX B200 系統(tǒng)也包含帶有8個(gè)NVIDIA ConnectX-7 網(wǎng)卡和2個(gè)BlueField-3 DPU 的高性能網(wǎng)絡(luò),每個(gè)連接的帶寬高達(dá)400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)支持更高的 AI 性能。

“未來,數(shù)據(jù)中心將成為 AI 工廠”,黃仁勛說,“AI 工廠的使命是創(chuàng)造收入,同時(shí)也創(chuàng)造智能。”

AI推理微服務(wù)挖掘「金礦」

“生成式 AI 改變了應(yīng)用程序的編寫方式?!秉S仁勛解釋,未來的公司會(huì)將精力放在組裝 AI 模型,賦予它們?nèi)蝿?wù),給出工作產(chǎn)品示例,審查計(jì)劃和中間結(jié)果,而不是編寫軟件。

GTC 2024上,NVIDIA NIM微服務(wù)推出,這是根據(jù) NVIDIA 的加速計(jì)算庫(kù)和生成式 AI 模型構(gòu)建,提供基于 NVIDIA 推理軟件的預(yù)構(gòu)建容器,包括Triton 推理服務(wù)器和TensorRT-LLM,使開發(fā)者能夠?qū)⒉渴饡r(shí)間從幾周縮短至幾分鐘。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

“企業(yè)IT行業(yè)正坐在一座‘金礦’上,”黃仁勛說道, “他們擁有多年來創(chuàng)建的所有這些令人驚嘆的工具(和數(shù)據(jù))。如果他們能把這個(gè)‘金礦’變成 AI 助手,就能給用戶提供更多可能?!?/p>

NVIDIA 幫助領(lǐng)先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 構(gòu)建 AI 助手和虛擬助理。其它領(lǐng)域也正在采用。

在電信領(lǐng)域,NVIDIA推出 6G研究云,這是由 AI 和 Omniverse 支持的生成平臺(tái),它采用 NVIDIA 的 Sionna 神經(jīng)無線電框架、NVIDIA Aerial CUDA 加速無線電接入網(wǎng)絡(luò)和 NVIDIA Aerial Omniverse Digital Twin for 6G 構(gòu)建。

在半導(dǎo)體設(shè)計(jì)和制造領(lǐng)域,NVIDIA 正在與 TSMC 和 Synopsys 合作,將計(jì)算光刻平臺(tái) cuLitho 投入生產(chǎn),這一平臺(tái)將把半導(dǎo)體制造中計(jì)算最密集的工作負(fù)載加速 40-60 倍。

黃仁勛還宣布推出NVIDIA 地球氣候數(shù)字孿生Earth-2,可實(shí)現(xiàn)交互式高分辨率模擬,戶在數(shù)秒內(nèi)發(fā)布預(yù)警和最新預(yù)報(bào),使用傳統(tǒng)模型在CPU上運(yùn)行需要耗時(shí)數(shù)分鐘乃至數(shù)小時(shí)。

黃仁勛表示,AI 的最大影響將體現(xiàn)在醫(yī)療領(lǐng)域,NVIDIA 已經(jīng)涉足成像系統(tǒng)、基因測(cè)序儀器,并與領(lǐng)先的手術(shù)機(jī)器人公司合作。

NVIDIA 正在推出一種新型生物學(xué)軟件。 GTC 2024發(fā)布了二十多個(gè)新的微服務(wù),使全球醫(yī)療企業(yè)能夠在任何地方、任何云上利用生成式 AI 的最新進(jìn)展。

下一波AI浪潮將是 AI 對(duì)物理世界的學(xué)習(xí)

黃仁勛說,“我們需要一個(gè)模擬引擎,以數(shù)字方式為機(jī)器人呈現(xiàn)世界,這樣機(jī)器人就有了一個(gè)學(xué)習(xí)如何成為機(jī)器人的‘健身房’,我們稱這個(gè)虛擬世界為 Omniverse?!?/p>

NVIDIA宣布將以API形式提供 NVIDIA Omniverse Cloud,將全球領(lǐng)先的工業(yè)數(shù)字孿生應(yīng)用和工作流創(chuàng)建平臺(tái)的覆蓋范圍擴(kuò)展到整個(gè)軟件制造商生態(tài)系統(tǒng)。

為了展示其工作原理,黃仁勛分享了一個(gè)機(jī)器人倉(cāng)庫(kù)的演示——使用多攝像頭感知和追蹤,看顧工人并協(xié)調(diào)機(jī)器人叉車,在整個(gè)機(jī)器人堆棧運(yùn)行的情況下,這些叉車能夠?qū)崿F(xiàn)自動(dòng)駕駛。

NVIDIA還宣布將把 Omniverse 引入 Apple Vision Pro 中,通過新的 Omniverse Cloud API,開發(fā)者可以將交互式工業(yè)數(shù)字孿生流式傳輸?shù)?VR 頭顯中。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

一些全球大型工業(yè)軟件制造商正在采用 Omniverse Cloud API,包括 Ansys、Cadence、達(dá)索系統(tǒng)旗下 3DEXCITE 品牌、Hexagon、微軟、羅克韋爾自動(dòng)化、西門子和 Trimble 等。 

機(jī)器人的巨大空間

“所有會(huì)動(dòng)的東西都可能成為機(jī)器人,汽車行業(yè)將是其中的一個(gè)重要部分?!秉S仁勛表示。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解到,比亞迪已選擇 NVIDIA 的下一代計(jì)算平臺(tái)用于其自動(dòng)駕駛汽車,在 DRIVE Thor 上構(gòu)建其下一代電動(dòng)汽車車隊(duì)。昊鉑、小鵬、理想汽車、極氪也已經(jīng)宣布將在DRIVE Thor上構(gòu)建其未來的汽車產(chǎn)品。

人形機(jī)器人也是機(jī)器人的重要方向。

為此NVIDIA宣布了 Project GR00T(代表通用機(jī)器人 00 技術(shù)),這是一個(gè)為人形機(jī)器人設(shè)計(jì)的通用基礎(chǔ)模型。

Blackwell 架構(gòu)GPU性能暴漲30倍,英偉達(dá)沒給追趕者一點(diǎn)機(jī)會(huì) |GTC 2024

GR00T 脫胎于英偉達(dá)的 Isaac 機(jī)器人平臺(tái)工具,GR00T 驅(qū)動(dòng)的人形機(jī)器人能夠接受文本、語音、視頻甚至現(xiàn)場(chǎng)演示的輸入,并對(duì)其進(jìn)行處理以采取特定的操作,包括理解自然語言、模擬人類行為、在現(xiàn)實(shí)世界中導(dǎo)航和交互。

黃仁勛還推出了一款用于人形機(jī)器人的新型計(jì)算機(jī) Jetson Thor,它基于 NVIDIA Thor 系統(tǒng)級(jí)芯片,并對(duì) NVIDIA Isaac 機(jī)器人平臺(tái)進(jìn)行了重大升級(jí)。

Jetson Thor采用Blackwell架構(gòu),可提供每秒 800 萬億次8位浮點(diǎn)運(yùn)算 AI 性能,能夠執(zhí)行復(fù)雜的任務(wù)并使用 Transformer 引擎處理多個(gè)傳感器,以運(yùn)行 GR00T 等多模態(tài)生成式 AI 模型。

如果用一句話總結(jié)GTC的全新發(fā)布,可以借用黃仁勛的“我們創(chuàng)造了為生成式 AI 時(shí)代而生的處理器?!?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說