0
本文作者: 賴文昕 | 2024-04-02 10:40 |
作者:郭思、賴文昕
編輯:陳彩嫻
北京時間3月19日凌晨4點,英偉達公司創(chuàng)始人兼CEO黃仁勛踏上了美國加州圣何塞SAP中心的舞臺,開始講述 2024 GTC 主題演講《見證AI的變革時刻》。
作為“AI界春晚”中最重要的一項日程,黃仁勛在演講中揭開了號稱“史上最強AI芯片 GB200”的神秘面紗,并推出了NVIDIA Blackwell、NIM 微服務(wù)、Omniverse Cloud API 等一系列涵蓋硬件、軟件開發(fā)、云計算的更新。
此外,黃仁勛還官宣了英偉達在機器人和具身智能技術(shù)的眾多進展,包括了與比亞迪的合作以及運用在人形機器人的基礎(chǔ)模型和新型計算機。
英偉達指出,新 Blackwell 架構(gòu) GPU 組成的 GB200,將提供 4 倍于 Hopper 的訓(xùn)練性能,大模型參數(shù)達到了萬億級別。這意味著同樣的計算能力,科技廠商所需的芯片數(shù)量會減少。
在目前大模型火爆,商業(yè)落地卻前景尚不明朗的情況下,GTC對于整個產(chǎn)業(yè)鏈都來了不同凡響的技術(shù)以及商業(yè)啟發(fā)。
史上最強AI芯片“GB200”
黃仁勛稱,隨著Transformer模型被發(fā)明,大型語言模型以驚人的速度擴展,每六個月就會成倍進步,為了訓(xùn)練這些越來越大的模型,自然也需要更強的算力。
什么是“更強的算力”呢?
黃仁勛從口袋里掏出一塊 Blackwell 芯片,將它與 Hopper 芯片并排舉起,“我們需要更大的 GPU”。
他宣布英偉達將推出GB200系列芯片,將搭載專為處理萬億參數(shù)級生成式人工智能而設(shè)計的NVIDIA Blackwell架構(gòu)。
新架構(gòu)繼承了兩年前推出的 NVIDIA Hopper 架構(gòu),以 David Harold Blackwell 命名,這是加州大學(xué)伯克利分校專門研究博弈論和統(tǒng)計學(xué)的數(shù)學(xué)家,也是第一位入選美國國家科學(xué)院的黑人學(xué)者。
同自家產(chǎn)品相比,芯片的性能有了顯著的提升。GB200芯片由兩個Die封裝組合而成,擁有高達2080億個晶體管,采用了臺積電4NP工藝制程技術(shù),使其能夠支持龐大的AI模型,參數(shù)量可達10萬億。相比之下,H100/H200系列芯片則只配備了800億個晶體管。
Blackwell 能大幅提高大模型的訓(xùn)練、推理效率。 在 FP8 訓(xùn)練方面,Blackwell 的每芯片性能是其前身的 2.5 倍,在 FP4 推理方面的性能是其前身的 5 倍。它具有第五代 NVLink 互連,速度是 Hopper 的兩倍,并且可擴展至 576 個 GPU。
黃仁勛以訓(xùn)練1.8萬億參數(shù)GPT模型的資源消耗為例,直觀地展現(xiàn)了 Backwell 作為 “一個巨型 GPU” 的強大之處:使用Hopper GPU,需8000張,耗能15兆瓦,耗時90天;而Blackwell GPU僅需2000張,電力消耗減少75%,同樣90天內(nèi)完成。
為了擴大 Blackwell 的規(guī)模,英偉達還構(gòu)建了一款名為 NVLink Switch 的新芯片。每個 Blackwell 芯片能以每秒 1.8 TB 的速度與四個 NVLink 互連,并通過減少網(wǎng)絡(luò)內(nèi)流量來消除流量。
此外,GB200芯片的設(shè)計將兩個B200 Blackwell GPU與一款基于Arm架構(gòu)的Grace CPU相結(jié)合,旨在提供更加強大的計算能力和更高的效率。這種配對設(shè)計不僅增強了處理能力,也為AI大模型的運行提供了更為優(yōu)化的平臺。
正如黃仁勛所說的一樣,“整個行業(yè)都在為 Blackwell 做準(zhǔn)備”,目前 Blackwell 正在被全球各大云服務(wù)提供商、AI公司和電信公司等采用。
在GTC大會上,微軟和英偉達深化了雙方長期以來的合作關(guān)系,整合了英偉達生成式人工智能和Omniverse技術(shù),這些技術(shù)已廣泛應(yīng)用至微軟Azure、Azure AI服務(wù)、微軟Fabric以及微軟365等平臺。
微軟CEO薩提亞·納德拉表示:“與英偉達攜手合作,我們正在將人工智能的潛力變?yōu)楝F(xiàn)實,助力全球各地的人們和組織實現(xiàn)新的效益和生產(chǎn)力提升。
從將GB200 Grace Blackwell處理器引入Azure,到DGX Cloud與微軟Fabric之間的新集成,我們今天宣布的一系列舉措將確??蛻裟軌蛟贑opilot堆棧的每一層面上,從硅芯片到軟件,都能擁有最全面的平臺和工具,以構(gòu)建自己的突破性AI能力?!?/p>
除了“GB200”這位絕對主角外,黃仁勛也在GTC大會上官宣了英偉達在軟件開發(fā)的革新“NVIDIA NIM”。他表示,未來構(gòu)建軟件時不太可能從頭開始編寫或編寫一大堆 Python 代碼之類的東西,“很可能你會組建一支AI團隊?!?/p>
NVIDIA NIM 由英偉達的加速計算庫和生成式 AI 模型構(gòu)建,支持行業(yè)標(biāo)準(zhǔn) API,因此易于連接,可在英偉達龐大的 CUDA 安裝基礎(chǔ)上工作,針對新 GPU 進行重新優(yōu)化,并不斷掃描安全漏洞和漏洞,目前 Cohesity、NetApp和 Snowflake 等科技公司已在使用。
在GTC大會上,黃仁勛還宣布了與眾多公司的合作。
在半導(dǎo)體制造行業(yè),英偉達已與臺積電和Synopsys合作,將其計算光刻平臺CuLitho應(yīng)用于先進芯片的生產(chǎn)過程。
在電信行業(yè),推出NVIDIA 6G研究云,這是由生成式人工智能和Omniverse技術(shù)提供動力的平臺,致力于推進下一代通信技術(shù)的進步。
在在交通運輸行業(yè),比亞迪計劃利用英偉達的集中式車載計算平臺DRIVE Thor來開發(fā)其下一代電動車型。
此外,黃仁勛還宣布了一系列旨在推動英偉達機器人技術(shù)研發(fā)的項目,如機械臂感知、路徑規(guī)劃和運動學(xué)控制庫 Isaac Manipulator,人形機器人的模型平臺GR00T,和新型計算機 Jetson Thor。
最后,搭載了英偉達為機器人設(shè)計的首款A(yù)I芯片Jetson的迪士尼機器人orange和green也登上了舞臺,陪伴黃仁勛為演講畫上了句號。
AI芯片新皇登場的后續(xù)思考
We need Bigger GPUs… A very very big GPU!
非常非常大的GPU,是老黃對于整場GTC大會最切實的表達。畢竟,新 Blackwell 架構(gòu) GPU 組成的 GB200,將提供 4 倍于 Hopper 的訓(xùn)練性能,大模型參數(shù)達到了萬億級別。
另一方面,為了更好地服務(wù)于日益壯大的大模型應(yīng)用領(lǐng)域,英偉達推出了極具針對性的服務(wù)——模型定制服務(wù)Nvidia Inference Manager(簡稱NIM),這意味著只要有英偉達硬件的存在,用戶就能便捷地進行大模型的調(diào)試與應(yīng)用。
看得出來,老黃對于大力出奇跡這一理論也持認(rèn)可態(tài)度。
而大眾對于這一消息的第一反應(yīng)則大部分是震驚,甚至用了感到炸裂來形容。通過英偉達的種種做法,我們也不禁感慨,英偉達在AI行業(yè)的地位已有目共睹。
甚至有業(yè)內(nèi)人士用了AI時代的思科以及AI時代的Wintel來形容。(思科在網(wǎng)絡(luò)設(shè)備和協(xié)議標(biāo)準(zhǔn)化方面曾起到了至關(guān)重要的作用,而英偉達通過其GPU和AI平臺推動了AI計算基礎(chǔ)設(shè)施的發(fā)展,為數(shù)據(jù)中心、云端和邊緣計算提供了關(guān)鍵的硬件支持。)
在炸裂之后,我們可以看到,英偉達GB200的發(fā)布對于行業(yè)的技術(shù)突破和商業(yè)發(fā)展都帶來了深遠的影響。
在技術(shù)上,業(yè)界一致認(rèn)為通過不斷挖掘和利用高性能計算的力量,來拓展人工智能技術(shù)的規(guī)模化疆界,是推動行業(yè)發(fā)展的重要手段。
國家超級計算深圳中心主任馮圣中在評價英偉達GB200的卓越表現(xiàn)時,則用“進步顯著,但仍有巨大潛力可挖”進行了精辟總結(jié)。這也意味著GB200乃至整個高性能計算與AI領(lǐng)域,未來都還還可能在技術(shù)上有更為突破性的表現(xiàn)出現(xiàn)。
不過除了對GTC所展現(xiàn)出來的對技術(shù)強烈認(rèn)可和憧憬之外,更多行業(yè)人士關(guān)注的則是GB200發(fā)布對于商業(yè)和國內(nèi)整體市場的影響。
在芯片領(lǐng)域,產(chǎn)能和定價是最為被大家關(guān)注的問題。一位資深投資者向筆者指出,GB200的發(fā)布是技術(shù)上的突破,但如果產(chǎn)能能放量的話,則會更加成為商業(yè)上的炸裂。
目前整體而言,大模型的成本還是太貴。拿大家熟知百度文心為例,業(yè)內(nèi)消息指出文心大模型4.0的推理成本相比于之前的版本出現(xiàn)了大幅增長,最高據(jù)說增加了8-10倍,這意味著提供實時生成內(nèi)容服務(wù)的成本驟增。這意味GB200的成本一旦打下來,國內(nèi)芯片廠商的空間會被擠壓得更加厲害。
而在整個GTC大會上,我們發(fā)現(xiàn),不同于以往的發(fā)布單一芯片,這次英偉達直接放出整個服務(wù)器。也引發(fā)了對于市場格局的思考。國內(nèi)某大型元器件公司從業(yè)者告訴AI科技評論,英偉達的做法很明顯,自身在底層?xùn)|西很強勢,就干脆直接不做單套,直接賣整機,反正最后都得壟斷。
下放到中國市場,大家的一致看法則是,按照以往美國的做法,大概率產(chǎn)品一經(jīng)發(fā)行便會受到制裁。業(yè)內(nèi)投資人告訴AI科技評論,新一波的制裁大概率會出現(xiàn)在四月份。
這意味著,在國內(nèi)先進制程中短期內(nèi)(5年)或都難以趕上國外的現(xiàn)狀之下,H800等被閹割系列的存量運營效率價值將顯著提升,水貨和渠道貨的價格可能會迎來回彈和普漲,這其實也將進一步加劇供應(yīng)鏈緊張態(tài)勢。
在此背景下,大模型廠商如何合法合理地借鑒云服務(wù)提供商的經(jīng)驗,尋求海外采購及儲備策略,成為一個具有實際意義的研究課題。
另一方面,穩(wěn)扎穩(wěn)打投資Infra公司、把生態(tài)+推理的量提升或許也更加具有借鑒意義。
正如搭建高樓大廈,追求最頂尖的建筑材料和技術(shù)固然重要,但這并不意味著所有建設(shè)項目都將僅僅依賴于最先進的頂層設(shè)計,其余基礎(chǔ)材料也同樣至關(guān)重要。這也就意味著即使在高端產(chǎn)品領(lǐng)域我們暫時未能趕超,但在AI在基礎(chǔ)建設(shè)層面孕育大量的市場需求和發(fā)展機遇。
而對于國內(nèi)GPU廠商而言,套用某GPU從業(yè)者的話則是:英偉達牛逼慣了,大概率會被制裁,國內(nèi)的GPU公司則更加要好做產(chǎn)品,從能賣掉的做起來。
雷峰網(wǎng)作者長期關(guān)注一大模型計算與框架、芯片領(lǐng)域動態(tài),歡迎添加雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者微信lionceau2046、anna042023互通有無
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。