0
本文作者: Dude | 2020-05-16 13:23 |
雷鋒網(wǎng)新智駕按:本文作者系知名電動(dòng)汽車博主王宇波,新智駕在不變原意的基礎(chǔ)上略經(jīng)編輯。
核彈教父黃仁勛的核彈又來了,只不過這次除了GPU,還有秒殺全場算力達(dá)到2000 TOPS的自動(dòng)駕駛運(yùn)算平臺(tái)。
因?yàn)橐咔榈年P(guān)系,NVDIA GTC2020大會(huì)推遲2個(gè)月舉行,形式也從線下變成了線上。5月14日,教主一身皮衣在自家廚房侃侃而談,甚至還從自家的烤爐里拿出了新的核彈。
先來劃重點(diǎn):
基于臺(tái)積電7nm工藝的全新一代GPU架構(gòu) Ampere
新架構(gòu)產(chǎn)品將覆蓋從民用顯卡GeForce、專業(yè)圖形Quadro到科學(xué)運(yùn)算Tesla的所有產(chǎn)品支線
基于Ampere的第一款GPU產(chǎn)品NVDIA A100和使用A100 GPU的Tesla A100加速卡
面向自動(dòng)駕駛領(lǐng)域的Orin 系統(tǒng)級芯片(SoC)
在Orin SoC和Ampere GPU的加入下,DRIVE AGE平臺(tái)得到擴(kuò)展。
信息繁雜密集,但一系列的集中展示中,都在傳達(dá)——自動(dòng)駕駛時(shí)代,算力即權(quán)力的核心信息。
黃仁勛此次線上主題演講的核心是英偉達(dá)的下一代圖形處理器(GPU)架構(gòu) Ampere。
真要談這次新架構(gòu)的升級,作為顯卡用途的性能提升可能并不明顯,得益于7nm工藝和按部就班的升級節(jié)奏,相比上一代產(chǎn)品,這部分的提升大約在20-30%。
基于Ampere架構(gòu)的第一款GPU A100的技術(shù)參數(shù)讓人眼花繚亂:7nm工藝,540億個(gè)晶體管,3D堆疊技術(shù)面積高達(dá)826mm^2,同時(shí)支持TF32和BF16,擁有108個(gè)SMs的GA100,438個(gè)第三代Tensor Core,支持劃分成為多達(dá)7個(gè)GPU來執(zhí)行不同任務(wù)。
現(xiàn)在的英偉達(dá) Drive AGX Orin 系列正是基于新的2000 TOPS的自動(dòng)駕駛運(yùn)算平臺(tái)。
。Ampere 是當(dāng)前 Turing 架構(gòu)的繼承者,而包括 Xavier 在內(nèi)的英偉達(dá) Drive 平臺(tái)都基于 Turing 的前身——Volta。
值得一提的是,雖然已發(fā)布多年,但 Xavier 首次出現(xiàn)在量產(chǎn)車上還是最近的小鵬 P7(Xpilot 3.0 系統(tǒng))。不過,其他自動(dòng)駕駛開發(fā)者用上 Drive Pegasus 系統(tǒng)(整合了兩顆 Xavier 與兩顆 Volta GPU)已經(jīng)快 2 年時(shí)間。
性能與功耗方面只有 30TOPS+30W 的 Xavier 設(shè)計(jì)之初面向的就是 Level 2+ ADAS 系統(tǒng)(類似通用 Super Cruise 和特斯拉 Autopilot)。到了 Orin 時(shí)代,英偉達(dá)則轉(zhuǎn)換了戰(zhàn)略,它們準(zhǔn)備借助基于 Orin 的 Drive AGX 系統(tǒng)通吃高中低端市場。
英偉達(dá)汽車高級總監(jiān) Danny Shapiro 就表示:“除了 Level 2,我們的客戶還要求英偉達(dá)提供 Robotaxi 等更加高級的解決方案。對客戶來說,專門為不同等級的自動(dòng)駕駛開發(fā)獨(dú)立架構(gòu)成本太高了,而我們可以幫它們實(shí)現(xiàn),從 ADAS 直接打通到 Robotaxi?!?/p>
去年12月,Nvida推出了面向ADAS和自動(dòng)駕駛領(lǐng)域的新一代SOC Orin,當(dāng)時(shí)發(fā)布的時(shí)候是這么說的:
「Orin SOC擁有170億個(gè)晶體管,搭載NVDIA下一代GPU(即基于Ampere架構(gòu)的GPU)和Arm Hercules CPU核心,可以提供200TOPS是運(yùn)算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+級自動(dòng)駕駛場景?!?/p>
雷鋒網(wǎng)新智駕:圖片來自網(wǎng)絡(luò)
為了進(jìn)一步推動(dòng)自動(dòng)駕駛平臺(tái)算力前進(jìn),NVDIA這次選擇將2顆Orin Soc和2塊Ampere架構(gòu)的GPU集成到一個(gè)平臺(tái)上,算力堆砌到恐怖的2000TOPS,功耗800W,一舉拿下自動(dòng)駕駛計(jì)算平臺(tái)算力的桂冠。
實(shí)際上相同的玩法在上一代Drive AGX Pegasus平臺(tái)已經(jīng)用過,兩顆 Xavier SoC和兩顆基于圖靈架構(gòu)的GPU,算力320TOPS,功耗500W。
只不過這次在功耗提升1.6倍的情況下,英偉達(dá)交出了6.25倍的算力答卷。老黃的口氣也很大,“Drive AGX Robotaxi是應(yīng)用到全自動(dòng)駕駛研發(fā)和測試場景的最佳方案?!?/p>
談到自動(dòng)駕駛芯片,就難免要提到紅到發(fā)紫的特斯拉HW3.0硬件。HW3.0整個(gè)計(jì)算模塊可以提供144TOPS的算力,功耗需求200W,基于單個(gè)Orin SOC的運(yùn)算平臺(tái)提供200TOPS的算力,功耗只要45W。
雷鋒網(wǎng)新智駕:圖片來自網(wǎng)絡(luò)
如果僅僅從數(shù)據(jù)上來看,2年后交付的Orin SoC確實(shí)秒殺已經(jīng)量產(chǎn)裝車半年有余的HW3.0。
但是只看算力合適么?
答案是不合適,AI算法不是通用計(jì)算,算力不等于全部,算法效率更重要。
讓我們先回到第一章節(jié)提到的Tensor Core,在NVDIA給它起的硬核名字背后其實(shí)就一種通用矩陣硬件。Orin SoC的核心部分實(shí)際上就是昨天發(fā)布的Ampere GPU內(nèi)嵌,那AI能力同樣是Tensor Core賦予的。
HW3.0呢?核心是NPU。
Tensor Core所代表的通用矩陣計(jì)算和HW3.0中NPU的直接卷積計(jì)算分別是整個(gè)行業(yè)兩種截然不同的方向 —— 二者的差別優(yōu)劣,在這里難以展開,需要專門的文章進(jìn)行闡釋 。
事實(shí)上,NVDIA通過大量運(yùn)算單元的堆砌所提供的高算力支持是一個(gè)硬件廠商的本分,然而軟硬研發(fā)分離的結(jié)果往往可能導(dǎo)致算法效率得不到最好的落實(shí),這也是為什么特斯拉用NPU搭配自家AI算法的做法雖然缺乏通用性,但效率更高。
如何去理解這個(gè)事情?
筆者咨詢了一位負(fù)責(zé)NPU算法的資深工程師,得到如下回答:
“單純看TOPS沒有意義,要看實(shí)際計(jì)算結(jié)果。打個(gè)比方:你的算法好,網(wǎng)絡(luò)加速快,你只需要1/5的算力,就能得出結(jié)果。要是你的芯片算得快,但是無法得出結(jié)果,那就是在浪費(fèi)能量?,F(xiàn)在神經(jīng)網(wǎng)絡(luò)芯片,沒有統(tǒng)一標(biāo)準(zhǔn),沒有統(tǒng)一架構(gòu),所以不能用統(tǒng)一Tops值去衡量算力?!?/p>
當(dāng)然,作為一個(gè)NPU算法工程師,他是認(rèn)為直接進(jìn)行硬件計(jì)算的NPU搭配極致優(yōu)化的AI算法是最有效率的做法。
所以在領(lǐng)略了NVDIA新硬件的血脈噴張之后,筆者發(fā)現(xiàn)自動(dòng)駕駛發(fā)展核心要素其實(shí)還是算法,或者說是軟硬結(jié)合的效率。
這也是為什么NVDIA在提供Ampere架構(gòu)產(chǎn)品的時(shí)候,重點(diǎn)提到了與前一代產(chǎn)品的通用性,比如Pony Ai 基于Drive AGX Pegasus平臺(tái)研發(fā)的自動(dòng)駕駛算法在NVIDA新硬件交付之后可以直接無縫遷移到新平臺(tái)上,繼續(xù)累計(jì)此前所獲得的算法效率經(jīng)驗(yàn)。
在車載芯片領(lǐng)域,英偉達(dá)的主要對手是英特爾旗下的 Mobileye,這家以色列公司幾乎統(tǒng)治了整個(gè) ADAS 市場。至于自動(dòng)駕駛的研發(fā),也少不了 Mobileye 的身影,許多廠商甚至選擇大雜燴戰(zhàn)略,在開發(fā) L4 系統(tǒng)時(shí)用英特爾的 CPU 搭配英偉達(dá)的 GPU 或 SoC。顯然,這種架構(gòu)上的混亂狀態(tài)嚴(yán)重阻礙了代碼的重復(fù)利用,也加重了整個(gè)行業(yè)的工作量。
英偉達(dá)的賣點(diǎn)之一就是開發(fā)人員可以使用的通用架構(gòu),從最初的基準(zhǔn)開發(fā)到仿真再到路測。 更重要的是,雖然新款芯片接連問世,它們依然保留著兼容性,因此在 Xavier 或更老平臺(tái)上運(yùn)行的代碼可以直接移至 Orin 或后續(xù)產(chǎn)品。
展望未來的產(chǎn)品線,英偉達(dá)將推出 Orin ADAS SoC,可與攝像頭和雷達(dá)一起安裝在擋風(fēng)玻璃外殼中。這款入門級芯片功耗只有 5W,但卻能提供 10 TOPS 的性能,驅(qū)動(dòng)現(xiàn)有的 ADAS 功能綽綽有余。
此外,馬斯克此前在推特上提到的下一代自動(dòng)駕駛硬件則需要2-3年的時(shí)間,自動(dòng)駕駛領(lǐng)域的頭部廠商們的血戰(zhàn),即將拉開序幕……你,期待嗎?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。