0
AI,已經(jīng)成為芯片業(yè)的下一個戰(zhàn)場。
10天前,一年一度的世界級芯片行業(yè)座談會HOT CHIPS,再次在硅谷召開。英特爾、英偉達、思科、ARM、AMD、高通等一大批芯片行業(yè)的巨頭也出席了會議,并且紛紛在本次會議上帶來了他們的最新成果。
毫不意外地,AI相關(guān)的內(nèi)容占據(jù)了很大比例,比如微軟新提出的BrainWave、Google最新公布的TPU細節(jié),都成為了熱點話題。值得一提的是,國內(nèi)AI芯片創(chuàng)業(yè)公司深鑒科技也是這次活動的金牌贊助商之一,親臨現(xiàn)場的他們也在回國之后第一時間向雷鋒網(wǎng)介紹了此次座談會的情況。首先我們先來看看此次會議中一些值得關(guān)注的分享。
在此次的HOT CHIPS上面,微軟分享的內(nèi)容主題為“Accelerating Persistent Neural Networks at Datacenter Scale”,實際上是對如何利用云端硬件處理大量AI需求的一整套思考和實踐。
微軟首先對硬件做出了自己的界定,他們將現(xiàn)有的能夠處理AI需求的芯片統(tǒng)稱為“DNN Processing Units(DPU)”,其中還分為以FPGA為基礎(chǔ)的“軟DPU”,以及相對更加固化、在形態(tài)上更接近于ASIC的“硬DPU”。
微軟也借這個機會第一次宣布了自己的FPGA云項目“Project BrainWave”,它歸屬于“軟DPU”。有趣的是,百度的SDA跟深鑒科技也出現(xiàn)在了“軟DPU”的陣營當中。對應的,Google TPU、Intel Nervana、Movidius都出現(xiàn)了在“硬DPU”陣營當中。
在接下來的演講中,微軟詳細地介紹了BrainWave的Stack。
這個架構(gòu)還具備一定的延伸性,能夠在數(shù)據(jù)中心中用多顆FPGA實現(xiàn)大規(guī)模的運算陣列。
至于BrainWave的具體架構(gòu),微軟也進行了分享。
在此次的座談會上,來自Google的大神Jeff Dean出乎意料地在一張幻燈片中透露了TPU2的規(guī)格以及簡單架構(gòu):
跟上一代一樣,每4個TPU2會組成一個運算單元,進而擁有180TeraFlops的浮點運算能力,總共64GB的HBM內(nèi)存,2400GB/s的帶寬。
后續(xù)則是一些TensorFlow架構(gòu)的常規(guī)介紹,在分享的末尾,Jeff Dean還做了一個簡單的展望,他認為隨著計算能力的上漲,神經(jīng)網(wǎng)絡(luò)的準確性還將進一步上漲,超越其他計算方法。
就此次HOT CHIPS 2017,雷鋒網(wǎng)也專門采訪了去到現(xiàn)場的深鑒科技CEO姚頌,并請他以一個旁觀者的身份發(fā)表了一下自己的看法,以下是采訪實錄。
雷鋒網(wǎng):作為本次參加并且成為HOT CHIPS的中國Startup,你們在現(xiàn)場是否有觀察到半導體業(yè)的一些新發(fā)展趨勢,可否簡單的概括一下?
姚頌:Jeff Dean這次會議的Keynote中表示:Machine learning is reshaping system architecture design. 現(xiàn)在的工業(yè)界更加關(guān)注domain specific architecture的研發(fā),除了單獨提供芯片,大家并越來越重視軟件的開發(fā),加大對客戶的支持,降低開發(fā)者的開發(fā)難度。另外,F(xiàn)PGA不斷受到更高的重視,往??赡苤挥袃傻饺齻€關(guān)于FPGA的演講,本次包括百度的 XPU,賽靈思的兩個新一代產(chǎn)品,包括RFSoc和大HBM的新FPGA,英特爾 的Stratix 10, AWS 的F1 Instance ,微軟的Brainwave等多篇關(guān)于FPGA的討論。這表明了大家更加重視新的架構(gòu)與可能。
雷鋒網(wǎng):從會議議程來看,Neural Net占用的時間是最多的。這種區(qū)分明顯不同于之前的CPU、FPGA、ASIC,又或者是應用平臺的區(qū)分,例如PC、Sever等等。您是怎么來界定這種芯片?
姚頌:很多人都在爭論怎么界定全通用的處理器架構(gòu),半通用半定制化架構(gòu),全定制化架構(gòu)。其實并不只有這三種選項,他們之間并沒有一個清晰的界限,所有的架構(gòu)可以排布在一個譜系上,彼此是一個漸變的過程。如果從應用的角度來看,不論是CPU,GPU, coarse-grained reconfigurable architecture, DSP,還是DPU, 如Wavecomputing的data processing unit,深鑒的deep learning processing unit,微軟的DNN processing unit,最終的應用都是針對神經(jīng)網(wǎng)路的。所以我認為不論是在前端/后端,還是訓練/推理,處理器面對都是深度學習,即使深度學習的應用來自于不同領(lǐng)域,都可以歸結(jié)為神經(jīng)網(wǎng)絡(luò)的芯片。我支持深度學習會重構(gòu)未來處理器的架構(gòu)這種觀點,所以未來架構(gòu)上的分類可能會以應用為導向。
雷鋒網(wǎng):參考本次會議,您認為人工智能是否會給整個半導體業(yè)帶來沖擊?您認為中國企業(yè)跟世界領(lǐng)先水平之間的客觀差距還有多少年?
姚頌:人工智能給半導體行業(yè)帶來極大的沖擊。過去有一套完整的標準,公司根據(jù)標準來定義自己的芯片,從而設(shè)計更好的芯片。亦或是公司研發(fā)出像GPU一類的通用的芯片。而在人工智能的影響下,大家會轉(zhuǎn)向domain specific architecture。有兩點非常有趣。第一點,傳統(tǒng)上芯片的性能直接影響了銷售,而在深度學習背景下,峰值性能不再是決定因素,用戶更加關(guān)注自己的需求。比如對于語音識別的用戶,他們更加關(guān)注延遲,而不是單一的增加吞吐量。第二點,用戶對于軟件的重視是前所未有的。英偉達霸占現(xiàn)在的深度學習市場,不僅是因為強大的芯片,更是因為整個CUDA生態(tài)鏈的優(yōu)越性,包括TensorRT, 以及對各種框架的支持。軟件工具在今天的半導體行業(yè)發(fā)揮了前所未有的重要作用。
在人工智能時代,中國企業(yè)正在急劇縮短與與國際企業(yè)的技術(shù)水平差距。比如在本次Hot chips 會議上可以看到深鑒的技術(shù)與各個半導體巨頭平等競爭。但是中國缺乏資深的,有經(jīng)驗的人才。而硅谷可以找到很多有二三十年專業(yè)經(jīng)驗的芯片架構(gòu)師。所以中國可能在專業(yè)人才方面略顯劣勢,但是在整體深度學習技術(shù)水平上顯示出強大的潛力。
雷鋒網(wǎng):可否透露一下深鑒科技接下來可能的一些動作?
姚頌:深鑒一直希望可以將產(chǎn)品做好,幾個月后我們計劃集中公布我們的產(chǎn)品,不僅包括具體的行業(yè)解決方案,還有我們的軟件工具鏈,以及我們在應用端的成績。整個人工智能行業(yè)的發(fā)展不斷推動創(chuàng)新公司從發(fā)展團隊到重視發(fā)展產(chǎn)品,從產(chǎn)品中盈利,這也是深鑒努力的方向。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。