0
本文作者: 包永剛 | 2019-11-18 18:35 |
被譽(yù)為英國半導(dǎo)體之父,也是Arm聯(lián)合創(chuàng)始人的Hermann Hauser曾經(jīng)這樣說:“在計(jì)算機(jī)歷史上只發(fā)生過三次革命,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。” 他所指的正是Graphcore率先提出的就是為AI計(jì)算而生的IPU(Intelligence Processing Unit)。
內(nèi)存墻是阻礙AI芯片性能提升的關(guān)鍵,因此計(jì)算架構(gòu)的創(chuàng)新變得更加重要,不過這其中大部分的架構(gòu)創(chuàng)新都是在已有的架構(gòu)基礎(chǔ)上。Graphcore聯(lián)合創(chuàng)始人兼CEO Nigel Toon在ASPENCORE主辦的2019 CEO峰會(huì)期間接受雷鋒網(wǎng)采訪時(shí)表示,Graphcore開創(chuàng)了全新的處理器類型IPU,IPU是專為機(jī)器智能設(shè)計(jì)的處理器,能夠滿足人們對(duì)高效易于使用的處理器的需求。
左:Graphcore銷售副總裁/中國區(qū)總經(jīng)理盧濤,右:Graphcore聯(lián)合創(chuàng)始人兼CEO Nigel Toon
左右逢源的英國AI獨(dú)角獸
Graphcore在風(fēng)險(xiǎn)資本的支持下于2016年在英國成立,成立三年時(shí)間,就獲得了3.25億美元的融資,去年估值就達(dá)到了17億美元,其中的投資者既有像紅杉資本這樣的金融投資者,也有像戴爾、三星、微軟等的戰(zhàn)略投資者。
除了資本的認(rèn)可,Graphcore還獲得了多位AI領(lǐng)域的知名學(xué)術(shù)投資人為其背書,比如DeepMind 的聯(lián)合創(chuàng)始人 Demis Hassabis、劍橋大學(xué)的 Zoubin Ghahramani 和 Uber 的首席科學(xué)家、加州大學(xué)伯克利的 Pieter Abbeel 以及 OpenAI 的 Greg Brockman、Scott Grey 和 Ilya Sutskever等。
被稱為AI教父Geoff Hinton就曾說,“我認(rèn)為我們需要轉(zhuǎn)向不同類型的計(jì)算機(jī)。幸運(yùn)的是,我這里有一個(gè)?!盚inton伸手進(jìn)入他的錢包,拿出一個(gè)又大又亮的硅片,這個(gè)硅片就是Graphcore的IPU。
創(chuàng)立這家獲得學(xué)界和資本都認(rèn)可的兩位創(chuàng)始人是Nigel Toon和Simon Knowles,Graohcore也是他們的第二次創(chuàng)業(yè)。 2002年,Toon和Knowles(現(xiàn)任Graphcore CTO)在英國Bristol共同創(chuàng)辦了Icera,致力于打造3G modem芯片,2011年被英偉達(dá)以3.7億美元的價(jià)格收購。
在Icera被收購之后不久,Nigel Toon和Simon Knowles就在思考再次進(jìn)行創(chuàng)業(yè),基于兩位創(chuàng)始人的經(jīng)驗(yàn)以及對(duì)未來的判斷,在2016年創(chuàng)立了了Graphcore。如今,Graphcore在倫敦、劍橋、臺(tái)灣、北京、Palo Alto、Oslo都設(shè)有辦公室,員工人數(shù)將在今年底達(dá)到400人,IPU也已經(jīng)于去年底推出。
那么,IPU為何能受到如此多的關(guān)注和期待?
全新類型處理器架構(gòu)——IPU
Nigel認(rèn)為,AI有三類芯片,第一類是簡單的小型化加速器,用于手機(jī)、傳感器等;第二類是ASIC,比如谷歌的TPU;第三類是可編程處理器,目前市場(chǎng)上只有GPU,Graphcore的IPU屬于這個(gè)分類,但又有所不同,因?yàn)?strong>IPU是一個(gè)非常靈活的處理器,從零開始,是專門針對(duì)AI設(shè)計(jì)的處理器架構(gòu),在未來很多新的AI應(yīng)用中,IPU也會(huì)表現(xiàn)的更好。
之所以要推出IPU,是因?yàn)镹igel看到,如果只是針對(duì)基本的前饋卷積神經(jīng)網(wǎng)絡(luò),GPU是一個(gè)非常好的解決方案,但隨著網(wǎng)絡(luò)變得越來越復(fù)雜,人們需要一個(gè)新的解決方案,ASIC和FPGA的采用就已經(jīng)證明了GPU的弱點(diǎn)。
“我們接觸過的所有創(chuàng)新者都說使用GPU正在阻礙他們創(chuàng)新。如果仔細(xì)看一下他們正在研究的模型類型,你會(huì)發(fā)現(xiàn)他們主要研究卷積神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)和其他類型的結(jié)構(gòu),例如強(qiáng)化學(xué)習(xí),并不能很好地映射到GPU。這也正是我們將IPU推向市場(chǎng)的主要原因?!?/strong>
Nigel指出,IPU是我們開創(chuàng)的一個(gè)全新的處理器類型,專為AI設(shè)計(jì),IPU強(qiáng)大的并行處理能力實(shí)現(xiàn)了快速訓(xùn)練模型并進(jìn)行實(shí)時(shí)操控。其實(shí)現(xiàn)在有一些國外公司也在說他們的產(chǎn)品叫IPU,但我們首創(chuàng)的這個(gè)叫法,而且技術(shù)產(chǎn)品跟我們相比還差很多。
那IPU架構(gòu)到底獨(dú)特在哪里?Graphcore銷售副總裁/中國區(qū)總經(jīng)理盧濤對(duì)雷鋒網(wǎng)表示,Graphcore的IPU里面有1216個(gè)核,我們稱之為Tile,每個(gè)Tile里都有計(jì)算單元和內(nèi)存。由于同時(shí)有上千個(gè)處理器工作,所以單個(gè)IPU的存儲(chǔ)帶寬能達(dá)到45TB,比性能最快的HBM提升了50倍以上,在相同算力下,功耗也降低了一半。
根據(jù)Graphcore的說法,IPU處理器是迄今為止最復(fù)雜的處理器芯片,基于16納米的工藝集成了240億個(gè)晶體管,每個(gè)芯片提供125 teraFLOPS運(yùn)算能力。借助IPU,一個(gè)完整的機(jī)器學(xué)習(xí)模型可以在處理器內(nèi)部處理。而且IPU處理器具有數(shù)百兆字節(jié)的RAM,可在處理器上以1.6 GHz的速率全速運(yùn)行。
但是,提高帶寬的同時(shí),如何解決數(shù)據(jù)的通信以及提升數(shù)據(jù)的使用效率就是非常關(guān)鍵的問題,也是關(guān)鍵挑戰(zhàn)。盧濤表示, IPU內(nèi)部里有一個(gè)叫all-to-all總線,這個(gè)互聯(lián)總線,可以高速實(shí)現(xiàn)任意一個(gè)核到另外一個(gè)核的直接訪問。涉及到跨多個(gè)芯片的時(shí),通過IPU-Link就可以把多個(gè)IPU聯(lián)結(jié)在一起,組成一個(gè)集群。當(dāng)然,all-to-all總線中間的BSP(Bulk Synchronous Parallel)協(xié)議,不僅用于同一個(gè)芯片的不同核之間,而且跨芯片的核之間也可以通過該協(xié)議透過 IPU-Link 總線進(jìn)行通信。
IPU-Link最多可以支持128個(gè)芯片的互聯(lián),如果要進(jìn)行更大規(guī)模的訓(xùn)練,可以通過以太網(wǎng)或者Infiniband進(jìn)行互聯(lián),另外針對(duì)超大規(guī)模AI 訓(xùn)練應(yīng)用,Graphcore還開發(fā)了專門的IPU-POD。IPU-POD 是由 IPU-machine 組成的 POD,每個(gè) IPU-machine 上集成的IPU-Gateway芯片里有一個(gè)叫做IPUoF的技術(shù),能夠把幾千甚至幾萬顆的 IPU 處理器連在一起。
解決了數(shù)據(jù)通信的問題,還有數(shù)據(jù)的效率問題。IPU沒有采用傳統(tǒng)處理器架構(gòu)中保證多個(gè)處理器數(shù)據(jù)一致性的Cache協(xié)議,而是通過BSP配合Poplar軟件棧的方式來提升效率。Nigel Toon表示,很多人都部署了BSP,但只是用在主機(jī)之間,也就是大規(guī)模的并行機(jī)制,我們?cè)谛酒蠈?shí)現(xiàn)了BSP,同時(shí)配合Poplar的軟件棧工具/編譯器,它會(huì)把算法模型、數(shù)據(jù)處理之后,映射或者分配到處理器的不同位置,并定義好交換和同步的時(shí)間等,不僅更易于使用,而且具有足夠的靈活性。
這樣即使對(duì)于算法公司而言,雖然處理器有1000多個(gè)核,7000多個(gè)線程,但是不需要太擔(dān)心通信的問題,能夠讓算法工程師非常方便地用。
Nigel Toon總結(jié)表示,IPU與其它的AI芯片相比,有三個(gè)比較核心的區(qū)別:
第一,處理器核的架構(gòu)不同,IPU是MIMD的架構(gòu)。
第二,IPU的模型在處理器內(nèi)。
第三,大規(guī)模并行,IPU核之間的通信效率也非常高,這非常難,Graphcore進(jìn)行了大量的創(chuàng)新。
相同的IPU硬件就可用于推理和訓(xùn)練
對(duì)于芯片公司而言,設(shè)計(jì)出獨(dú)特的芯片并不是最難的,更難的是獲得客戶的認(rèn)可和采用。Nigel Toon表示,未來幾年Graphcore都會(huì)專注在算力比較密集的場(chǎng)景,而不會(huì)做終端的應(yīng)用。IPU也更能夠適應(yīng)未來整個(gè)行業(yè)的變化非???,模型的大小每3.5個(gè)月就會(huì)增長一倍。并且,模型參數(shù)增加一倍,但最后還是要拆成不同的尺寸,算力需求的增長將不止兩倍,所以未來的算力需求將會(huì)呈現(xiàn)指數(shù)型的增長。
盧濤補(bǔ)充表示,現(xiàn)在AI做的主要是圖片的目標(biāo)識(shí)別,自然語言處理對(duì)算力的要求更高,未來視頻的分析需要更高的算力,如何把AI應(yīng)用到AR、VR都對(duì)算力提出了巨大的要求。
需要指出的是,使用相同的IPU就能進(jìn)行AI訓(xùn)練和推理。在大家普遍的認(rèn)知中,推理和訓(xùn)練對(duì)于算力有著巨大的需求,不過Nigel Toon認(rèn)為,訓(xùn)練和推理技術(shù)上本質(zhì)上沒有很大區(qū)別,先通過數(shù)據(jù)訓(xùn)練出模型,部署的時(shí)候?qū)嶋H上是通過推理是把模型拿出來。在未來的應(yīng)用里,部署的場(chǎng)景可能是推理,同時(shí)還要不停地訓(xùn)練和更新這個(gè)模型。
“從架構(gòu)的角度,這對(duì)我們非常重要,因?yàn)殡S著機(jī)器學(xué)習(xí)演進(jìn),系統(tǒng)將能夠從經(jīng)驗(yàn)中學(xué)習(xí)。推理性能表現(xiàn)的關(guān)鍵包括低延遲、能使用小模型、小批次,以及可能會(huì)嘗試導(dǎo)入稀疏性的訓(xùn)練模型;IPU可以有效地完成所有這些事情。”
據(jù)介紹,在一個(gè)4U機(jī)箱中,16顆IPU共同合作協(xié)作進(jìn)行訓(xùn)練,每顆IPU可以執(zhí)行獨(dú)立的推論任務(wù),并由一個(gè)CPU上執(zhí)行的虛擬機(jī)來控制,最終得到一個(gè)可用于訓(xùn)練的硬件。一旦模型被訓(xùn)練、布署,隨著模型演進(jìn)且想要從經(jīng)驗(yàn)中學(xué)習(xí)時(shí),就可以采用相同的硬件。
盧濤進(jìn)一步指出,由于IPU架構(gòu)的特性,模型部署的時(shí)候精度和訓(xùn)練的結(jié)果會(huì)保持一致,另外在 IPU 里面要做的計(jì)算跟要處理的處理都是在本地,以及 IPU 這種超大規(guī)模小型向量機(jī)的架構(gòu),使得IPU做稀疏化應(yīng)用場(chǎng)景的時(shí)候,天生性能就會(huì)更好。所以IPU既可以用于云服務(wù)器,在邊緣端,IPU也非常擅長,自動(dòng)駕駛就會(huì)是我們很重要的應(yīng)用場(chǎng)景。
但還有一個(gè)關(guān)鍵問題,擁有如此多核心和片內(nèi)存儲(chǔ)的IPU是否會(huì)成本高昂?Nigel Toon表示不一定,因?yàn)榭蛻舳紩?huì)關(guān)注效能,如果 IPU的架構(gòu)在實(shí)際應(yīng)用場(chǎng)景實(shí)現(xiàn)幾倍甚至幾十倍的性能優(yōu)勢(shì)時(shí),實(shí)際的總體擁有成本還是大幅降低。
有意思的是,在技術(shù)創(chuàng)新的同時(shí),Graphcore也進(jìn)行了商業(yè)模式的創(chuàng)新。Nigel Toon表示,我們目前沒有采用傳統(tǒng)芯片銷售的模式,我們更多的是通過合作,有兩大類公司會(huì)是我們的合作伙伴,一類是服務(wù)器公司,目前我們已經(jīng)與戴爾易安信合作推出了IPU服務(wù)器,和中國的服務(wù)器廠商合作進(jìn)展也很快,估計(jì)很快就會(huì)有搭載我們IPU的服務(wù)器上市。
另外一類是云服務(wù)提供商,在新的時(shí)代,IT產(chǎn)品交付給最終的用戶,云服務(wù)廠商非常重要。我們會(huì)和中國、美國的公司都進(jìn)行合作,但具體的合作暫時(shí)還處于保密階段。
最近,Graphcore宣布與微軟的具體合作內(nèi)容,并正式發(fā)布Microsoft Azure上Graphcore智能處理單元(IPU)的預(yù)覽版,這是公有云領(lǐng)導(dǎo)供應(yīng)商首次提供GrapchoreIPU。目前,Azure上的Graphcore IPU預(yù)覽版現(xiàn)已開放供用戶注冊(cè),專注于突破NLP界限并在機(jī)器智能方面取得新突破的開發(fā)者可獲得優(yōu)先訪問權(quán)限。
對(duì)于中國市場(chǎng),Nigel Toon表示中國是Graphcore非常重要的策略性市場(chǎng),Graphcore的中國公司不僅會(huì)有銷售和市場(chǎng),還會(huì)注重工程技術(shù)方面的投入,會(huì)有很多定制化的開發(fā)工作,更好地與本地的社區(qū)、創(chuàng)新者一起用好IPU。
雷鋒網(wǎng)小結(jié)
AI芯片要滿足快速迭代的AI算法,算力的提升非常關(guān)鍵,但摩爾定律的放緩,讓架構(gòu)的創(chuàng)新變得更加重要,實(shí)際的情況是大部分創(chuàng)新都是基于已有的架構(gòu),Graphcore表示其IPU架構(gòu)進(jìn)行了更全面的創(chuàng)新,我們可看到其獲得了資本和學(xué)術(shù)界的好評(píng)。當(dāng)然,除了硬件架構(gòu)的創(chuàng)新之外,軟件工具鏈Poplar同樣非常關(guān)鍵,這是IPU提升靈活性,降低算法開發(fā)者的應(yīng)用門檻的核心,也是能比其它IPU性能更好的關(guān)鍵所在。
因此,AI的時(shí)代架構(gòu)創(chuàng)新很重要,軟硬件的協(xié)同更加重要。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。