OURS譚章熹：開源RISC-V指令架構(gòu)與AI芯片 | CCF-GAIR 2018

本文作者：王剛

2018-07-09 14:48

專題：2018 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語：摩爾定律失效，Amdahl定律依然存在。

雷鋒網(wǎng)按：2018 全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR）在深圳召開，峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，得到了寶安區(qū)政府的大力指導(dǎo)，是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì)，旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。在7月1日，峰會(huì)的AI芯片專場(chǎng)上，AI芯片領(lǐng)域的專家和業(yè)內(nèi)人士們齊聚一堂，對(duì)AI芯片的未來展開了深入的探討。

OURS譚章熹：開源RISC-V指令架構(gòu)與AI芯片 | CCF-GAIR 2018

OURS創(chuàng)始人兼CEO譚章熹

其中，OURS創(chuàng)始人兼CEO譚章熹在會(huì)上做了《開源RISC-V指令架構(gòu)與AI芯片》的發(fā)言，他指出，RISC-V作為軟硬件接口的指令架構(gòu)，對(duì)AI芯片提供了非常重要的基礎(chǔ)。OURS作為RISC-V非常直接的參與者，將很快推出開源AI芯片。這家位于美國硅谷的AI芯片初創(chuàng)公司未來或?qū)⒊蔀锳I芯片領(lǐng)域極大的變量。以下是譚章熹在CCF-GAIR 2018上的演講全文，雷鋒網(wǎng)在不改變?cè)獾幕A(chǔ)上進(jìn)行了編輯：

AI芯片發(fā)展三大歷史階段回顧

AI芯片是最近非常熱的話題，AI芯片并不能說是非常新的課題。在歷史發(fā)展來講，至少發(fā)展了三代。接下來我們回顧AI芯片發(fā)展的三大歷史階段。

·第一，1950-1960年代，Rosenblatt最早發(fā)現(xiàn)神經(jīng)元Perceptron，他發(fā)明這個(gè)東西以后做了一個(gè)模擬計(jì)算的計(jì)算機(jī)，這是第一代模擬計(jì)算機(jī)Mark 1 Perceptron，可調(diào)電位器模擬可編程參數(shù)。XOR很難實(shí)現(xiàn)，一段時(shí)間后變得不太流行。

·第二，1980年代末到1990年代初，算法發(fā)現(xiàn)關(guān)于Back Propagation，對(duì)模型進(jìn)行訓(xùn)練，那時(shí)候很多人做語等方面的AI研究，網(wǎng)絡(luò)模型基本是2-3層。由于出現(xiàn)Back Propagation，所以出現(xiàn)了很大的計(jì)算量需求（用于模型訓(xùn)練），當(dāng)時(shí)的計(jì)算機(jī)并不是非常強(qiáng)大。那時(shí)候很多人說自己做計(jì)算機(jī)用于加速AI訓(xùn)練。當(dāng)時(shí)主流AI是Symbolic AI，同時(shí)使用Lisp/Prolog編程。網(wǎng)絡(luò)大小是2-3層左右，比較有代表性的是1985年推出的Connection Machine，每一代有不同的改進(jìn)。主要應(yīng)用是做訓(xùn)練的，包括Symbolic AI。

·第三，2010年開始的深度學(xué)習(xí)，網(wǎng)絡(luò)大概是3至3層以上，摩爾定律遇到瓶頸，難以通過工藝實(shí)現(xiàn)性能的提升。大家突然對(duì)定制化AI芯片有了非常大的興趣。代表計(jì)算機(jī)還不太清晰，這里省略五六十家AI創(chuàng)業(yè)公司。

OURS譚章熹：開源RISC-V指令架構(gòu)與AI芯片 | CCF-GAIR 2018

摩爾定律失效 Amdahl定律依然存在

隨著三代AI芯片發(fā)展下來，每一代的發(fā)展都能學(xué)到一些東西，這是我個(gè)人總結(jié)出來的幾點(diǎn)：

·第一，AI的計(jì)算很重要，但不要忽視緩存、內(nèi)存系統(tǒng)架構(gòu)，你需要有足夠的容量。容量大了以后，必須對(duì)動(dòng)態(tài)內(nèi)存進(jìn)行緩存。如何設(shè)計(jì)片上內(nèi)存，用分布式設(shè)計(jì)的效率并不是很高，就像我們蓋房子似的，內(nèi)存架構(gòu)設(shè)計(jì)有很多，并不是只適用于一種軟件算法。

·第二，軟件非常重要，沒有軟件就沒有AI芯片。芯片先完成，但不停的更新軟件算法。99%的工作是軟件、開發(fā)工具SDK，我們?cè)诓粩嗟淖鲇?xùn)練。軟件隨著算法發(fā)展的速度，每6個(gè)月會(huì)出現(xiàn)新算法。當(dāng)你做芯片時(shí)，要考慮到硬件是否適用未來6個(gè)月的算法，這一點(diǎn)非常重要。這么多年下來，大家對(duì)算法的實(shí)現(xiàn)通常情況是用手工方式，效率非常高，高于自動(dòng)生成的100倍，大概是兩個(gè)數(shù)量級(jí)的效率。壞處是手工做，對(duì)算法的要求非常高?，F(xiàn)在你看到Tensorflow，就是為了提高編程效率，但其核心實(shí)現(xiàn)相當(dāng)復(fù)雜。

·第三， ALU的性能通常描述是多少TOPS，例如每秒可以做多少乘法。實(shí)際AI芯片是隨著數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)流動(dòng)，ALU單元能夠變成百分百能工作的時(shí)候并不高，memory的存儲(chǔ)也是同樣的道理，只有小部分緩存是活動(dòng)的。很多時(shí)候說如何提高ALU設(shè)計(jì)利用率和緩存架構(gòu)問題。

·第四，第三代AI芯片出現(xiàn)，摩爾定律基本走到盡頭，我們遇到物理極限，新工藝越來越昂貴。相反Amdahl定律，（它談到的是串行和并行關(guān)系）：雖然很多部分可以做并行化，但總是有很大一部分的程序還是串行執(zhí)行的，通常串行部分之星效率決定了系統(tǒng)性能。雖然現(xiàn)在摩爾定律失效了，Amdahl定律依然存在。

現(xiàn)代AI芯片架構(gòu)，通常會(huì)選用CPU中央處理器+AI加速器的方式，通常移動(dòng)方案我們會(huì)選用ARM處理器，服務(wù)器用得最多的是Intel。接口是通用的，隨著CPU的定義，AXI是ARM的接口標(biāo)準(zhǔn)，PCle是英特爾本身控制的。

案例：Google TPU，這是第二代TPU，把這個(gè)東西掛PCle上，作為加速器的方式存在。很多人認(rèn)為Google靠著圍棋TPU戰(zhàn)勝人類是一個(gè)巨大的創(chuàng)新。從計(jì)算機(jī)系統(tǒng)架構(gòu)角度來講，這個(gè)想法并不是Google最先提出的。1992年時(shí)，西門子發(fā)明Machine Synapse-1，這是可以花錢買到的機(jī)器。它的架構(gòu)和現(xiàn)在Google看到的架構(gòu)非常像，掛在企業(yè)處理器上。就AI芯片來講，對(duì)于計(jì)算機(jī)結(jié)構(gòu)來說沒有什么是新的。

90年代，隨著語音應(yīng)用的出現(xiàn)，出現(xiàn)很多神經(jīng)計(jì)算機(jī)、加速器，沒有獲得成功?，F(xiàn)在我們用得比較多的是GPU，回顧歷史，90年代專用neurocomputer是做Back Propergation，出現(xiàn)了很多專有計(jì)算機(jī)。1996年，英特爾推出MMX擴(kuò)展指令集，這個(gè)拓展指令集當(dāng)時(shí)放在CPU里，完全跟CPU集成起來，主要用于做視頻編解碼。由于當(dāng)時(shí)英特爾使用的工藝，其微處理器工藝遠(yuǎn)遠(yuǎn)好于其他公司，當(dāng)它發(fā)明MMX后，MMX本身有一定的并行計(jì)算能力，可以用于這個(gè)訓(xùn)練。加上良好的工藝和處理器技術(shù)，可以解決很多神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題。隨著英特爾CPU出現(xiàn)，人們發(fā)現(xiàn)很多語音算法可全部跑在英特爾處理器上，（完全不需要專門設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)），這導(dǎo)致了當(dāng)時(shí)專用的nerocomputer沒有獲得成功。

GPU是比較有意思的東西，開始的發(fā)展在NeuroComputer之后，當(dāng)時(shí)用于圖形、3D游戲，把算法固化, 有一定浮點(diǎn)計(jì)算能力。2001-2005年，隨著圖形的發(fā)展，出現(xiàn)了可編制Shader。新語言是CG，每一個(gè)像素點(diǎn)可以進(jìn)行編程，非常簡單的編程以及非常簡單的計(jì)算。當(dāng)時(shí)有人問這個(gè)東西(pixel shader)是否可以用于通用計(jì)算，答案是可以的，但有很多限制。2006年NVidia隨著Geforce8800的推出，發(fā)明了CUDA可編程框架，這是最早的GPGPU的原形。當(dāng)然，除了CUDA，也出現(xiàn)了其他一些的GPGPU編程環(huán)境，如opencl。到現(xiàn)在為止，真正用于做神經(jīng)網(wǎng)絡(luò)訓(xùn)練、適用新算法的，在服務(wù)器端是GPU，沒有更新的東西出現(xiàn)。

總結(jié)，我們看到90年代GPU的成功，主要由于編程框架對(duì)AI芯片是非常重要的。NVidia因?yàn)樽隽薈UDA，所以有了GPGPU。用一般編程來做，不需要用Machine的模型。所以軟件架構(gòu)對(duì)AI來說是非常重要的模型。

指令集對(duì)于AI芯片至關(guān)重要

提到軟件，我們要提到一件事，軟件和硬件的接口，這是我們現(xiàn)在所說的指令集、指令架構(gòu)例如MMX，它也是指令架構(gòu)。現(xiàn)在的就指令架構(gòu)有幾個(gè)問題：為什么英特爾不能在手機(jī)、平板處理成功？現(xiàn)在有99%平板手機(jī)是ARM市場(chǎng)基本是V7和V8架構(gòu)為基準(zhǔn)；為什么ARM不能在服務(wù)器上成功？因?yàn)橛⑻貭?9%的服務(wù)器、筆記本用的是AMD64指令架構(gòu)（其中超95%由英特爾生產(chǎn)）；為什么IBM到現(xiàn)在為止還在銷售非常老舊的大型機(jī)？美國報(bào)稅系統(tǒng)也是大型機(jī)。IBM360是一款經(jīng)典的大型機(jī)，是現(xiàn)在擁有最古老的指令架構(gòu)，將近50年歷史。當(dāng)年阿波羅登月用的就是IBM360，現(xiàn)在還在使用。

為什么有這些情況出現(xiàn)，是由于指令架構(gòu)是軟硬件非常重要的接口，如果我們要做AI芯片，指令集是避免不了的事情。

SoC系統(tǒng)架構(gòu)：這是NVidia Tegra SoC，首先有應(yīng)用程序處理器，里面用的是ARM、圖形處理器，像NVidia CUDA，我們還有無線電DSP、音頻DSPs、安全處理器、電源管理處理器等。這里有很多處理器，每個(gè)處理器都在使用自己的指令架構(gòu)，每個(gè)指令架構(gòu)從軟件角度來講都過于龐大。由當(dāng)你做SoC，很多CPU、GPU都是從IP的方式買來的，每個(gè)IP都有自己的專用平臺(tái)指令集。有時(shí)候不同的廠商會(huì)開發(fā)不同的指令架構(gòu)。一個(gè)商業(yè)SoC下來，里面可能有數(shù)十個(gè)指令架構(gòu)，不同的指令架構(gòu)有不同的軟件系統(tǒng)。

這是一個(gè)非常復(fù)雜的事情，看AI芯片也涉及指令架構(gòu)問題。我們回顧一款經(jīng)典AI芯片，這是Berkeley的芯片，當(dāng)時(shí)的想法是Cray是世界上一個(gè)向量計(jì)算機(jī)，用向量處理器、標(biāo)量處理器、CPU，當(dāng)時(shí)之所以這么做的原因是我們知道超算是非常干凈的編程模型。這是我們最后做出來的45兆、720兆，大概16.75mm^2的處理器。我們用到32-bit MIPS CPU核。我們考慮CPU核有爭論，是購買還是自己做？那時(shí)候MIPS有R3000，它有協(xié)處理器接口，當(dāng)時(shí)沒有軟核，也沒有邏輯綜合。所以我們決定自己做，這不光是實(shí)際客觀原因，也包括技術(shù)原因。我們用到向量處理器，它對(duì)Cache的影響非常大，處理器的接口效率非常低。商業(yè)處理器，所謂的Glue Logic非常龐大，從面積、功耗來講都不是非常有效率。非常重要的一點(diǎn)是我們沒有完整的系統(tǒng)模擬器，當(dāng)我們做經(jīng)典AI芯片時(shí)，這個(gè)芯片是為了語音做的，里面遇到現(xiàn)在我們遇到的所有問題。現(xiàn)在我們做AI芯片時(shí)，同時(shí)可以問這個(gè)問題，相信這些問題是存在的。這里的目的是想給大家一個(gè)概念，為什么CPU和指令架構(gòu)非常重要，不光是AI加速器，處理器本身也是非常重要的。

2000年左右有以Linux為代表的開源軟件，開源軟件和開源標(biāo)準(zhǔn)獲得非常大的成功。網(wǎng)絡(luò)界出現(xiàn)Ethernet、Many、TCP/IP，有很多開源實(shí)現(xiàn)，也有私有實(shí)現(xiàn)。現(xiàn)在操作系統(tǒng)有開源的標(biāo)準(zhǔn)，如Posix系統(tǒng)，Linux、FreeBSD、Windows也是遵循它。編譯器是SQL，開源實(shí)現(xiàn)MySQL和PostgresSQL，私有實(shí)現(xiàn)Oracle和M/S DB2。圖形標(biāo)準(zhǔn)是OpenGL，開源實(shí)現(xiàn)Mesa3D，私有實(shí)現(xiàn)M/S DirectX。我們有指令集，同時(shí)有私有化實(shí)現(xiàn)。圖形也是同樣的道理，既然指令這么重要，可我們卻沒有開源指令標(biāo)準(zhǔn)。因?yàn)檫@個(gè)東西非常有用，所以還是出現(xiàn)非常多私有化實(shí)現(xiàn)，包括X86、ARM、IBM360。RISC-V Fit i n這個(gè)Table，是個(gè)開源標(biāo)準(zhǔn)，也有一些開源的實(shí)現(xiàn)。

RISC-V的起源與對(duì)AI芯片的改變

我們真正需要很多指令集嗎？而且每個(gè)都靠花錢才能拿到的，這些指令必須是私有控制的嗎？為什么不能有一個(gè)通用的且開放的免費(fèi)指令集系統(tǒng)。RISC-V的誕生就是為了回答這幾個(gè)問題。

RISC-V的起源，在2010年左右，也可以說我們是和第三波AI同時(shí)起源的。當(dāng)時(shí)我們?yōu)樾马?xiàng)目選架構(gòu)，我們看了所有可選的指令架構(gòu)，例如MIPS、SPARC和X86。Berkeley，當(dāng)時(shí)主要考慮的是X86和ARM比較多，但都有很多問題。我們知道ARM現(xiàn)在從V7到V8，現(xiàn)在發(fā)明到V8.1，加了很多指令，有很多指令的拓展。這是ARM的指令架構(gòu)，V8設(shè)計(jì)之初本來目的是有一個(gè)干凈的指令架構(gòu)，可是實(shí)際在每一版本的迭代過程中都會(huì)ARM都會(huì)增加很多新功能，它會(huì)變成一個(gè)“胖子”，而且是越來越胖。據(jù)說現(xiàn)在做到V9。

RISC-V起源故事：當(dāng)時(shí)我們看了X86和ARM，X86是不太可能，IP問題，實(shí)現(xiàn)復(fù)雜度太高。我上大學(xué)時(shí)，教授說等你畢業(yè)時(shí)，英特爾會(huì)加上兩三千條指令?，F(xiàn)在看來確實(shí)如此。當(dāng)時(shí)ARM幾乎不可能，也沒有推出64位處理器，同時(shí)具有很多IP法律問題，復(fù)雜度也不低。雖然它號(hào)稱是Advance RISC Machine，但實(shí)際上是個(gè)復(fù)雜的CISC machine。所以我們開發(fā)了新的，也就是大家所知道的RISC-V指令架構(gòu)。四年后（2014年時(shí)）發(fā)布第一個(gè)公開標(biāo)準(zhǔn)，我們?cè)贐erkeley做了很多流片，從第一天誕生起，它是為了加速器的研究所設(shè)計(jì)的。第一天就是為了支持加速器和AI。正確讀法應(yīng)該是RISC-Five，而不是RISC-V。這在Berkeley發(fā)展了5代，第1代最早，在80年代初。SOAR（RISC-3）是大家不太熟悉的，SPUR（RISC-4）有很多大佬是這里畢業(yè)的。2011年是RISC-V。

RISC-V有什么不同？首先，它非常簡單和非常干凈的設(shè)計(jì)。用戶指令和特殊指令分開，它是模塊化的，可以做自己定制化的模塊和擴(kuò)展，有足夠的指令空間做定制化。它是穩(wěn)定的架構(gòu)，當(dāng)我們定了RISC-V本身的基準(zhǔn)指令后，不會(huì)再有變化。要想增加新的指令，可以通過擴(kuò)展子集實(shí)現(xiàn)，而不是加強(qiáng)新版本，這對(duì)穩(wěn)定性來講非常重要。

OURS譚章熹：開源RISC-V指令架構(gòu)與AI芯片 | CCF-GAIR 2018

為了維護(hù)RISC-V的標(biāo)準(zhǔn)，我們成立了RISC-V基金會(huì)?，F(xiàn)在也有中國企業(yè)在其中，目前這個(gè)基金會(huì)里大概有150家公司。所有的大公司，除了英特爾和ARM以外（直接競(jìng)爭手段），其他都在里面。

總結(jié)，RISC-V作為軟硬件接口的指令架構(gòu)，對(duì)AI芯片提供了非常重要的基礎(chǔ)，它有非常好的標(biāo)準(zhǔn)指令子集，有編譯器、Linux支持，它沒有任何法律的問題。這樣的靈活性使得自由修改AI擴(kuò)展是非常容易的事情。OURS是一個(gè)創(chuàng)業(yè)公司，我們的目的是使用RISC-V讓所有企業(yè)以最低的門檻使用AI+RISC-V芯片。我們是RISC-V非常直接的參與者，有多次RISC-V芯片流片的經(jīng)歷，我們很快會(huì)推出基于RISC-V的開源AI芯片。算法很重要，軟件很重要，對(duì)特殊領(lǐng)域的支持，比如Domain-Specific Knowledge才是AI芯片的根本。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章