丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給王金旺
發(fā)送

0

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

本文作者: 王金旺 2018-09-26 12:36
導語:寒武紀解決了AI處理器的哪些問題?

在人工智能領域,或者說深度學習領域,寒武紀成為我國一大利器已然人盡皆知,但是大家知道最多的仍只是華為用到了寒武紀的IP。而具體寒武紀的發(fā)展歷路,解決了AI處理器的哪些問題,仍是被輕描淡寫地草草略去,鮮有問津。

9月22日,在北京的CCF YOCSEF TDS專題探索班上,寒武紀研究院院長杜子東以《深度學習處理器》為主題,就寒武紀在學術領域的研究、解決的問題,就寒武紀幾代人打下的“江山”進行了分享解讀。

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

從人類大腦到人工神經(jīng)網(wǎng)絡

2007年,以深度學習、人工神經(jīng)網(wǎng)絡為核心的AI浪潮再次興起。而人工神經(jīng)網(wǎng)絡的提出其實可以追溯到1956年達特茅斯會議,在該會議上,與會專家提出了人工智能的概念。隨之而來的則是人工神經(jīng)網(wǎng)絡,人工神經(jīng)網(wǎng)絡模仿人類大腦,通過神經(jīng)元傳輸信息。

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

生物神經(jīng)元和人工神經(jīng)元仍有一定區(qū)別。生物神經(jīng)元很復雜,在人腦中有860億個神經(jīng)元,根據(jù)生物學家的估算,每個神經(jīng)元中有1000個突觸,也就是說每個神經(jīng)元會和其他1000個神經(jīng)元連接,對于這樣一個龐大規(guī)模的大腦組織,具體到每一個神經(jīng)元上,不僅有這樣的連接,還有很多化學現(xiàn)象和生理現(xiàn)象。

對于這樣復雜的神經(jīng)元,研究人員之前做的工作是將其簡化成簡單的抽象模型。簡化后的模型主要包含兩部分:輸入和權值。

如果是輸入向量和權值向量的話,實際上就是進行內(nèi)積,然后構建激活函數(shù),在非線性激活函數(shù)引入后,其在非線性分類問題上會有一定的這種效果。

從單個神經(jīng)元到多個神經(jīng)元

單個神經(jīng)元有兩個輸入,它可以用來處理二分類問題,典型例子是在二維平面中尋找最優(yōu)分割面。通過不同的輸入樣本對模型進行訓練,不停地修正找到的分割面。如果將多個神經(jīng)元組合起來,能夠完成一些更復雜的任務。例如可以完成多分類,甚至加入一些其他復雜的處理,從而實現(xiàn)諸如圖像識別的任務。

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

智能處理器成剛需

與此同時,高算力也成為剛需。

在圖像識別方面,從過去不需要專門的處理器到現(xiàn)在圖像處理需求的不斷增加,尤其在游戲領域,隨著圖像分辨率的提升及實時渲染的需求,將圖像處理作為單獨任務轉移到專用處理器上已成必須,因而有了GPU;

在信號處理方面,由于類似多任務場景的出現(xiàn),也需要將信號處理轉移到專用設備上進行處理,也就有了現(xiàn)在的DSP;

而隨著智能硬件的出現(xiàn)及相關領域算力需求持續(xù)走高,對功耗、延時等要求更高的智能處理器也成為繼上述處理器之后的又一專用處理器類型。

從云服務到智能手機,未來每臺計算機都可能需要一個專用的深度學習處理器,這一市場預計將成為和GPU同樣規(guī)模,每年擁有6.4億顆芯片,數(shù)百億美元銷售額的市場。

寒武紀的學術背景

據(jù)雷鋒網(wǎng)了解,自2008年初步擁有一定研究成果到2016年成立寒武紀科技公司,在全球人工智能學術界曾取得諸多學術成果,包括2013年發(fā)布國際首個深度學習處理器(DianNao),2014年發(fā)布國際首個多核深度學習處理器(DaDianNao),2015年發(fā)布國際首個通用機器學習處理器(PuDianNao)及攝像頭上的智能識別IP(ShiDianNao),2016年發(fā)布國際首個神經(jīng)網(wǎng)絡通用指令集(Cambricon)等。

談到2015年發(fā)布的通用機器學習處理器,寒武紀研究院院長杜子東表示,“在很多領域,尤其是一些小樣本的應用領域,深度學習并不是最優(yōu)選項,甚至用SVM(Support Vector Machine,支持向量機)就已經(jīng)足夠,對于這類應用,我們完全可以用一些傳統(tǒng)機器學習代替深度學習。這就是我們2015年做這個通用機器學習處理器的主要原因?!?/p>

也正是基于這樣深厚的學術積淀,寒武紀科技在2016年成立后,即推出寒武紀1A處理器。另外,寒武紀機器學習處理器MLU100采用TSMC 16nm工藝,擁有1.3GHz主頻,166Tops峰值,80W平均功耗,110W峰值功耗。

ASIC用于深度學習存在的三大矛盾

傳統(tǒng)ASIC將一個特定算法硬體化的思路無法很好地解決深度學習處理需求,主要存在以下三個矛盾:

  • 有限規(guī)模的硬件和任意規(guī)模的算法的矛盾

  • 結構固定的硬件和千變?nèi)f化的算法的矛盾

  • 能耗受限的硬件和精度優(yōu)先的算法的矛盾

以能耗問題為例,現(xiàn)在的圖像顯示已經(jīng)從之前的高清、超清,逐漸發(fā)展到1080P、4K,現(xiàn)在主流攝像頭已經(jīng)開始進入到1080P,甚至4K的量級。對于這樣規(guī)模的算法,如何將它部署到一個有限規(guī)模的硬件上就成了一個大問題。

寒武紀的解決之道

寒武紀過去做的學術工作主要也是針對這三大矛盾,展開研究工作。

采用硬件神經(jīng)元虛擬化解決有限規(guī)模的硬件和任意規(guī)模算法的這個矛盾。創(chuàng)新之處在于通過時分復用,將有限規(guī)模的硬件虛擬成任意大規(guī)模的人工神經(jīng)網(wǎng)絡。其中關鍵技術在于控制架構和訪存架構,控制架構方面支持硬件神經(jīng)元的動態(tài)沖配置和運行時編程,訪存架構方面支持分離式的輸入神經(jīng)元、輸出神經(jīng)元和突觸的片上存儲。

從軟件角度來看,我們將整個軟件或網(wǎng)絡切割成不同的片,然后在硬件上進行運算,根據(jù)輸入數(shù)據(jù)的不同特征,將數(shù)據(jù)分別存儲,使得在訪存時能夠高效利用其局部特性。

硬件運算單元的分時復用(虛擬化)示意圖如下圖所示。一個硬件運算單元如果每次能夠處理兩處,針對圖中所示網(wǎng)絡,需要完成在不同時刻載入所需數(shù)據(jù),或計算不同的輸出神經(jīng)元,然后通過往返復用,從而最完成整個網(wǎng)絡的運算。

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

其中,通過對輸入神經(jīng)元的復用,當把兩個所需神經(jīng)元載入到片上后,下一步的運行是接著重復利用這兩個輸入神經(jīng)元,這樣能夠節(jié)省訪存次數(shù),把這兩個神經(jīng)元或兩個所需數(shù)據(jù)完全用完后,再在片上載入新的數(shù)據(jù),進行下一步的這樣的運算。

通過通用指令集解決結構固定硬件和千變?nèi)f化的算法的矛盾。主要學術創(chuàng)新之處在于自動抽取各種深度學習(機器學習)算法共性基本算子,設計了首個深度學習指令集來高效處理這些算法。其中關鍵技術在于算子聚類和運算架構。算子聚類自動化抽取算法核心片段,基于數(shù)據(jù)特性聚為少數(shù)幾類;運算架構通過設計共性神經(jīng)元電路,支持變精度流水級。

寒武紀研究院院長杜子東:寒武紀解決了AI處理器哪些問題?

寒武紀設計通用指令集的策略主要分為三步;

  • 通過模型、用途、計算復雜度等方面的差異分析,選擇差異化的算法進行加速;

  • 分析數(shù)據(jù)的計算模型和數(shù)據(jù)局部性,尋找最耗時/最普遍的運算操作集合,并研究算法的局部性,降低各算法的訪存需求;

  • 針對功能部件或片上存儲設計合適的加速器結構。

通過稀疏神經(jīng)網(wǎng)絡處理器結構解決能耗受限的硬件和精度優(yōu)先的算法的矛盾。其學術創(chuàng)新之處在于利用神經(jīng)網(wǎng)絡對于計算誤差的容忍能力,進行稀疏化神經(jīng)網(wǎng)絡處理,在有限的能耗下實現(xiàn)高精度的智能處理。

神經(jīng)網(wǎng)絡中的參數(shù)量很大,數(shù)據(jù)量也很大,同時,神經(jīng)元權值并不是很重要,如果將這些數(shù)據(jù)去除也不影響最后計算的識別結果。因而稀疏化是目前為止的一個重要數(shù)據(jù)處理方法。

神經(jīng)網(wǎng)絡模型最重要的是識別結果,識別結果并不是一個絕對量,而是一個相對量。例如采用傳統(tǒng)的Softmax進行處理,最終是要選擇輸出最大神經(jīng)元。只要能保證采用稀疏神經(jīng)網(wǎng)絡或采用變精度神經(jīng)網(wǎng)絡計算出的最終輸出結果仍是之前的大神經(jīng)元,就可以認為最后的輸出結果沒有錯。當然,計算結果中的error和loss都會有變化。

寒武紀研發(fā)團隊利用神經(jīng)網(wǎng)絡對于識別結果之間的計算誤差的區(qū)別進行稀疏化處理,從而使得整個網(wǎng)絡中所含有的神經(jīng)元和權值的數(shù)量大幅度減少。根據(jù)實驗數(shù)據(jù)得出的結果是:有90%的權值都是可以被去除的。也就是說,理論上,通過稀疏化處理可以降低十倍的計算和訪存效率。針對這樣的稀疏特性設計處理器結構,從而可以提高計算和訪存效率。

雷鋒網(wǎng)小結

寒武紀現(xiàn)在主要產(chǎn)品包括智能處理器IP和智能芯片,尤其在智能芯片方面,從產(chǎn)品層面來看,已經(jīng)應用到華為等智能手機上;從技術層面來看,寒武紀也開發(fā)了自己的處理器架構和指令集,通過硬件神經(jīng)元虛擬化、開發(fā)通用指令集、運用稀疏化處理器架構解決了ASIC用于深度學習時存在的三大問題。

其實在寒武紀之前,已有龍芯的研發(fā)。除了同為中科院背景的兩個團隊,在寒武紀研發(fā)團隊中其實也可以看到龍芯的影子,尤其是,寒武紀創(chuàng)始人之一陳云霽教授師從胡威武研究員,而胡威武正是龍芯團隊的主心骨。

經(jīng)歷了時代的更迭,在智能化浪潮下,杜子東告訴雷鋒網(wǎng)編輯,寒武紀目前主要推動兩個生態(tài)的建設:通過寒武紀的芯片給軟件開發(fā)人員提供更好的編程能力(小生態(tài));推動智能處理器上下游生態(tài)建設(大生態(tài))。

而就現(xiàn)在來看,要想在這波智能化浪潮中迎風豎起這桿大旗,為國內(nèi)智能設備帶來更多優(yōu)質AI處理器,寒武紀仍是任重道遠。

相關文章:

寒武紀推出首款云端AI芯片 能否對標英偉達?

專訪寒武紀CEO陳天石:AI芯片是中國主導世界AI產(chǎn)業(yè)的機會

華為麒麟980發(fā)布:7nm雙核NPU加持,性能“超級恐怖”

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章

主編

關注AIoT、機器人、智能硬件,新聞爆料、行業(yè)交流(注明公司、職位和名字)微信:18210039208
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說