1
本文作者: 三川 | 2016-12-30 15:12 |
今年三月 AlphaGo 和李世石的“世紀(jì)之戰(zhàn)”炒紅了深度學(xué)習(xí)—— AlphaGo 采用了人工神經(jīng)網(wǎng)絡(luò)技術(shù),充分挖掘了深度學(xué)習(xí)的潛力。簡(jiǎn)單來(lái)說(shuō),深度學(xué)習(xí)是一個(gè)包含了許多層級(jí)數(shù)據(jù)處理的神經(jīng)網(wǎng)絡(luò),以自動(dòng)化方式組合起來(lái)解決問(wèn)題。
人機(jī)大戰(zhàn)之前,相當(dāng)多的人并不看好 AlphaGo,包括許多圍棋、AI 業(yè)內(nèi)人士 。但公眾并不清楚的是:當(dāng)時(shí)谷歌手中握著一張王牌——AlphaGo 的計(jì)算設(shè)備搭載了特制硬件,一個(gè)被谷歌稱為“Tensor Processing Unit”(TPU)的計(jì)算卡。
谷歌 TPU
人機(jī)大戰(zhàn)落幕后的兩個(gè)月,谷歌硬件工程師 Norm Jouppi 才公開了它的存在。在博客中,他解釋道,谷歌給數(shù)據(jù)中心裝備這些加速器卡已經(jīng)有超過(guò)一年的時(shí)間。雖然谷歌對(duì)技術(shù)細(xì)節(jié)嚴(yán)格保密,但已透露它們專為谷歌開源項(xiàng)目 TensorFlow 而優(yōu)化;并且,它采取了一個(gè)越來(lái)越流行的深度學(xué)習(xí)運(yùn)算加速方式:ASICs。它全稱為應(yīng)用型專用集成電路(application-specific integrated circuit)。
而微軟采用了另一種逐漸流行起來(lái)的方式:FPGAs(現(xiàn)場(chǎng)可編程門陣列,field-programmable gate arrays)。它的優(yōu)勢(shì)是,如果計(jì)算機(jī)需要改變,它可以被重新裝配。但是,最通用、最主流的方案仍舊是使用 GPU,以并行處理大量數(shù)學(xué)運(yùn)算。不出預(yù)料,GPU 方案的主要推動(dòng)者是該市場(chǎng)的霸主英偉達(dá)。
英偉達(dá)旗艦顯卡 Pascal Titan X
事實(shí)上, 2009 年之后人工神經(jīng)網(wǎng)絡(luò)的復(fù)興與 GPU 有緊密聯(lián)系——那一年,幾名斯坦福的學(xué)者向世界展示,使用 GPU 可以在合理的時(shí)間內(nèi)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。這直接引發(fā)了 GPU 通用計(jì)算——GPGPU 的浪潮。
英偉達(dá)首席科學(xué)家、斯坦福并發(fā) VLSI 架構(gòu)小組的負(fù)責(zé)人 William J. Dally 表示:“行內(nèi)每個(gè)人現(xiàn)在都在做深度學(xué)習(xí),這方面,GPU 幾乎已經(jīng)達(dá)到了最好?!?/p>
William J. Dally (又名 Bill Dally)
William Dally 進(jìn)一步解釋,深度學(xué)習(xí)硬件的選擇有三個(gè)不同領(lǐng)域要考慮。
第一個(gè)被他稱之為“在數(shù)據(jù)中心訓(xùn)練”。這里,他指的是任何深度學(xué)習(xí)系統(tǒng)需要做的第一步:調(diào)整神經(jīng)元之間的數(shù)百萬(wàn)連接,讓神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行分配的任務(wù)。
對(duì)于這方面的硬件,行業(yè)領(lǐng)頭羊是一家最近被英特爾收購(gòu)的公司 Nervana Systems。該公司的計(jì)算機(jī)學(xué)者 Scott Leishman 透露,他們開發(fā)出的 ASIC 深度學(xué)習(xí)加速器 Nervana Engine, 將于 2017 年中投產(chǎn)。他注意到,另外一項(xiàng)需要大量計(jì)算的任務(wù)——比特幣挖礦,正從一開始在 CPU 上運(yùn)行,轉(zhuǎn)移到 GPU,再到 FPGAs,最終到 ASICs。這是由于提升的能耗效率。他說(shuō):“在深度學(xué)習(xí)領(lǐng)域我觀察到了同樣的趨勢(shì)”。
第二個(gè)深度學(xué)習(xí)硬件的任務(wù)是,“數(shù)據(jù)中心的推理(inference)”。推理在這里指代的是,基于云端、被訓(xùn)練來(lái)處理特定任務(wù)的神經(jīng)網(wǎng)絡(luò)的連續(xù)運(yùn)行。每天,谷歌的神經(jīng)網(wǎng)絡(luò)都要運(yùn)行天文數(shù)字級(jí)別的推理計(jì)算,來(lái)進(jìn)行圖片分類,語(yǔ)言翻譯,語(yǔ)音識(shí)別。雖然現(xiàn)在的信息不足以證實(shí),但據(jù)雷鋒網(wǎng)所知,業(yè)內(nèi)人士普遍推測(cè)谷歌的 TPU 是為這些任務(wù)而定制。
訓(xùn)練和推理通常需要不同的技能組合。對(duì)訓(xùn)練來(lái)說(shuō),計(jì)算機(jī)往往需要以較高的精確度運(yùn)算,一般使用 32 位浮點(diǎn)運(yùn)算。對(duì)于推理,精確度可以適當(dāng)犧牲,換取更快的速度和更低的能耗。對(duì)此,Leishman 表示:“這是一個(gè)熱門研究領(lǐng)域,能耗到底可以降低到什么程度?”
William Dally 拒絕透露英偉達(dá)的深度學(xué)習(xí)產(chǎn)品計(jì)劃,而是強(qiáng)調(diào)如今做出的成績(jī)。他說(shuō),英偉達(dá)的 GPU 在不斷進(jìn)化。上代 Mazwell 架構(gòu)可以進(jìn)行雙精度(64 位)或者單精度(32 位)運(yùn)算,而這一代的帕斯卡( Pascal )架構(gòu)能以單精度運(yùn)算兩倍的吞吐量和效率進(jìn)行 16 位運(yùn)算。我們能想象,英偉達(dá)很可能最終會(huì)發(fā)布能進(jìn)行 8 位運(yùn)算的 GPU 。對(duì)于云端的推理計(jì)算來(lái)說(shuō),這十分理想,因?yàn)槟芎膶?duì)于降低成本十分關(guān)鍵。
第三個(gè)深度學(xué)習(xí)運(yùn)算需要考慮的是 “嵌入式設(shè)備的推理”,比如智能手機(jī)、攝像頭和平板電腦。這類應(yīng)用的核心是低能耗的 ASICs。近年來(lái),深度學(xué)習(xí)軟件越來(lái)越多地集成入手機(jī)應(yīng)用。它已經(jīng)被用來(lái)查殺惡意軟件和翻譯圖片中的文字。
雷鋒網(wǎng)消息,大疆已經(jīng)在精靈 4 中應(yīng)用了類似于深度學(xué)習(xí) ASIC 的東西:使用加州公司 Movidius 的視覺(jué)處理芯片來(lái)識(shí)別障礙。順便說(shuō)一句,Movidius 是最近另一家被英特爾收購(gòu)的神經(jīng)網(wǎng)絡(luò)公司。另外,高通也在旗艦芯片 820 中加入了優(yōu)化深度學(xué)習(xí)計(jì)算的特殊電路。
今天,各家公司有極強(qiáng)的商業(yè)動(dòng)機(jī),去開發(fā)能加速深度神經(jīng)網(wǎng)絡(luò)的硬件。但這里有一個(gè)很大的風(fēng)險(xiǎn):如果技術(shù)迭代太快,為昨天的神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)的芯片,可能在最終生產(chǎn)、鋪貨時(shí)就已經(jīng)過(guò)時(shí)了。對(duì)此,William Dally 說(shuō)道:“算法正在飛速變化,所有開發(fā)這些硬件的人,都試圖讓產(chǎn)品方案覆蓋盡可能多的對(duì)未來(lái)的賭注?!?/strong>
目前,基于 ASICs 和 FPGAs 產(chǎn)品大多應(yīng)用在企業(yè)端,大多數(shù)個(gè)人開發(fā)者的的首選仍然是 GPU。至于在未來(lái) GPU 的霸主地位是否會(huì)動(dòng)搖,雷鋒網(wǎng)會(huì)繼續(xù)關(guān)注。
via ieee
【兼職召集令!】
如果你對(duì)未來(lái)充滿憧憬,喜歡探索改變世界的科技進(jìn)展,look no further!
我們需要這樣的你:
精通英語(yǔ),對(duì)技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動(dòng)態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會(huì)收獲:
一群來(lái)自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動(dòng)態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個(gè)人介紹/簡(jiǎn)歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
相關(guān)文章:
英特爾反擊英偉達(dá),推出深度學(xué)習(xí)加速器和新一代至強(qiáng)芯片
英特爾宋繼強(qiáng):2020年,要讓深度學(xué)習(xí)模型訓(xùn)練時(shí)間縮短100倍|2016 CAIIC
AMD 登陸機(jī)器學(xué)習(xí)領(lǐng)域,與英偉達(dá)、英特爾上演 AI 運(yùn)算“三國(guó)殺”
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。