丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

【洞見】谷歌公布TPU細(xì)節(jié)之后,AI業(yè)界怎么看?

本文作者: 亞萌 2017-04-07 23:18
導(dǎo)語:如今的AI芯片產(chǎn)業(yè)處在一個“大航海時代”,真正的寶藏,需要更多的人去開拓。

【洞見】谷歌公布TPU細(xì)節(jié)之后,AI業(yè)界怎么看?

雷鋒網(wǎng)按:我們對于谷歌的TPU并不陌生,正是它支撐了AlphaGo強(qiáng)大快速的運(yùn)算力,但谷歌一直未曾披露其細(xì)節(jié),使得TPU一直保有神秘感。

美國當(dāng)?shù)貢r間4月5日,谷歌終于打破了沉寂,發(fā)表官方博客,詳細(xì)介紹了TPU的方方面面。相關(guān)論文更是配以彩色的TPU模塊框圖、TPU 芯片布局圖、TPU印制電路......等等,可謂圖文并茂,稱其為“設(shè)計教程”也不為過。不出意料,這之后將會涌現(xiàn)一大批仿效者。

論文中還給出TPU 與其它芯片的性能對比圖,稱“TPU處理速度比當(dāng)前GPU和CPU要快15到30倍”,有人贊嘆TPU的驚人性能,但也有人對此種“比較”表示質(zhì)疑,因其拿來的比較對象并非市場里性能最好的。

這篇論文有哪些亮點(diǎn)?爭議點(diǎn)在哪里?谷歌公布TPU細(xì)節(jié)會對業(yè)界產(chǎn)生什么影響?本文要解答這幾個問題。

谷歌為什么要造TPU?

這篇論文的題目為:《數(shù)據(jù)中心的 TPU 性能分析》(In-Datacenter Performance Analysis of a Tensor Processing Unit),共同作者多達(dá)70人,領(lǐng)銜的第一作者是硬件大牛 Norman Jouppi。

【洞見】谷歌公布TPU細(xì)節(jié)之后,AI業(yè)界怎么看?

Jouppi 在接受外媒Wired采訪時說,谷歌一開始曾經(jīng)考慮要用FPGA,但是后來經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),這種芯片無法提供理想中的速度。

“可編程芯片制造費(fèi)用太高,我們的分析認(rèn)為,F(xiàn)PGA芯片并不比GPU跑得快?!?/p>

最終,他們將目光放到ASIC(專用集成電路,一旦設(shè)計制造完成后電路就固定了,無法再改變)上,TPU就是一種ASIC。在接受外媒 The Next Platform 采訪時,Jouppi 表示TPU可以適用于現(xiàn)存的各種神經(jīng)網(wǎng)絡(luò)模型,從圖像識別的CNN到語音識別的LSTM,都適用。

“TPU 跟 CPU 或 GPU 一樣是可編程的。TPU 不是專為某一個神經(jīng)網(wǎng)絡(luò)模型設(shè)計的;TPU 能在多種網(wǎng)絡(luò)(卷積網(wǎng)絡(luò)、LSTM模型和大規(guī)模全連接的神經(jīng)網(wǎng)絡(luò)模型)上執(zhí)行 CISC 指令。”

谷歌已經(jīng)使用TPU已經(jīng)兩年時間,將其應(yīng)用在各種領(lǐng)域的任務(wù)里,包括:谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)、谷歌云視覺 API(Google Cloud Vision API)、谷歌翻譯以及 AlphaGo的圍棋系統(tǒng)中。

TPU只是一種推理芯片

需要明確的一點(diǎn)是:TPU 是一款推理芯片,并不是用作訓(xùn)練。根據(jù)英偉達(dá)首席科學(xué)家 William J. Dally 的說法,在深度學(xué)習(xí)領(lǐng)域,主要有三種運(yùn)算方式:

  • 數(shù)據(jù)中心的訓(xùn)練(用于訓(xùn)練模型,計算機(jī)往往需要以較高的精確度運(yùn)算,一般使用 32 位浮點(diǎn)運(yùn)算)

  • 數(shù)據(jù)中心的推理(在云端進(jìn)行實(shí)時連續(xù)運(yùn)算,精確度可以適當(dāng)犧牲,換取更快的速度和更低的能耗)

  • 嵌入式設(shè)備的推理(這類應(yīng)用的核心是低能耗的 ASICs)

所以TPU針對的,就是第二種運(yùn)算方式:數(shù)據(jù)中心的推理。而對于推理運(yùn)算而言,重要的指標(biāo)就是快速和低能耗。在谷歌博客里,Jouppi突出強(qiáng)調(diào)了TPU以下性能:

  • 我們產(chǎn)品的人工智能負(fù)載,主要利用神經(jīng)網(wǎng)絡(luò)的推理功能,其 TPU 處理速度比當(dāng)前 GPU 和 CPU 要快 15 到 30 倍。

  • 較之傳統(tǒng)芯片,TPU 也更加節(jié)能,功耗效率(TOPS/Watt)上提升了 30 到 80 倍。

  • 驅(qū)動這些應(yīng)用的神經(jīng)網(wǎng)絡(luò)只要求少量的代碼,少的驚人:僅 100 到 1500 行。代碼以 TensorFlow 為基礎(chǔ)。

  • 70 多個作者對這篇文章有貢獻(xiàn)。很多人參與了設(shè)計、證實(shí)、實(shí)施以及布局類似這樣的系統(tǒng)軟硬件。

AI業(yè)界如何看待這篇論文?

  • 亮點(diǎn):特定場景下的高效率

對于谷歌TPU論文里的技術(shù)特點(diǎn),雷鋒網(wǎng)采訪了寒武紀(jì)科技CEO陳天石,他分別從架構(gòu)、性能和工程三個角度,分析了這篇論文涉及的技術(shù)問題。

“并不意外,這款芯片仍然沿用了傳統(tǒng)的脈動陣列機(jī)架構(gòu),也是當(dāng)今許多面向深度學(xué)習(xí)的DSP所采用的的架構(gòu)。事實(shí)上,寒武紀(jì)團(tuán)隊成員早期與Olivier Temam教授、Paolo Ienne教授共同發(fā)表于ISCA2015的ShiDianNao學(xué)術(shù)論文就已經(jīng)討論過這樣的架構(gòu),同時MIT于2016年前后發(fā)表的Eyeriss也是類似的架構(gòu)。


性能上看,確實(shí)通過裁剪運(yùn)算器寬度(8位定點(diǎn))達(dá)到了非常高的理論峰值,在大多數(shù)卷積操作上效率很好。但在部分其他類型的神經(jīng)網(wǎng)絡(luò)操作上,效率不是太高。


從工程角度看,Google通過TPU項目對深度學(xué)習(xí)硬件加速作出了有益的嘗試,令人敬佩;未來Google未來一定會持續(xù)更新TPU的架構(gòu)。而寒武紀(jì)商用產(chǎn)品最終并沒有走脈動陣列機(jī)的技術(shù)路線,而是走一條通用智能處理器之路。我們十分期待未來繼續(xù)與國際工業(yè)界和學(xué)術(shù)界同行同臺競技?!?/p>

雖然寒武紀(jì)與谷歌分別在硬件方面選擇了不同的商用模式,但是雙方都在從彼此身上學(xué)習(xí)和借鑒。陳天石提到谷歌這篇TPU文章,引用了寒武紀(jì)團(tuán)隊成員前期發(fā)表的6篇學(xué)術(shù)論文,并有專門的段落回顧他們一系列學(xué)術(shù)工作。

“論文中在提到DaDianNao/PuDianNao/ShiDianNao時還專門用英文注釋這幾個名字的含義(Big computer, general computer, vision computer),對我們前期學(xué)術(shù)工作顯示了相當(dāng)?shù)淖鹬?。非常值得驕傲的是,我們早期與Olivier Temam教授共同開展的這一系列開拓性學(xué)術(shù)工作,已經(jīng)成為智能芯片領(lǐng)域引用次數(shù)最多的論文。而Olivier Temam教授本人在幾年前就已經(jīng)加入了Google。相信他會把DianNao系列的學(xué)術(shù)思想融入TPU后續(xù)的版本,把TPU的事業(yè)繼續(xù)推向新高度。”

與此同時,雷鋒網(wǎng)也采訪了深鑒科技CEO姚頌,業(yè)界已經(jīng)對TPU文章里的設(shè)計亮點(diǎn)評論頗豐了,姚頌從另一個角度看待這個問題,他認(rèn)為“TPU的最大亮點(diǎn)其實(shí)是TPU這件事本身”。并行計算有很多種架構(gòu),如GPU、FPGA等等,一個公司選擇某個方向有它的深思熟慮。姚頌認(rèn)為谷歌做TPU這件事情本身,其實(shí)是展現(xiàn)出一種“直面應(yīng)用需求”的姿態(tài),直接根據(jù)最終應(yīng)用來進(jìn)行“定制計算”,而他所在的深鑒科技所選擇的,也是類似谷歌這種“定制化”發(fā)展模式。

“大家可以很清楚的看到Google這樣直面應(yīng)用的公司,從最開始使用CPU這樣的通用芯片,過渡到GPU與FPGA,再過渡到專用的ASIC,來直面應(yīng)用的需求。沿著這樣一條發(fā)展曲線,在不斷提高性能和用戶體驗(yàn)的同時,也降低了整體運(yùn)行成本。Google第一次通過TPU這樣一個終極形態(tài)走完了這樣一條發(fā)展路徑,其實(shí)為其他很多公司指出了一條未來的發(fā)展路徑,這個意義超出了TPU本身設(shè)計的高效性。”

  • 爭議:論文里TPU的比較對象

論文里,TPU的比較對象是:英特爾 Haswell E5-2699 v3和英偉達(dá)Tesla K80。有人就對這個比較提出異議,因?yàn)門esla K80并不是英偉達(dá)最強(qiáng)最新的芯片產(chǎn)品。

外國網(wǎng)友 jimmy 表示:

“Tesla P4就比Tesla K80 的能效高出至少16倍。谷歌拿TPU與5年前的芯片架構(gòu)相比,有點(diǎn)狡猾。”

網(wǎng)友 Szilárd P 則表示,拿TPU跟Pascal Tesla做比較的說法很荒謬。因?yàn)橛ミ_(dá)發(fā)布Pascal Tesla的時間是在2016年9月,但當(dāng)時谷歌這篇論文是為了第44界ISCA(國際計算機(jī)架構(gòu)會議)準(zhǔn)備的,論文提交截止日期是2016年11月份,而英偉達(dá)Pascal Tesla的正式出貨時間也要等到10月份,所以谷歌再重新做實(shí)驗(yàn)測試,是不太現(xiàn)實(shí)的。但他同時也表示:

“谷歌不拿Maxwell M4/M40來做比較,有點(diǎn)說不過去。因?yàn)?GM20x也是28nm,而且比K80性能更強(qiáng)?!?/p>

針對這一點(diǎn),陳天石認(rèn)為如果純粹考慮技術(shù)因素,這種比較是否公平要看從什么角度看:

“Google TPU所采用的脈動陣列機(jī)架構(gòu),在處理卷積的效率上確有其優(yōu)勢,在性能功耗比方面會顯著勝過GPU。同時TPU是2016年以前的產(chǎn)品,與同期K80相比,其實(shí)不算太不公平。但若僅僅考慮技術(shù)因素,TPU使用8位運(yùn)算器,相比之下強(qiáng)調(diào)高精度浮點(diǎn)運(yùn)算的傳統(tǒng)GPU會吃虧?!?/p>

姚頌則從另一個方面對這種“比較”進(jìn)行解讀,他認(rèn)為這或許是谷歌一種“韜光養(yǎng)晦”的策略。他表示谷歌通常有了新一代的技術(shù)才會公開上一代技術(shù),這篇論文里的比較對象沒有采用最新的GPU芯片,并不是谷歌有意在取巧。

“其實(shí)TPU的設(shè)計大概在四年前就開始了,上線實(shí)用也已經(jīng)有了一段的時間,在那個時間點(diǎn),其實(shí)還沒有出現(xiàn)Tesla M40這樣的GPU,也沒有出現(xiàn)最新的Tesla P40這樣Pascal架構(gòu)的GPU。”

  • 對外:于業(yè)界會有什么影響?會有很多人開始仿效制造嗎?

谷歌以論文的形式,圖文并茂地將TPU的架構(gòu)、核心部件都描述地清清楚楚,那么會不會有后來者群起而仿效之呢?對于這一點(diǎn),姚頌表示谷歌公布的技術(shù)雖然通常不是其最新的研究進(jìn)展,但也往往是非常先進(jìn)和新穎的,肯定會有人仿效,但仿效的話,也只會把自己起點(diǎn)放在谷歌4年前的起點(diǎn)罷了。

“我想一定會有很多人去追著TPU的思路設(shè)計自己的深度學(xué)習(xí)芯片,因?yàn)門PU已經(jīng)批量在實(shí)際業(yè)務(wù)中應(yīng)用并展示了它的威力。但是其實(shí),TPU是個四年前左右開始研發(fā)的項目,仿效它只會把自己起點(diǎn)放在別人4年前起點(diǎn)。當(dāng)做出來仿效的產(chǎn)品,很可能Google第3代TPU都已經(jīng)出來了。并且,TPU強(qiáng)大的地方不完全在于芯片,而在于結(jié)合TensorFlow的軟件生態(tài),這使得開發(fā)更為簡單——這一點(diǎn)不是可以效仿的。


業(yè)界領(lǐng)先的公司還是需要更多地看到未來,比如在TPU論文中提到‘Sparsity will have priority in future designs’,比如TPU的硬件與軟件生態(tài)一起做,那么,如何高效支持稀疏性,如何提供讓用戶簡單得到稀疏化神經(jīng)網(wǎng)絡(luò)的軟件工具,其實(shí)更為重要,而這其實(shí)也是我們一直在做的。像我們與搜狗合作的語音識別加速,就是沿著Sparsity這條路線更進(jìn)一步,而本次TPU論文也引用了3篇深鑒團(tuán)隊以往論文作為未來發(fā)展的參考?!?/p>

而陳天石從架構(gòu)的角度給出了另一個看法,他認(rèn)為與TPU類似的方案之前已經(jīng)存在了。

“TPU在架構(gòu)方面走了一條保守但穩(wěn)健的道路。在TPU架構(gòu)正式公開之前,在學(xué)術(shù)界其實(shí)已經(jīng)有一些類似的方案(將脈動陣列機(jī)用于處理深度學(xué)習(xí))。脈動陣列架構(gòu)本身是個傳統(tǒng)技術(shù),早在1980年代初,中科院計算所的夏培肅院士和李國杰院士就曾將脈動陣列架構(gòu)用于石油勘探。將其用于深度學(xué)習(xí),其實(shí)是近年來DSP和硬件加速領(lǐng)域的舊瓶裝新酒?!?/p>

總結(jié)

從這篇論文里,谷歌的TPU細(xì)節(jié)一覽無余,然而TPU是為了TensorFlow定制的,對于一些AI芯片廠商來說,或許能從這篇論文里獲得一些靈感,但一味仿效可能得不償失。

TPU并不是全能的,只是用于數(shù)據(jù)中心的推理階段。深度學(xué)習(xí)模型的前期訓(xùn)練,也還是要依靠高精度的GPU。而且TPU通用性差,谷歌也曾在多種場合表示自己并不會售賣TPU。所以對于英偉達(dá)一類的通用芯片廠商來說,并沒有直接的競爭威脅。然而,谷歌帶頭追求特定領(lǐng)域應(yīng)用的極致效率,對于很多走定制化路線的AI芯片廠商來說,這是一種強(qiáng)大的鼓舞。

陳天石和姚頌兩位CEO各自帶領(lǐng)的AI芯片公司,在進(jìn)行不同種類的AI芯片研發(fā)和商用工作,寒武紀(jì)科技偏通用,深鑒科技偏行業(yè)定制。兩位CEO也都彼此惺惺相惜,就像陳天石曾經(jīng)對姚頌說的那樣,這個市場需要多種芯片的,有偏通用,也有更專用更注重特定領(lǐng)域的,共同進(jìn)步的同時未來也一定有機(jī)會合作。

如今的AI芯片產(chǎn)業(yè)處在一個“大航海時代”,真正的寶藏,需要更多的人去開拓。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

【洞見】谷歌公布TPU細(xì)節(jié)之后,AI業(yè)界怎么看?

分享:

編輯

關(guān)注人工智能(AI)報道
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說