0
本文作者: 胡嘉琪TakeeWOO | 2017-08-21 15:12 |
隨著華為旗艦機型Mate 10即將發(fā)布,科技媒體紛紛爆料,華為Mate10將首次在智能手機歷史上,搭載一顆人工智能芯片。其實早在華為半年業(yè)績發(fā)布會上,華為余承東就透露,預計將在今年秋季推出人工智能芯片,而根據目前最新的消息,這顆人工智能芯片極有可能就是搭載在麒麟970之中的寒武紀芯片。
當然,目前Mate 10的最終規(guī)格還沒發(fā)布,具體還要期待10月16日的慕尼黑發(fā)布會,上述消息僅是我們的合理猜測。如果屬實的話,意味著Mate 10將成為全球首款具備人工智能芯片的機型,這將會為業(yè)界帶來怎樣的沖擊?畢竟智能手機自喬布斯后,再無革命性的范式進步。
這無疑是一個有趣而又重要的問題,本文接下來將看看寒武紀芯片的前世今生,實際上這顆芯片更為精確地說,是一款深度網絡加速芯片,其本身并無夢幻的AI技能,而其加速功能,又究竟能在何種場景上帶來逆天的變化?
根據目前最新消息,麒麟970極有可能通過IP授權的方式搭載寒武紀人工智能芯片,本文這里先解釋一下IP授權這一概念。目前無論是高通驍龍還是海思麒麟,都不是嚴格意義上的純CPU芯片,而是一塊SoC(System-on-chip)芯片。所謂的SoC即芯片上集成了若干不同的功能模塊。以高通驍龍801為例,801上除了四核Krait 400 CPU外,還集成了Adreno 330 GPU、Snapdragon Camera相機圖像信號處理器、藍牙、GPS、WIFI以及視頻音頻編解碼等模塊,上面的每一個這些模塊通常都是SoC廠商上游的技術提供商通過IP(intellectual property,知識產權)提供授權,當然這樣做的好處是技術提供商可專注于IP方案設計,而芯片封裝工作可交由高通等SoC商負責,這樣雙方揚長避短,共同加速芯片的上市及更新迭代速度。
麒麟970上搭載的寒武紀IP,主要用于深度神經網絡(DNN)中的復雜計算,而深度神經網絡正是目前人工智能技術的半壁江山,這樣一來麒麟970將成為全球首款具備人工智能處理能力的SoC芯片。當然目前寒武紀這家公司對于大眾來說還十分陌生,這里先對寒武紀進行簡單的介紹。
寒武紀科技(Cambricon)是中科院計算所孵化的一家獨角獸公司,2016年推出的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智能手機、安防監(jiān)控、可穿戴設備、無人機和智能駕駛等各類終端設備,最近獲得了包括阿里在內的1億美元A輪融資。這家成立于2016年的AI芯片公司以火箭般的速度發(fā)展,據寒武紀稱,其在2016年已經實現(xiàn)了盈利并獲得1億元量級的營收。而華為與寒武紀的合作,很可能是因為華為與中科院計算所長久以來不菲的合作關系,早在2011年,華為就與中科院計算所成立了“中科院計算所-華為聯(lián)合實驗室”。
當然打鐵還得自身硬,寒武紀科技創(chuàng)始人陳天石教授是人工智能硬件加速的早期倡導者,連谷歌在其萬眾矚目的人工智能芯片TPU的論文之中,全文共引用了寒武紀團隊成員發(fā)表的6篇論文,在全球人工智能公司中,能享受到谷歌如此待遇恐怕實屬鳳毛麟角。
而對于華為而言,在產品中具備這樣一個中國完全自主知識產權的人工智能芯片IP,或許更加是一項營銷利器。
大家還記得去年火爆的俄羅斯修圖應用Prisma嗎?
Prisma使用了深度神經網絡來獲取著名繪畫大師和主要流派的藝術風格,然后對用戶的照片進行智能風格轉化,一張普通的照片通過Prisma能變成具備令人驚嘆藝術效果的作品,下面是一組示例:
從技術原理上說,Prisma使用了GAN對抗生成網絡,是一款典型的基于深度網絡的人工智能應用。但用過Prisma的人都知道其實際體驗并不是非常友好,在最初的時候,用戶首先要上傳待修的圖片到Prisma服務器上,經過一段時間才能夠下載修好的作品。但隨著Prisma的火爆,用戶云端等待時間越來越長,國內用戶更是要忍受連接到俄羅斯服務器的爆高網絡延遲。盡管后來Prisma實現(xiàn)了本地計算,但其速度仍然比較緩慢,部分風格濾鏡需要計算10秒以上才能完成圖片轉換,當然相比此前只能依賴云端計算,其體驗已經有所進步,但與美圖等主流修圖應用的修圖速度仍然無法相比。
Prisma上述這些體驗的不完美,其主要原因是深度神經網絡的執(zhí)行需要大量的計算。一般而言,建立一款如Prisma的人工智能應用,需要通過訓練(training)和推斷(inference)兩個過程:訓練是通過大量的數(shù)據輸入,或采取增強學習等非監(jiān)督學習方法,訓練出一個神經網絡模型,如對于Prisma來說,在訓練過程中神經網絡學習了大量的繪畫風格。一旦訓練完成,即可使用由訓練確定的權值進行計算,如Prisma中通過訓練好的網絡改變圖像風格,這個應用的過程被稱為推斷(inference)。
由于深度神經網絡本身的特征,在推斷過程中往往需要大量的權重計算,這在服務器端通常沒什么問題,但一旦放在手機等設備上就有點捉襟見肘了。如Prisma的手機本地端計算,雖然通過大量優(yōu)化顯著降低了模型的復雜度(當然這樣做的直接后果就是效果變差了),但對于手機CPU來說仍然負荷很大。
這樣一來問題就擺出來了,如果要讓手機掌握更多的人工智能應用,需要讓手機具備強大的計算能力做inference,否則用戶體驗難以保障,但摩爾定律畢竟放在哪,CPU本身目前難以具備如此的計算能力,這就是深度神經網絡在手機等各種嵌入式設備上的應用難題。
這時候,深度網絡加速芯片應運而生了。
深度網絡加速芯片是怎么一回事?在深度神經網絡的應用過程中,人們發(fā)現(xiàn)實際上復雜的神經網絡架構中計算量通常都集中在少量的計算類型上,比如矩陣運算,如果設計一款專門優(yōu)化的硬件芯片從事這些繁重的計算,正如當年CPU對復雜的圖像運算力不從心,催生了GPU的出現(xiàn),豈不是把問題給解決了?
業(yè)界確實是這樣做的,如谷歌自家推出的深度網絡加速芯片TPU,定義了十幾個專門為神經網絡推理而設計的高級指令,比如矩陣運算、計算激活函數(shù)、讀取/寫入內存等,相比用CPU進行相同的計算,TPU的功耗效率(performance/Watt, 每耗電1瓦的性能)比CPU高出80倍,下圖列出的是谷歌TPU部分核心的高級指令。
這時候,大家是不是想起了比特幣礦機中的ASIC(專用集成電路)呢?沒錯,深度網絡加速芯片也是一款ASIC,只不過比特幣的ASIC只能進行哈希運算,深度網絡加速芯片則定位于承載若干種深度網絡的常用計算。
而華為Mate 10即將搭配的寒武紀芯片,也正是這樣的一款深度網絡加速芯片。由于目前寒武紀芯片尚未正式公布,其真實性能情況無從知曉,但從寒武紀科技自家去年在計算機架構頂級會議ISCA上發(fā)布的論文《Cambricon: An Instruction Set Architecture for Neural Networks》中,我們就能夠管中窺豹。論文中提及了寒武紀(Cambricon)是一款面向于目前神經網絡技術,集成了常量運算、向量運算、矩陣運算、邏輯運算、數(shù)據轉換以及控制指令等功能的深度神經網絡加速芯片架構(…..we propose a novel domain-specific Instruction Set Architecture (ISA) for NN accelerators, called Cambricon, which is a load-store architecture that integrates scalar, vector, matrix, logical, data transfer, and control instructions, based on a comprehensive analysis of existing NN techniques.),其主要定位是解決深度神經網絡中推斷(inference)所涉及的復雜計算問題。
到此為止,華為Mate 10上的麒麟970芯片,所搭載的人工智能模塊就相當清晰了:與其說它是一塊人工智能芯片,更準確地說是一塊深度網絡加速芯片,主要用于加速人工智能中深度神經網絡所帶來的復雜計算。
若真如此,華為粉絲們的熱切期待恐怕會失望了,麒麟970本身不會帶來任何夢幻的智能,而是賦予了手機本身處理深度神經網絡中前所未有的計算能力,讓如Prisma等需要跑在深度神經網絡上的應用能夠有革命性的體驗。
麒麟970上的深度網絡加速模塊,如果要為業(yè)界帶來沖擊的話,我認為首先是讓大家深入思考,在手機等移動設備中加入深度網絡硬件加速,是否是一個未來的趨勢?消費者是否愿意為這塊芯片買單?當然這個問題是很顯淺的,其核心在于是否能為消費者帶來有價值的應用場景。
深度神經網絡作為人工智能目前的半壁江山,其在智能語音、計算機視覺中有廣泛的應用,前者典型的應用如Siri等智能語音助手,以及基于此目前火爆得不能再火的智能音箱;而后者在消費端莫過于各種類似Prisma的修圖應用。
通過深度神經網絡,能實現(xiàn)圖像編輯的智能化。比如以往需要大量用戶手工操作的瘦臉、美顏、瘦腰、拉長腿,通過深度神經網絡的加持,用戶可以如使用Prisma的體驗一般,智能化搞定全部。當然圖像智能編輯是目前計算機視覺中的熱門應用,未來期待還有更多夢幻的應用出現(xiàn)。
對于很有可能搭載寒武紀的Mate 10,這里大膽猜測一句,其廣告語會是“智能攝影大師”嗎(笑)?
圖像識別是另外一個應用點,比如,用戶在手機中標準了一張人臉后(比如同事A),通過圖像識別,手機能把圖庫中所有含有同事A的照片都篩選出來,這個運算在當前的智能手機上會非常緩慢,但有了深度網絡加速芯片后變得可能。
語音識別是深度網絡的另外一個核心應用,目前我們都知道,Siri、出門問問等語音助手都需要在聯(lián)網的狀態(tài)下才能使用,原因是語音識別的inference放在了云端處理,而同樣通過深度網絡加速芯片,或許能實現(xiàn)手機本底端的識別,即在無網絡的情況下,依然能使用智能語音助手實現(xiàn)有限度的應用,比如讓助手找出通訊錄中符合條件的某個人。
當然,站在市場營銷層面,有很多實際上并不需要深度網絡加速芯片去加速的應用,都可以通過混淆概念的方式納入消費者的想象之中,比如拿起手機亮屏、在漆黑的環(huán)境中自動打開手電等。
然而我們客觀地說,目前智能手機上需要使用到深度網絡加速芯片去加速的應用,并不能算很多,其中真正能算是有效需求的更加寥寥無幾。在安防攝像頭、無人機、自動駕駛汽車中融合人工智能專用芯片無疑是未來的清晰趨勢,畢竟如無人駕駛汽車中,我們不能指望使用云端的方式去做inference,畢竟網絡一旦出現(xiàn)問題,難道放任汽車撞樹上?但智能手機這個充分競爭的領域,任何功能的革新都需要經過市場的長期考驗,而其中的關鍵還是在于場景。
而這次極有可能搭載了深度網絡加速芯片的Mate 10,將會為我們帶來什么尚未想象到的場景?或許這點,才是我們真正需要熱切期待的。
雷鋒網按:本文作者胡嘉琪,雷鋒網專欄投稿文章。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。