0
本文作者: 賈智龍 | 2016-08-22 09:27 |
如今越來越多的人愿意和自己的虛擬私人助理交談,只需要?jiǎng)觿?dòng)嘴就可以讓Siri/Alexa/Rokid幫你完成發(fā)微信、訂車票、設(shè)鬧鐘這樣的閑事,還能提醒你吃藥、開會(huì),這樣一個(gè)不需要付工資的貼心小棉襖怎么會(huì)不受喜愛呢?虛擬助理正在一步步接近現(xiàn)實(shí)中的私人助理,而背后支持它的正是深度學(xué)習(xí)的技術(shù)。除了虛擬助理之外,深度學(xué)習(xí)技術(shù)還將是未來計(jì)算機(jī)視覺、自動(dòng)駕駛、語音識(shí)別等多個(gè)領(lǐng)域的核心技術(shù)。而深度學(xué)習(xí)實(shí)踐的四個(gè)關(guān)鍵要素:計(jì)算能力、算法、數(shù)據(jù)和應(yīng)用場景,就像四大護(hù)法神獸一樣保證了深度學(xué)習(xí)的應(yīng)用和實(shí)踐,缺一不可。
深度學(xué)習(xí)是以不少于兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)對(duì)輸入進(jìn)行非線性變換或表示學(xué)習(xí)的技術(shù),通過構(gòu)建深層神經(jīng)網(wǎng)絡(luò),進(jìn)行各項(xiàng)分析活動(dòng)。深層神經(jīng)網(wǎng)絡(luò)由一個(gè)輸入層,數(shù)個(gè)隱層,以及一個(gè)輸出層構(gòu)成。每層有若干個(gè)神經(jīng)元,神經(jīng)元之間有連接權(quán)重。每個(gè)神經(jīng)元模擬生物的神經(jīng)細(xì)胞,而結(jié)點(diǎn)之間的連接模擬神經(jīng)細(xì)胞之間的連接??偨Y(jié)起來是這個(gè)樣子的:
這種流向圖的一個(gè)特別屬性是深度(depth):從一個(gè)輸入到一個(gè)輸出的最長路徑的長度。深度學(xué)習(xí)并非一個(gè)新的概念,但在2006年由Hinton等人引領(lǐng)了一波爆發(fā)。然而近年來雖然許多人都在談?wù)撋疃葘W(xué)習(xí),但這項(xiàng)技術(shù)在實(shí)際應(yīng)用時(shí)到底有哪些坑?創(chuàng)辦一家成熟的依賴深度學(xué)習(xí)的公司需要哪些要素?以下是我們的看法。
| 計(jì)算能力
首先,深度神經(jīng)網(wǎng)絡(luò)復(fù)雜,訓(xùn)練數(shù)據(jù)多,計(jì)算量大。深度神經(jīng)網(wǎng)絡(luò)中神經(jīng)元多,神經(jīng)元間連接數(shù)量也相當(dāng)驚人。從數(shù)學(xué)的角度看,每個(gè)神經(jīng)元都要包含數(shù)學(xué)計(jì)算(如Sigmoid、ReLU或者Softmax函數(shù)),需要估計(jì)的參數(shù)量也極大。語音識(shí)別和圖像識(shí)別應(yīng)用中,神經(jīng)元達(dá)數(shù)萬個(gè),參數(shù)數(shù)千萬,模型復(fù)雜導(dǎo)致計(jì)算量大。所以計(jì)算能力是深度學(xué)習(xí)應(yīng)用的基礎(chǔ)。
不僅如此,計(jì)算能力還是推動(dòng)深度學(xué)習(xí)的利器,計(jì)算能力越強(qiáng),同樣時(shí)間內(nèi)積累的經(jīng)驗(yàn)就越多、迭代速度也越快,百度首席科學(xué)家吳恩達(dá)博士認(rèn)為深度學(xué)習(xí)的前沿正轉(zhuǎn)移到高性能計(jì)算(HPC),這也是他目前在百度的工作重心之一,吳博士認(rèn)為深度學(xué)習(xí)上的很多成功得益于主動(dòng)地追求可用的計(jì)算能力,2011年Jeff Dean(谷歌第二代人工智能學(xué)習(xí)系統(tǒng)Tensorflow的設(shè)計(jì)者之一)創(chuàng)立并領(lǐng)導(dǎo)了谷歌深度學(xué)習(xí)小組,使用谷歌云擴(kuò)展深度學(xué)習(xí);這使得深度學(xué)習(xí)得以推向工業(yè)界。在2013年,科茨博士等人建立了第一個(gè)HPC式的深度學(xué)習(xí)系統(tǒng),可擴(kuò)展性提升了1-2個(gè)數(shù)量級(jí),使深度學(xué)習(xí)有了革命性的進(jìn)步——計(jì)算能力這種對(duì)于深度學(xué)習(xí)的支撐與推動(dòng)作用是不可替代的。
目前這方面技術(shù)處于領(lǐng)先地位的還是像百度、谷歌這樣的大型互聯(lián)網(wǎng)公司,當(dāng)然也有一些像地平線機(jī)器人這樣的初創(chuàng)公司在該領(lǐng)域頗有成就,由百度深度學(xué)習(xí)研究院負(fù)責(zé)人余凱博士創(chuàng)立的地平線機(jī)器人公司設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)芯片相比傳統(tǒng)的CPU芯片能夠支持深度神經(jīng)網(wǎng)絡(luò)中圖像、語音、文字、控制等方面的任務(wù)而不是去做所有事情,這樣比在CPU上用軟件要高效,會(huì)提高2-3個(gè)數(shù)量級(jí)。
| 算法
在計(jì)算能力變得日益廉價(jià)的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò),我們可以把算法理解為深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)或是計(jì)算思維,這種神經(jīng)網(wǎng)絡(luò)越復(fù)雜,捕捉到的信號(hào)就越精確,目前比較常見的算法包括深度信念網(wǎng)絡(luò)(Deep Belief Networks)、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Networks)、受限玻爾茲曼機(jī)(Restricted BoltzmannMachine)和堆棧式自動(dòng)編碼器(Stacked Auto-encoders),以深度卷積神經(jīng)網(wǎng)絡(luò)為代表的監(jiān)督學(xué)習(xí)方法目前來說是最有效也是使用最多的。
但目前問題在于大家把專注度放在了數(shù)據(jù)與運(yùn)算,因?yàn)?strong>神經(jīng)網(wǎng)絡(luò)本身差異不會(huì)很大,并且神經(jīng)網(wǎng)絡(luò)的核心算法提升起來太困難,仍然面臨著像局部最優(yōu)問題、代價(jià)函數(shù)與整個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)等問題,但這也給眾多創(chuàng)業(yè)公司以新的思路,何不反其道而行之,避開那載著千軍萬馬的“獨(dú)木橋”,如果能將算法優(yōu)化,前途也是不可限量的。
| 數(shù)據(jù)
如今深度學(xué)習(xí)正迅速成為高級(jí)數(shù)據(jù)分析領(lǐng)域的熱門話題,而數(shù)據(jù)的絕對(duì)量是促進(jìn)深度學(xué)習(xí)工具和技術(shù)發(fā)展的一個(gè)關(guān)鍵因素。Affectiva的首席科學(xué)家和研究部總監(jiān)DanielMcDuff表示,新興公司積累了足夠的數(shù)據(jù)后,技術(shù)才能更好地發(fā)揮作用。對(duì)于那些深度學(xué)習(xí)的應(yīng)用,不僅開發(fā)時(shí)需要大量的數(shù)據(jù)訓(xùn)練、完善,在產(chǎn)品推廣之后更加需要實(shí)時(shí)用戶數(shù)據(jù),不斷進(jìn)行迭代、更新。
中國在深度學(xué)習(xí)的競爭中還是有很大機(jī)會(huì),可獲取的互聯(lián)網(wǎng)數(shù)據(jù),以及低成本的眾包勞動(dòng),將為中國公司帶來海量的數(shù)據(jù)和極低的數(shù)據(jù)標(biāo)注的成本。但是國內(nèi)市場面臨的問題在于大量數(shù)據(jù)都被BAT等互聯(lián)網(wǎng)巨頭控制,初創(chuàng)公司很難拿到數(shù)據(jù)去完善、更新深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),尤其是在產(chǎn)品推出之后,還有可能面臨大公司的惡意排擠,獲取數(shù)據(jù)更是難上加難,不說是夾縫中求生存也差不多了吧。
| 應(yīng)用場景
深度學(xué)習(xí)技術(shù)目前應(yīng)用的場景不多,最普遍也是最成功的領(lǐng)域就是語音識(shí)別和圖像處理這兩個(gè)應(yīng)用場景了,之前提到的三大神獸——計(jì)算能力、算法和數(shù)據(jù)屬于開發(fā)端,應(yīng)用場景則屬于消費(fèi)端層面,隨著未來深度學(xué)習(xí)技術(shù)的不斷發(fā)展以及用戶的需求提升,深度學(xué)習(xí)的應(yīng)用場景將越來越多,比如許多智能手機(jī)內(nèi)置的人臉識(shí)別功能來對(duì)照片進(jìn)行分類,已經(jīng)可以達(dá)到相當(dāng)?shù)臏?zhǔn)確率;支付寶等金融工具也很可能采用人臉識(shí)別以提高安全性……未來的深度學(xué)習(xí)一定不僅僅局限于語音識(shí)別和圖像識(shí)別這兩個(gè)領(lǐng)域,還有更多的可能性。對(duì)于那些初創(chuàng)公司來說,與其和谷歌、Facebook、Amazon、BAT等擁有十多年數(shù)據(jù)沉淀的大公司競爭這一成熟市場,還不如去發(fā)展屬于自己的某一片小天地。
如今深度學(xué)習(xí)的火爆程度不弱于任何其他的領(lǐng)域,互聯(lián)網(wǎng)巨頭們都在想方設(shè)法分這塊蛋糕,事實(shí)上想要做好深度學(xué)習(xí)計(jì)算能力、算法、數(shù)據(jù)、應(yīng)用場景這四大護(hù)法神獸缺一不可,而BAT等巨頭在這些方面都占盡資源上的優(yōu)勢,對(duì)于初創(chuàng)公司來說很難四點(diǎn)兼顧,尤其是數(shù)據(jù)方面,所以利用自身的比較優(yōu)勢抓住其中一點(diǎn)進(jìn)行創(chuàng)新,無論是計(jì)算能力、算法還是應(yīng)用場景上,只要有創(chuàng)新之處,就能幫助你在市場中掌握主動(dòng)權(quán)。
雷鋒網(wǎng)注:本文原文發(fā)于微信公眾號(hào)線性資本(公眾號(hào):LinearVenture),授權(quán)雷鋒網(wǎng)發(fā)布。轉(zhuǎn)載請(qǐng)聯(lián)系我們授權(quán),并保留出處和作者,不得刪減內(nèi)容。線性資本官方公眾平臺(tái),聚焦泛智能、Fintech和VR/AR三大領(lǐng)域的早期投資。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。