0
本文作者: 汪思穎 | 2017-07-08 08:11 | 專題:GAIR 2017 |
7 月 7 日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的CCF-GAIR 2017全球人工智能與機(jī)器人峰會(huì)在深圳大中華喜來登酒店如期開幕。奇虎360副總裁、首席科學(xué)家、IEEE Fellow、IAPR Fellow顏水成教授帶來了主題為《深度學(xué)習(xí):精度極限VS用戶體驗(yàn)》的演講。這是大會(huì)首日最后一場(chǎng)演講。
深度學(xué)習(xí)研發(fā)的兩種不同目標(biāo):
追求極限精度
針對(duì)一個(gè)具體的問題,去探索算法能達(dá)到的邊界和極限。比如說我們可以設(shè)計(jì)更好的模型結(jié)構(gòu),可以用更大、更快的模型,也可以用大量的模型去做融合,另外一方面我們也會(huì)思考用更好的訓(xùn)練平臺(tái)和更多的資源實(shí)現(xiàn)多機(jī)多卡分布式訓(xùn)練。在訓(xùn)練的時(shí)候可以利用海量的無標(biāo)注數(shù)據(jù),比如說利用預(yù)測(cè)學(xué)習(xí)的方式實(shí)現(xiàn)預(yù)訓(xùn)練,當(dāng)訓(xùn)練好模型之后,又可以利用Baby-learning和增強(qiáng)學(xué)習(xí)的方式來增強(qiáng)模型的性能。
追求產(chǎn)品的體驗(yàn)
人工智能本身不是一個(gè)產(chǎn)品,必須跟具體的場(chǎng)景相結(jié)合才有它的價(jià)值,核心算法只是這里面的一個(gè)部分而已,最好的辦法是算法和場(chǎng)景數(shù)據(jù)形成一個(gè)閉環(huán),先訓(xùn)練出初始的模型,然后在具體的場(chǎng)景里得到模型失效的數(shù)據(jù),用這些數(shù)據(jù)再來提升模型的精度,再把模型用到場(chǎng)景中,進(jìn)行不斷地迭代,最終在場(chǎng)景中達(dá)到它最好的體驗(yàn)。只有算法科學(xué)家和產(chǎn)品工程師結(jié)合,可能讓不完美的算法產(chǎn)生完美的用戶體驗(yàn)。有一個(gè)很明顯的例子就是當(dāng)前很多AR相機(jī)采用的萌顏效果。
總的來說第一個(gè)目標(biāo)的特點(diǎn)是必須”用腦”,而第二個(gè)目標(biāo)更多的是”用心”。
兩種目標(biāo)相互促進(jìn)的實(shí)例:
在2016年,大家都覺得分類和檢測(cè)已經(jīng)可以在工業(yè)界中很好地使用,但是從來沒有人覺得物體分割已經(jīng)到了可以使用的階段。我的研究組就做了很多人體分割的工作,給出一個(gè)圖象,輸出每個(gè)像素具體是什么東西,我們花了兩年的時(shí)間把它的性能從44%提升到了86%。同時(shí)領(lǐng)域內(nèi)有很多分割算法取得了很好的成果,去年年底工業(yè)界開始思考,確實(shí)有很多的應(yīng)用場(chǎng)景可以受益于這種分割的技術(shù),于是很多人開始思考怎么樣去對(duì)模型進(jìn)行加速,保證在一些限定的場(chǎng)景的性能能滿足產(chǎn)品化的需求。
從今年開始,比如說美圖秀秀和Snapchat可以把人的頭發(fā)和臉分割出來,可以產(chǎn)生很好的頭發(fā)美化的效果,360和其他一些公司則提供人體分割的技術(shù),可以把人實(shí)時(shí)從自拍的視頻里面分割出來,疊加到動(dòng)態(tài)的場(chǎng)景,產(chǎn)生很多好玩、好看的效果。這是一個(gè)典型的因?yàn)樽非缶葮O限達(dá)到一定程度時(shí),就激發(fā)了新的產(chǎn)品形態(tài)的創(chuàng)新。
1×1卷積概念
純粹的內(nèi)積不能很好地模擬人的神經(jīng)元的復(fù)雜工作方式,卷積可以用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)來替代,當(dāng)這種復(fù)雜的結(jié)構(gòu)是多層感知機(jī)的時(shí)候,對(duì)應(yīng)的后面操作就是1×1卷積,這個(gè)1×1卷積跟前面的3×3、5×5卷積疊加在一起,就會(huì)產(chǎn)生更復(fù)雜的抽象過程?;?×1卷積的模型的參數(shù)可以降到很低,這樣就為我們把深度學(xué)習(xí)往端上遷移提供了一個(gè)可能性。
1×1卷積功能
基于1x1 卷積的張量逼近分析可以很好地解釋當(dāng)前各種流行網(wǎng)絡(luò),GoogleNet、ResNet, ResNext里面微觀結(jié)構(gòu)的理論依據(jù)。
基于1x1卷積的分析可以將ResNet解釋成Deeply Connected Network的一個(gè)特列,同時(shí)啟發(fā)了我們提出的一個(gè)新網(wǎng)絡(luò),Dual-path Network。這個(gè)網(wǎng)絡(luò)在ImageNet取得了單模型的最好性能。
通過對(duì)每一個(gè)卷積操作附加一個(gè)1x1卷積操作然后再點(diǎn)乘,雖然模型變復(fù)雜了,但可以大幅減少前向傳播的計(jì)算量。
詳細(xì)內(nèi)容請(qǐng)關(guān)注雷鋒網(wǎng)后續(xù)報(bào)告。雷鋒網(wǎng)原創(chuàng)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章