0
本文作者: 汪思穎 | 2017-07-08 08:11 | 專題:GAIR 2017 |
7 月 7 日,由中國計算機學會(CCF)主辦,雷鋒網(wǎng)與香港中文大學(深圳)承辦的CCF-GAIR 2017全球人工智能與機器人峰會在深圳大中華喜來登酒店如期開幕。奇虎360副總裁、首席科學家、IEEE Fellow、IAPR Fellow顏水成教授帶來了主題為《深度學習:精度極限VS用戶體驗》的演講。這是大會首日最后一場演講。
深度學習研發(fā)的兩種不同目標:
追求極限精度
針對一個具體的問題,去探索算法能達到的邊界和極限。比如說我們可以設計更好的模型結(jié)構(gòu),可以用更大、更快的模型,也可以用大量的模型去做融合,另外一方面我們也會思考用更好的訓練平臺和更多的資源實現(xiàn)多機多卡分布式訓練。在訓練的時候可以利用海量的無標注數(shù)據(jù),比如說利用預測學習的方式實現(xiàn)預訓練,當訓練好模型之后,又可以利用Baby-learning和增強學習的方式來增強模型的性能。
追求產(chǎn)品的體驗
人工智能本身不是一個產(chǎn)品,必須跟具體的場景相結(jié)合才有它的價值,核心算法只是這里面的一個部分而已,最好的辦法是算法和場景數(shù)據(jù)形成一個閉環(huán),先訓練出初始的模型,然后在具體的場景里得到模型失效的數(shù)據(jù),用這些數(shù)據(jù)再來提升模型的精度,再把模型用到場景中,進行不斷地迭代,最終在場景中達到它最好的體驗。只有算法科學家和產(chǎn)品工程師結(jié)合,可能讓不完美的算法產(chǎn)生完美的用戶體驗。有一個很明顯的例子就是當前很多AR相機采用的萌顏效果。
總的來說第一個目標的特點是必須”用腦”,而第二個目標更多的是”用心”。
兩種目標相互促進的實例:
在2016年,大家都覺得分類和檢測已經(jīng)可以在工業(yè)界中很好地使用,但是從來沒有人覺得物體分割已經(jīng)到了可以使用的階段。我的研究組就做了很多人體分割的工作,給出一個圖象,輸出每個像素具體是什么東西,我們花了兩年的時間把它的性能從44%提升到了86%。同時領域內(nèi)有很多分割算法取得了很好的成果,去年年底工業(yè)界開始思考,確實有很多的應用場景可以受益于這種分割的技術,于是很多人開始思考怎么樣去對模型進行加速,保證在一些限定的場景的性能能滿足產(chǎn)品化的需求。
從今年開始,比如說美圖秀秀和Snapchat可以把人的頭發(fā)和臉分割出來,可以產(chǎn)生很好的頭發(fā)美化的效果,360和其他一些公司則提供人體分割的技術,可以把人實時從自拍的視頻里面分割出來,疊加到動態(tài)的場景,產(chǎn)生很多好玩、好看的效果。這是一個典型的因為追求精度極限達到一定程度時,就激發(fā)了新的產(chǎn)品形態(tài)的創(chuàng)新。
1×1卷積概念
純粹的內(nèi)積不能很好地模擬人的神經(jīng)元的復雜工作方式,卷積可以用更復雜的網(wǎng)絡結(jié)構(gòu)來替代,當這種復雜的結(jié)構(gòu)是多層感知機的時候,對應的后面操作就是1×1卷積,這個1×1卷積跟前面的3×3、5×5卷積疊加在一起,就會產(chǎn)生更復雜的抽象過程?;?×1卷積的模型的參數(shù)可以降到很低,這樣就為我們把深度學習往端上遷移提供了一個可能性。
1×1卷積功能
基于1x1 卷積的張量逼近分析可以很好地解釋當前各種流行網(wǎng)絡,GoogleNet、ResNet, ResNext里面微觀結(jié)構(gòu)的理論依據(jù)。
基于1x1卷積的分析可以將ResNet解釋成Deeply Connected Network的一個特列,同時啟發(fā)了我們提出的一個新網(wǎng)絡,Dual-path Network。這個網(wǎng)絡在ImageNet取得了單模型的最好性能。
通過對每一個卷積操作附加一個1x1卷積操作然后再點乘,雖然模型變復雜了,但可以大幅減少前向傳播的計算量。
詳細內(nèi)容請關注雷鋒網(wǎng)后續(xù)報告。雷鋒網(wǎng)原創(chuàng)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章