澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

本文作者：余快

2020-08-13 01:29

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導語：通用智能是下一代AI發(fā)展的必然趨勢。

2020 年 8 月 7 日，第五屆全球人工智能與機器人峰會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峰會由中國計算機學會（CCF）主辦，雷鋒網(wǎng)、香港中文大學（深圳）聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。

在第二天的人工智能前沿專場上，澎思科技首席科學家、新加坡研究院院長申省梅以“遷移學習”為主題發(fā)表了精彩演講。

申省梅從傳統(tǒng)機器學習的痛點、深度學習帶來的突破、深度遷移學習、遷移學習中用到的一些技術(shù)和實例方面進行了分享，并分析了遷移學習在視覺智能方向上的應用需求。

傳統(tǒng)機器學習的痛點之一是泛化能力差，原因之一是它使用手工特征，靠設(shè)計者的經(jīng)驗得到，并無法掌握數(shù)據(jù)中的非線性變化，每種特征只能對特定的場景或特定的任務(wù)才有效。泛化能力差導致魯棒性差，落地成本高，用戶滿意度差。

另一方面，深度學習模型為計算機視覺帶來的突破，也是在給定的數(shù)據(jù)集上訓練出來的，可以很好地反映給定數(shù)據(jù)的特點。而給定的數(shù)據(jù)集僅僅代表了某一領(lǐng)域。盡管在這些特定數(shù)據(jù)集訓練的模型具有很高的準確性，遠遠超過傳統(tǒng)機器學習，但在新的場景下它的性能無法維持，并且在用于新任務(wù)的時候可能會導致性能顯著下降。深度學習的突破仍然取決于數(shù)據(jù)。

另外，申省梅還指出深度學習AI落地痛點：

1、感知環(huán)境及應用場景的千變?nèi)f化：天氣、光線、角度、遮擋等因素變化導致成像質(zhì)量不同并且質(zhì)量不佳；訓練數(shù)據(jù)與落地場景的不一致導致AI模型性能陡然下降；

2、重新訓練模型需要大量的AI專業(yè)人才來完成，周期長成本高見效慢，已經(jīng)成為AI普惠的障礙；

3、AI人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。

通用智能是下一代AI發(fā)展的必然趨勢，申省梅表示，澎思會在遷移學習、無監(jiān)督、自監(jiān)督學習、小樣本學習、多模態(tài)學習這幾個真正反映AI落地實際情況的領(lǐng)域里面落地生根。

以下為申省梅的現(xiàn)場演講內(nèi)容，雷鋒網(wǎng)作了不改變原意的編輯及整理：

大家好，我是申省梅，澎思科技首席科學家，也是新加坡研究院的負責人，我今天的主題是“基于遷移學習的視覺智能發(fā)展與應用”。

我會從傳統(tǒng)機器學習的痛點、深度學習帶來的突破，以及深度遷移學習、遷移學習中用到的一些技術(shù)和實例做分享，也會給大家展望一下遷移學習在視覺智能方向上的應用需求。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

傳統(tǒng)機器學習的痛點：泛化能力差

傳統(tǒng)機器學的痛點就是泛化能力差，原因之一是它的特征不是針對數(shù)據(jù)的自適應性，它是用一個手工特征預先經(jīng)過很多先驗知識得到的HOG、LBP、SIFT這樣的特征，再進行提取特征的。不像深度學習能夠用深度神經(jīng)網(wǎng)絡(luò)自動地提取。

由于泛化能力差，在實際落地的時候，魯棒性也會差，導致每次訓練好的模型在換場景時，全部都需要重新搜集數(shù)據(jù)訓練，落地的成本非常高，用戶的滿意程度也很差。

在傳統(tǒng)機器學習時代，也有一個很好的Benchmark數(shù)據(jù)庫，叫PASCAL VOC。學術(shù)界、工業(yè)界都在上面訓練，測評自己訓練的模型。我們在2010年到2012年期間與新加坡國立大學的顏水成團隊一起打比賽，并且獲得三年的冠軍。這個比賽包括目標的分類、檢測和分割。

當時另外一個Benchmark的比賽叫VOT Tracking，是一個視覺跟蹤任務(wù)的國際比賽，2013到2014年我們也獲得這個比賽的冠軍。這個性能評價不僅僅包括跟蹤的精度，還有跟蹤的速度、魯棒性以及實現(xiàn)的復雜性。我們的冠軍模型可以在當時的英特爾i5上跑到每秒200幀以上。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

深度學習帶來的突破：仍取決于數(shù)據(jù)

深度學習能夠解決泛化性和魯棒性，并且精度大幅度提升，所以2013年《麻省理工科技評論》把深度學習列在十大技術(shù)的突破之一。

我們當時也意識到深度學習可以讓機器學習更加逼近人的大腦智能：它不僅是精度從95%升到99%，更是一個商業(yè)模式的改變。它可以實現(xiàn)過去很多不能實現(xiàn)的東西，能夠挖掘出比人類大腦更智能化的東西。最近這幾年，風險投資公司投入了很多，尤其是在深度學習和計算機視覺領(lǐng)域，我們也看到了越來越多這方面的技術(shù)得到落地。

深度學習帶來的突破，我們都不會忘記最大的貢獻者，ImageNet數(shù)據(jù)庫。由于它的量很大，標注干凈，噪聲少，吸引了大量的研究機構(gòu)在上面進行模型訓練和比賽。

最早開始的機器學習還只能夠達到70%多的準確率，26%的分類誤差。接下來的四五年內(nèi)，準確率越來越高，很快就超越了人眼判斷的精度。當時大家都認為ImageNet是計算機視覺年度的奧林匹克大賽。

除了大數(shù)據(jù)很重要以外，算力也非常重要。如果沒有提取大數(shù)據(jù)的超級算力，沒有GPU的算力，沒有這些耕耘在深度學習網(wǎng)絡(luò)的開拓者們，大家不會看到今天的變化。

澎思在各個行業(yè)耕耘時發(fā)現(xiàn)，產(chǎn)業(yè)對計算機視覺技術(shù)要求、性能要求非常高，我們很快就在不同的需求下開發(fā)出自己的人臉技術(shù)、行人技術(shù)、車輛技術(shù)、人機非技術(shù)、人群分析、行為識別、圖象增強恢復技術(shù)，以及聲紋和指紋技術(shù)，還有自主導航、3D重建的技術(shù)。在這之前，通過傳統(tǒng)機器學習，大部分的技術(shù)都能實現(xiàn)，但是使用深度學習后，性能極大提升，澎思也以此將自研的計算機視覺技術(shù)應用在自家的很多產(chǎn)品和各個落地業(yè)務(wù)當中。

澎思科技在成立短短的兩三年中，15次取得了國際比賽冠軍，也刷新了各種權(quán)威數(shù)據(jù)集的世界紀錄。去年ICCV的輕量級人臉識別挑戰(zhàn)賽的4個賽道中，我們在三個賽道的成績都是名列第一。

澎思AIoT的藍圖中，深度學習算法可以應用在智慧樓宇、智慧社區(qū)、智慧園區(qū)、智慧工廠等多個場景中，中間一層是澎思的算法，不僅僅用在服務(wù)器端，即澎思云端，也應用在邊緣端和前端智能設(shè)備。

深度學習模型，比如CNN（卷積神經(jīng)網(wǎng)絡(luò)）為計算機視覺帶來很大突破，但它也是在給定的數(shù)據(jù)上訓練出來的，可以很好地反應給定數(shù)據(jù)的特點。

而給定的數(shù)據(jù)集僅僅代表某個領(lǐng)域、某些場景、某種特定任務(wù)，比如CCTV監(jiān)控下的自然圖像領(lǐng)域、戶外場景、任務(wù)是人臉識別、行人再識別和行為分析。

盡管在這些特定數(shù)據(jù)上訓練的模型具有很高的準確性，遠遠超過傳統(tǒng)機器學習，但在新場景下它的性能會下降。舉個簡單的例子，比如它的人臉識別是針對亞洲女性，就很難把這個模型應用在男性甚至是白人女，或者是兒童的識別上。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

深度學習還是完全取決于給定的數(shù)據(jù)。也因此，目前依然存在著AI落地的痛點：

1、感知環(huán)境及應用場景的千變?nèi)f化：

相機在各個環(huán)境下捕捉到的圖像，隨著天氣、光線、角度、遮擋等因素變化、成像質(zhì)量也不同；

訓練數(shù)據(jù)與落地場景的不一致導致AI模型性能陡然下降，比如在路面架著相機捕捉的行人、車輛和無人機捕捉的形狀是非常不同的。

2、重新訓練模型需要大量的AI專業(yè)人才來完成，成本高、周期長、見效慢，已經(jīng)成為AI普惠的障礙。

3、AI人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。

澎思的使命就是“AI即服務(wù)”，在澎思的AIoT的平臺，通過“AI服務(wù)+AI功能定制終端”的技術(shù)部署，形成一個閉環(huán)生態(tài)，從而解決這些痛點。

深度遷移學習：AI 大規(guī)模落地的希望

遷移學習并不是新的概念，在1995年NIPS的研討會上大家就討論過如何歸納系統(tǒng)的知識，整合并遷移到新的領(lǐng)域，在2016年的NIPS上，吳恩達教授在他的演講里面也強調(diào)了下一個深度學習重要方向應該是遷移學習。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

這是我們的遷移學習平臺，我們專注在某個任務(wù)上訓練出一個很好的預訓練模型，當然數(shù)據(jù)量是一個很好的條件，我們可以進行在線遷移學習、在線優(yōu)化，自動下載到邊緣端。當目標域的數(shù)據(jù)出現(xiàn)各種各樣的情況時，我們會選擇不同的遷移算法。比如無監(jiān)督學習、自監(jiān)督學習、小樣本學習，以及GAN的遷移，還有多任務(wù)的學習，以及原域到目標域的映射，到新領(lǐng)域的一些遷移學習。

剛才提到一個很重要的遷移條件，預訓練模型。如果有一個很好的預訓練模型，任務(wù)就具備了很好的完成條件。ImageNet在計算機視覺領(lǐng)域在圖像分類/目標檢測/分割中有著無法撼動的地位，從李飛飛等人在CVPR2009發(fā)表的論文以來，很多人在ImageNet上訓練出越來越好的模型，受惠于各行各業(yè)。比如從2012年開始的AlexNet，后來有VGGNet、GoogleNet、ResNet、DenseNet，ResNeXt，這些模型大家今天都還在用，我們在場景下可以進行預訓練的方式，在這個場景上應用后，可以遷移到新的域。

這是一個應用案例，比如在某個特定的場景下需要高性能無人看管包的檢測，通過預訓練模型（人的檢測、包的檢測），應用遷移學習的框架，使得在遷移學習框架上性能從30%達到98%以上，加上其他的算法，就可以做到高性能的無人看管包的檢測。

另一個例子是人臉識別，如果有一個很好的預訓練模型，但訓練數(shù)據(jù)里，只有很少的兒童人臉識別，或者不同膚色人臉的識別、暗光的識別，就可能存在性能下降，所以遷移學習可以在特定的情況下達到源域一樣的性能，并且在源域的場景下，性能不打折扣。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

另一個研究熱點是行人再識別。人臉識別之后，人們想用行人再識別，從圖像和外貌上尋找并鑒別是否是同一個人，在應用上我們叫跨相機場景下搜尋一個人。但是不像人臉和指紋，人體是非剛性的，受相機的角度、光線遮擋、分辨率變化，行人姿態(tài)/遮擋不同影響，它的因素是在變化的，到底人體的哪些特征是專屬一個特定人的，沒有一個確定的獨特性。行人圖像在監(jiān)控下千變?nèi)f化，使得這個課題在計算機領(lǐng)域還是極具挑戰(zhàn)，也是一個研究的熱點和難點。

2019年7月份，澎思科技在行人再識別三大主流的測試數(shù)據(jù)上得到了業(yè)內(nèi)最好的成績，刷新了世界紀錄，去年8月份我們又在基于視頻的行人再識別數(shù)據(jù)庫上再次取得了突破性的進展，刷新了歷史紀錄。

這些都是同一個域、同一類數(shù)據(jù)集取得的成績。當跨數(shù)據(jù)集或者跨域時會有什么問題？比如說在Duke上訓練出的模型，你要運用在Market-1501上，直接跨域，得到的數(shù)值是17.5mAP，如果進行遷移學習，可以提升到54.1以上。今年6月份在一個ReID的比賽上，澎思科技通過遷移學習，在三個數(shù)據(jù)集上都取得了很好的成績，大幅提升了跨域ReID算法的準確率。

本次比賽，澎思創(chuàng)新性地將對抗生成網(wǎng)絡(luò)與自監(jiān)督學習算法結(jié)合進行模型訓練，通過遷移學習，進行高準確率的跨場景（數(shù)據(jù)庫）行人再識別算法研發(fā)。

對抗生成網(wǎng)絡(luò)在算法中主要有兩個功能：

一方面，進行數(shù)據(jù)庫的域遷移，具體為原域到目標域的風格遷移；另一方面，進行目標域數(shù)據(jù)庫的數(shù)據(jù)增強，具體為生成跨攝像頭數(shù)據(jù)并給模型賦予相機風格不變的約束。自監(jiān)督學習則是通過聚類的方式給目標域數(shù)據(jù)庫打虛擬標簽并微調(diào)之前訓練好的網(wǎng)絡(luò)。

澎思在今年6月舉辦的CVPR 2020的一個跨域小樣本挑戰(zhàn)賽上也拿到了很好的成績。

傳統(tǒng)的機器學習和現(xiàn)在的深度學習都依賴大量的標注數(shù)據(jù)，并在監(jiān)督下訓練出表現(xiàn)優(yōu)異以及具備較強泛化能力的模型。最大的痛點是數(shù)據(jù)標注費時費力，訓練數(shù)據(jù)對應的場景和實際應用的場景不一致，這成為人工智能落地和廣泛普及的一大障礙。在此背景下，遷移學習和小樣本學習成為近年來研究的前沿熱點。

這個小樣本挑戰(zhàn)賽設(shè)計的前提是，目標域條件是樣本無法標注，且只有少量的樣本（5、20或50個樣本），目標域常與原域不同，而且標注數(shù)據(jù)非常耗時費力，尤其是一些醫(yī)學圖像，需要醫(yī)生專家的監(jiān)督下來標注。在此情況下，他們設(shè)計的原域是自然圖像，怎么樣通過遷移學習和小樣本學習方式，讓它能夠在4個不同的域上，比如說農(nóng)作物的疾病、衛(wèi)星圖像和皮膚病變，以及胸部X光上達到很好的性能。

這是我們的成績，可以看到在農(nóng)作物疾病上，在僅有5個樣本的情況下，遷移達到了96%的性能，隨著樣本的增加，到20、50個樣本時，可以達到接近99%的精度。隨著跨域越來越大，性能會下降，當樣本越來越多，性能也會相應的提高。平均的情況下，我們比Benchmark的67%多了7%，我們的結(jié)論是73.78%。在這個比賽中，我們用了一個框架叫元遷移學習+圖網(wǎng)絡(luò)，可以用在各種前端網(wǎng)絡(luò)。

澎思申省梅：深度遷移學習，AI 大規(guī)模落地的希望 | CCF-GAIR 2020

多任務(wù)學習，在人臉屬性上，先在已有的源數(shù)據(jù)集（多種屬性）訓練一個對人臉屬性有好的表征性的模型，由于在我們要求的目標域的任務(wù)上，這個模型的數(shù)據(jù)沒那么多，但是我們利用了這個預訓練模型的泛化性，在目標域的多個任務(wù)上進行了優(yōu)化，使得它能夠達到多個任務(wù)高性能的指標。

另外一個例子是在各種各樣的攝像頭角度下異常行為的檢測，比如說打架，各種各樣角度的打架，不同的表現(xiàn)方式、不同的光線，怎么樣訓練出來一個好的模型，使它能夠在不同的目標域上進行快速地遷移。

前沿算法研究以實現(xiàn)AI快速落地

通用智能是下一代AI發(fā)展的必然趨勢，代表智能革命的未來。所以澎思會在遷移學習、無監(jiān)督、自監(jiān)督學習、小樣本學習、多模態(tài)學習這幾個真正反映AI落地實際情況的領(lǐng)域中落地生根。

我們的核心算法方向就是基于應用場景開發(fā)一站式服務(wù)，從場景的理解到解決方案，利用我們的算法池和工具箱，與前端設(shè)備、數(shù)據(jù)庫來進行端側(cè)和上云管理的優(yōu)化，以及云計算的Cluster，讓我們無論是在云端算法還是邊緣端的算法，都有很好的一站式服務(wù)。

澎思的目標是在算法技術(shù)上走在國際計算機視覺的前沿，基于AI落地為主的前沿技術(shù)開發(fā)，建設(shè)云端AI在線遷移學習平臺，加強端側(cè)AI輕量化的設(shè)計體系，推動以用戶價值為導向的To B/To C產(chǎn)品創(chuàng)新。

最后展望一下遷移學習在視覺智能當中的應用需求。計算機視覺領(lǐng)域的預訓練模型目前還是不夠泛化、不夠魯棒，拿行人再識別做例子，在現(xiàn)有的數(shù)據(jù)上都無法在跨域當中提高到可用的性能。在現(xiàn)實的應用場景下，ReID的標注也是非常費力、耗時的，希望能夠在無標簽、少標簽的情況下，遷移學習能夠大幅度的提高。另外一個跨域場景的人的行為檢測，可以看到很多現(xiàn)實問題還待解決，希望遷移學習能夠在接下來AI落地和惠普進程中有更多突破。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章