0
本文作者: 溫曉樺 | 2017-08-01 15:38 | 專題:CVPR 2017 |
ImageNet比賽結(jié)束了。
夏威夷當(dāng)?shù)貢r(shí)間7月26日,CVPR 2017最后一天,李飛飛教授等學(xué)者在ImageNet workshop上緬懷過去8年計(jì)算機(jī)視覺(CV)發(fā)展的ImageNet時(shí)代,同時(shí)宣布挑戰(zhàn)賽最終歸于Kaggle。
同一天上午,WebVision也公布了第一期獲獎(jiǎng)名單。
WebVision競賽由蘇黎世聯(lián)邦理工、Google Reasearch、卡耐基梅隆大學(xué)等共同組織。但相較而言,WebVision所用數(shù)據(jù)集直接從網(wǎng)絡(luò)爬取,沒有經(jīng)過人工標(biāo)注,含有大量噪音之外,數(shù)據(jù)類別和數(shù)量也遠(yuǎn)大于ImageNet比賽所用數(shù)據(jù),所以難度也高很多。
所以,ImageNet為什么結(jié)束?WebVision將如何推動(dòng)CV發(fā)展?CV學(xué)術(shù)與應(yīng)用研究的出路又在哪?帶著這些問題,雷鋒網(wǎng)AI科技評論與多位計(jì)算機(jī)視覺專家進(jìn)行了交流。
在CVPR研討會上,李飛飛教授作為谷歌研究院代表暨比賽贊助方,向碼隆科技算法團(tuán)隊(duì)頒發(fā)了WebVision冠軍獎(jiǎng)項(xiàng)
六天會議過程中,CVPR 2017的論文成果通過oral presentation、workshop、poster、spotlight等環(huán)節(jié)普遍都得到了展示,但業(yè)內(nèi)人士普遍認(rèn)為,“今年并沒有一個(gè)特別讓人興奮、驚喜的成果出來。”香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室林達(dá)華教授解釋稱,包括「Densely Connected Convolutional Networks」等最佳論文在內(nèi),我們看到了很多不同的網(wǎng)絡(luò)設(shè)計(jì)的想法和切入角度,這些扎實(shí)的工作推動(dòng)了現(xiàn)有體系、架構(gòu)的一步前進(jìn),但是,卻普遍缺乏一個(gè)根本性突破(fundamental breakthrough)。
關(guān)于計(jì)算機(jī)視覺和模式識別的研究,過去數(shù)年依靠ImageNet數(shù)據(jù)集之下,通過深度學(xué)習(xí)該領(lǐng)域獲得長足的發(fā)展。但是,如WebVision主辦方成員李文博士指出,依賴于數(shù)據(jù)標(biāo)注進(jìn)行訓(xùn)練,這也是過去到現(xiàn)在CV研究到達(dá)了瓶頸的原因。因?yàn)椋芏鄬?shí)際場景中是沒有大規(guī)模標(biāo)注數(shù)據(jù)的,如果WebVision希望推動(dòng)半監(jiān)督或無監(jiān)督學(xué)習(xí)進(jìn)行圖像理解的初衷能夠?qū)崿F(xiàn),將更符合現(xiàn)實(shí)的應(yīng)用。
地平線機(jī)器人技術(shù)創(chuàng)始人及CEO余凱接受雷鋒網(wǎng)采訪時(shí)指出,“現(xiàn)在的深度學(xué)習(xí)其實(shí)是一個(gè)有問題的框架,基本是用大數(shù)據(jù)和很多標(biāo)注數(shù)據(jù)來訓(xùn)練,這過去幾年很成功,但不代表是正確的方向?!庇鄤P表示,現(xiàn)在的計(jì)算機(jī)視覺的系統(tǒng)是一個(gè)(特征為)training system的訓(xùn)練,而不是一個(gè)learning system,我們要從training system變成learning system,讓機(jī)器主動(dòng),并結(jié)合數(shù)據(jù)的結(jié)構(gòu)、時(shí)間空間結(jié)構(gòu)去學(xué)習(xí),而不是被動(dòng)地用人工訓(xùn)練來標(biāo)注它?!霸谧詣?dòng)駕駛領(lǐng)域尤其重要,因?yàn)轳{駛中永遠(yuǎn)有好多corner case,這些在訓(xùn)練數(shù)據(jù)集里面是沒有的?!?/p>
對于當(dāng)前CV研究現(xiàn)狀,林達(dá)華教授指出,“如今似乎是有新的成果誕生但又有所停滯的狀態(tài),就像當(dāng)年deep learning流行起來之前幾年的狀態(tài)——雖然各種思路百花齊放,但是很多核心問題都尚未取得新的突破性進(jìn)展?!?/p>
不過,面對今年來自全球各地超過五千人的參會盛況,林達(dá)華教授說道:“現(xiàn)在處于承前啟后的階段,大家都非常關(guān)注計(jì)算機(jī)視覺這個(gè)領(lǐng)域。目前很多研究組都在積極開拓新的問題和方向,我相信未來一兩年內(nèi)能夠在多個(gè)方向?qū)崿F(xiàn)新的突破?!?/span>
不過,面對今年來自全球各地超過五千人的參會盛況,林達(dá)華教授說道:“現(xiàn)在處于承前啟后的階段,大家都非常關(guān)注計(jì)算機(jī)視覺這個(gè)領(lǐng)域。目前很多研究組都在積極開拓新的問題和方向,我相信未來一兩年內(nèi)能夠在多個(gè)方向?qū)崿F(xiàn)新的突破?!?/p>
以大公司,比如騰訊AI Lab的兩篇論文為例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」,提出依靠檢測器自身不斷改進(jìn)訓(xùn)練樣本質(zhì)量,破解弱監(jiān)督目標(biāo)檢測問題中訓(xùn)練樣本質(zhì)量低的瓶頸;以及「Diverse Image Annotation」,用少量多樣性標(biāo)簽表達(dá)盡量多的圖像信息,該目標(biāo)充分利用標(biāo)簽之間的語義關(guān)系,以使得自動(dòng)標(biāo)注結(jié)果與人類標(biāo)注更加接近——都強(qiáng)調(diào)了模型的自主學(xué)習(xí)和理解的方法的突破。
在今年的CVPR上,錄取論文涉及的領(lǐng)域占比最高的五類是:計(jì)算機(jī)視覺中的機(jī)器學(xué)習(xí)(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。
所謂的“突破”,即是大家都迫切希望解決這個(gè)問題,但是暫時(shí)又沒有很好的方法來解決,那么就看誰提出了很好的方法。從今年CVPR的成果來看,data set的研究依舊火熱;不過,林達(dá)華教授指出,到現(xiàn)在,ImageNet基本上做到一個(gè)極限了?!爱?dāng)一個(gè)事情的標(biāo)準(zhǔn)做到98%、99%的時(shí)候,從學(xué)術(shù)的角度來說,這個(gè)事情做到這個(gè)程度,學(xué)術(shù)界的使命差不多終結(jié)了?!?/p>
所以,無論是新升級的WebVision競賽,還是大公司的研發(fā)——對于做學(xué)術(shù)的人來說,如何尋找新的挑戰(zhàn)?
林達(dá)華教授向雷鋒網(wǎng)AI科技評論介紹,在其實(shí)驗(yàn)室的研究下,總結(jié)起來CV領(lǐng)域的突破方向主要有三個(gè),而它們各自的未來和面臨挑戰(zhàn)是怎樣的呢?
方向一:做更大更有挑戰(zhàn)性的數(shù)據(jù)集
在WebVision的workshop上,Google科學(xué)家介紹了他們?nèi)绾斡?00Million的3D圖片做deep learning。而在更早之前,雅虎被收購前也發(fā)布了一個(gè)“YFCC 100M”,數(shù)據(jù)庫達(dá)到億級。
不過,這些數(shù)據(jù)最大的問題是,上億的數(shù)據(jù)集,像ImageNet那樣把標(biāo)簽做好,幾乎是不可能的事情。在數(shù)據(jù)量龐大的情況下,帶來新的挑戰(zhàn)是:怎么提供標(biāo)簽?同時(shí),每個(gè)領(lǐng)域的AI應(yīng)用都需要各自領(lǐng)域的數(shù)據(jù)集,是需要每一個(gè)領(lǐng)域都標(biāo)注一個(gè)自己的ImageNet?顯然這樣的效率難以被產(chǎn)業(yè)界接受。
所以,現(xiàn)在大家也不選擇提供標(biāo)簽了,比如Google可能就直接通過data采集了一些標(biāo)簽。只是也沒有完全百分百能夠確認(rèn)標(biāo)簽是對的,就在于校驗(yàn)一下準(zhǔn)確率達(dá)到70%、80%。WebVision比賽最重要的特點(diǎn)就是采用的非人工標(biāo)注, 而是通過特定的標(biāo)簽在互聯(lián)網(wǎng)上搜索1000個(gè)類的圖片, 這樣就容易引起圖像和標(biāo)簽含有大量的錯(cuò)誤信息(噪聲)。這不同于“干凈”的ImageNet數(shù)據(jù),圖片內(nèi)容和對應(yīng)的標(biāo)簽都非常單一和清楚。
“那么,怎么樣使用這些有噪音的數(shù)據(jù)?這其實(shí)是帶來了一個(gè)非常大的挑戰(zhàn)。我們內(nèi)部拿現(xiàn)有的視覺模型和學(xué)習(xí)方法在有噪音的數(shù)據(jù)集上測試過,發(fā)現(xiàn)不用說20%,哪怕是10%的錯(cuò)誤標(biāo)簽都會對性能產(chǎn)生嚴(yán)重的破壞?!绷诌_(dá)華教授說道。
理論上說,如果有十倍以上的數(shù)據(jù)量,以及一個(gè)好的方法的話,機(jī)器識別和理解的水平必定要超越原本ImageNet的水平,但目前只能達(dá)到不相伯仲的結(jié)果。那么問題就來了:是要投入一些資源,繼續(xù)做一百萬級的標(biāo)注數(shù)據(jù),還是就想辦法去解決上億的數(shù)據(jù)集問題?
“這是一個(gè)很open的領(lǐng)域?!睕]有標(biāo)注,就沒標(biāo)準(zhǔn)參照,機(jī)器怎么處理這種帶噪音數(shù)據(jù)?如何把握機(jī)器識別的準(zhǔn)確性呢?……這些都是有待探索的問題。
作為本次WebVision第一名獲獎(jiǎng)得主,碼隆科技首席科學(xué)家黃偉林博士向雷鋒網(wǎng)AI科技評論表示,所以,要實(shí)現(xiàn)這個(gè)突破, 需要發(fā)展半監(jiān)督(semi-supervised),甚至無監(jiān)督(unsupervised)學(xué)習(xí)。這就需要設(shè)計(jì)更好、更優(yōu)化的損失函數(shù)(loss functions), 來減少模型訓(xùn)練對標(biāo)簽數(shù)據(jù)的依賴。 對于更復(fù)雜的圖像分割任務(wù), 最重要的應(yīng)該發(fā)展弱監(jiān)督(weakly-supervised)學(xué)習(xí)算法,以盡量避免像素級別的標(biāo)注。
在這個(gè)過程中, 最近很火的生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN),可以自動(dòng)生成大量的人工樣本,這些人工樣本對訓(xùn)練缺乏樣本和標(biāo)注的圖片數(shù)據(jù)有很大幫助,為解決多層次圖像理解提供重要的思路。 另外,如何利用少量的圖片數(shù)據(jù)和標(biāo)簽來訓(xùn)練足夠優(yōu)化的深度模型也是重要的一個(gè)課題, 而課程學(xué)習(xí)(curriculum learning)對提升模型的泛化能力非常有效。
不過,如果擴(kuò)展到更廣闊的計(jì)算機(jī)視覺應(yīng)用領(lǐng)域,業(yè)內(nèi)人士會覺得,這還不太夠。這就是下一個(gè)方向需要解決的問題。
“就是說我覺得計(jì)算機(jī)視覺要和robotics結(jié)合在一起,它是用時(shí)間的維度去看場景的變化,什么是前景什么是背景區(qū),什么是一個(gè)物體,什么是形狀。最后理解到的結(jié)果應(yīng)該是有空間信息的語義識別理解,現(xiàn)在都還很少,都是用弱監(jiān)督、生成對抗的方法去做。”地平線機(jī)器人技術(shù)創(chuàng)始人及CEO余凱指出,
“所以我覺得研究方法要改變,研究的目的要改變。目的要改變是指,研究的空間和場景的關(guān)系,這尤其對自動(dòng)駕駛特別重要?!?/p>
所以,這里不是指NLP領(lǐng)域的所謂結(jié)構(gòu)化數(shù)據(jù)。在自動(dòng)駕駛領(lǐng)域中,林達(dá)華教授指出,很多人做自動(dòng)駕駛的預(yù)測時(shí),需要做路線的檢測、三維重建等,這些許多任務(wù)當(dāng)中的每一個(gè),從傳統(tǒng)學(xué)術(shù)的研究角度,是分開研究的。但是,實(shí)際中要解決這些問題,比如駕駛,就是個(gè)綜合的問題,人開車時(shí)也不會把任務(wù)分成若干個(gè)方向分別做判斷。
以往的圖像分割,每一次分割用一次CNN這樣的方法,并不能綜合處理這些任務(wù)。比如,通過地圖,周邊環(huán)境明明存在一個(gè)空間結(jié)構(gòu),圖像分割并不能將這些結(jié)構(gòu)性空間考慮全面,“單純的語義分割,比如一張圖中標(biāo)出這50萬個(gè)像素是路,另外80萬個(gè)像素是建筑物,這是無法直接指導(dǎo)駕駛的?!?/span>
林達(dá)華教授表示,從學(xué)術(shù)的角度看,只有把結(jié)構(gòu)數(shù)據(jù)融合在一個(gè)幾何的框架下面,才能知道客觀世界是什么——前面多少米是人、 是建筑,前面的車開得多快……這才是實(shí)際有用的成果。
“所以,所謂的結(jié)構(gòu)就是有多個(gè)不同的方面,相互之間是有著數(shù)學(xué)上、語義上、物理上的各種聯(lián)系。在多種補(bǔ)充結(jié)構(gòu)相互聯(lián)系的系統(tǒng)里面,用系統(tǒng)的角度,帶著結(jié)構(gòu)的角度,去系統(tǒng)地觀察,把不同的視覺聯(lián)合在一起解決問題,我覺得也是一個(gè)現(xiàn)在正在開始推進(jìn)的方向?!?/p>
承接上述結(jié)構(gòu)數(shù)據(jù)處理的問題繼續(xù)展開想象,就會發(fā)現(xiàn),整個(gè)CVPR 2017中,視頻理解相關(guān)的研究大約只占整個(gè)會議論文不到30%的水平,但實(shí)際中這個(gè)問題的應(yīng)用卻是極其廣泛。人臉識別、監(jiān)控、互聯(lián)網(wǎng)視頻、自動(dòng)駕駛等,全部有巨大商業(yè)價(jià)值的視覺數(shù)據(jù),都是以視頻的形式存在的,不是一幀一幀的。
視頻相對與圖像而言,最重要的一點(diǎn)就是多了一個(gè)維度:時(shí)間軸。怎么去利用這一個(gè)新的維度,利用時(shí)間的關(guān)系……
據(jù)了解,今年就有很多大公司、研究小組都做了新的視頻數(shù)據(jù)集(video dataset),包括Facebook、Google、伯克利大學(xué)等?!按蠹叶既幦‘?dāng)video domain的ImageNet,誰能夠脫穎而出?現(xiàn)在還不好說,這是百家爭鳴的戰(zhàn)國時(shí)代?!绷诌_(dá)華教授說道,“但是,video是一個(gè)非常重要的方向,這也是我們實(shí)驗(yàn)室過去兩年也在持續(xù)投入的?!?/p>
WebVision在今年的CVPR大會上開設(shè)了一個(gè)專題,上面提出了 Visual understanding and learning from web data 的挑戰(zhàn)。平安科技首席科學(xué)家,平安科技人工智能總工程師劉飛解釋稱,也就是說,今年的挑戰(zhàn)分為兩項(xiàng):第一項(xiàng)還是關(guān)于圖像分類,另一項(xiàng)挑戰(zhàn)是關(guān)于遷移學(xué)習(xí)的。
前面大家都意識到了無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等重要和困難,不過從產(chǎn)業(yè)界觀察學(xué)術(shù)進(jìn)步的角度看,劉飛指出,遷移學(xué)習(xí)恐怕才是比較有新意的、更大的挑戰(zhàn)。“遷移學(xué)習(xí)是為了解決在一類環(huán)境下學(xué)習(xí)到的模型能用于一個(gè)全新環(huán)境下缺少樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)的問題,遷移學(xué)習(xí)是提升機(jī)器學(xué)習(xí)泛化能力的一個(gè)出路。如果遷移學(xué)習(xí)的技術(shù)有較快發(fā)展進(jìn)展,那么以后深度學(xué)習(xí)技術(shù)將會比較快速和廣泛地部署到各個(gè)領(lǐng)域的商用場景。”
但是,實(shí)際應(yīng)用中,很多時(shí)候?qū)D像的處理不只是視覺問題,更多也涉及到需要NLP交叉結(jié)合的研究。結(jié)合實(shí)際應(yīng)用處理的經(jīng)驗(yàn),劉飛稱,
WebVision如今提到的視覺理解目前還只是字面意義上的,可能會通過今后幾年提出的新挑戰(zhàn)來體現(xiàn)。真正的視覺理解更加大的挑戰(zhàn)應(yīng)該是理解圖像內(nèi)容的語義內(nèi)涵,而不僅僅是檢測定位、分類這些任務(wù),還要理解圖像表達(dá)出的人類高級知識范疇的內(nèi)容,例如一副圖片是表達(dá)出一個(gè)社會事件、一次個(gè)人聚會,或是一副什么風(fēng)格的藝術(shù)作品等等,這些都是以往人類用語言表達(dá)出的內(nèi)容。
無獨(dú)有偶,騰訊AI Lab計(jì)算機(jī)視覺總監(jiān)劉威博士接受雷鋒網(wǎng)AI科技評論采訪時(shí)也指出,
現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺與文本信號共同出現(xiàn),譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應(yīng)的字幕、評論和彈幕等信息。如何挖掘或者學(xué)習(xí)他們之間的相關(guān)性也是業(yè)界的研究熱點(diǎn)。
近年來計(jì)算機(jī)視覺+NLP相結(jié)合,出現(xiàn)了很多熱點(diǎn)的研究問題,譬如圖像文本匹配、圖像描述生成、圖像問答等。今年的CVPR的其中一個(gè)keynote也是邀請了NLP領(lǐng)域斯坦福大學(xué)的知名教授Dan Jurafsky,討論了language方面的研究進(jìn)展。因此,多個(gè)交叉領(lǐng)域的研究,更能推動(dòng)研究成果在實(shí)際業(yè)務(wù)場景中的應(yīng)用。
所以,討論完這些方法論后,對于“未來要實(shí)現(xiàn)這個(gè)突破,還要經(jīng)歷一個(gè)怎樣的創(chuàng)新期?”這個(gè)問題,跨領(lǐng)域機(jī)器學(xué)習(xí)的技術(shù)融合,例如計(jì)算視覺、自然語言處理、語音識別等的融合;以及學(xué)術(shù)界與產(chǎn)業(yè)界的進(jìn)一步研究合作,是業(yè)內(nèi)人士普遍希望推進(jìn)的路徑。
同時(shí),中國互聯(lián)網(wǎng)公司的眾多創(chuàng)新,大多還停留在應(yīng)用層面或技術(shù)層面。而美國創(chuàng)新科技的研究,往往是從理論的根基出發(fā),建立一套完整的思維方式,這也是為什么美國,尤其是硅谷,在過去數(shù)十年一直引領(lǐng)創(chuàng)新的原因:他們有能力也有意愿從基礎(chǔ)研究出發(fā),與大學(xué)、研究機(jī)構(gòu)保持密切關(guān)系,共同完成學(xué)術(shù)創(chuàng)新和商業(yè)化。
如商湯科技CEO徐立所言,AI的火熱都不是一夜時(shí)間的事情,雖然看起來像是一夜梨花開,但更重要是一直以來源頭創(chuàng)新工作的厚積薄發(fā)。在本屆CVPR,商湯科技與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)被共同錄取23篇論文,這個(gè)數(shù)量遠(yuǎn)高于BAT。“現(xiàn)在,基礎(chǔ)研究不能丟,才能帶來足夠的時(shí)間窗口。AI的發(fā)展需要產(chǎn)業(yè)和研究相結(jié)合,以定義問題,解決問題。”
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章