0
本文作者: 楊文 | 2017-07-28 11:28 |
雷鋒網(wǎng)AI科技評論按:2017年是ImageNet挑戰(zhàn)賽舉辦的最后一年,夏威夷當(dāng)?shù)貢r間7月26日,作為ImageNet創(chuàng)始人之一的李飛飛和他的學(xué)生鄧嘉在CVPR 2017期間的一場workshop上做了主題演講,他們對ImageNet 八年來所走的路做了深情回顧和總結(jié)。以下是雷鋒網(wǎng)編輯整理。
ImageNet創(chuàng)辦至今共舉辦八屆挑戰(zhàn)賽,從最初的算法對物體進行識別的準(zhǔn)確率只有71.8%上升到現(xiàn)在的97.3%,識別錯誤率已經(jīng)遠(yuǎn)遠(yuǎn)低于人類的5.1%。
盡管ImageNet挑戰(zhàn)賽已結(jié)束了它短暫的生命周期,但ImageNet數(shù)據(jù)集還會一直存在,截止目前已經(jīng)有超過1300萬張圖片,并且未來還會增長,繼續(xù)為計算機視覺領(lǐng)域做貢獻。
談及為什么提出建ImageNet數(shù)據(jù)集,李飛飛說“盡管很多人都在注意模型,但我們要關(guān)心數(shù)據(jù),數(shù)據(jù)將重新定義我們對模型的看法”。
而時間也最終證明了李飛飛最初的想法是正確的,沒有能反映真實世界的訓(xùn)練數(shù)據(jù),再好的算法模型也沒有用。
2005年,李飛飛從加州理工大學(xué)拿到電子工程學(xué)博士學(xué)位后進入了學(xué)術(shù)界,開始在伊利諾伊州香檳分校擔(dān)任教職。那時她看到整個學(xué)術(shù)界和工業(yè)界重心都放在如何做出更好的算法,認(rèn)為無論數(shù)據(jù)如何,只要算法好就會有好的決策。她意識到了這樣做的局限,并且想到了一個解決方法,就是做一個能詳細(xì)描繪出整個世界物體的數(shù)據(jù)集。她回憶起當(dāng)時的情景深情地說道;“當(dāng)時每個人對此都是一副懷疑的態(tài)度,但是 Kai Li( 李凱,普林斯頓Princeton大學(xué)教授,美國工程院院士) 做了兩件厲害的事情,他說:‘飛飛,你的教授生涯剛剛開始,你想要做的事情,我實驗室的所有的機器都可以拿來幫你,而且我還會給你一個學(xué)生?!绻麤]有這樣的支持,我是沒辦法開始做 ImageNet 的?!?/p>
于是李飛飛、Jia Deng( 鄧嘉,李飛飛的學(xué)生) 等研究員在 CVPR 2009 上發(fā)表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,沒過多久,這個數(shù)據(jù)集就迅速發(fā)展成一項競賽,通過對數(shù)據(jù)集中的物體進行識別,選出識別錯誤率最低的算法。
賽事一經(jīng)公布,便有多家科技企業(yè)參與進來。2010年選出的第一界競賽優(yōu)勝者,現(xiàn)在都出任了百度、谷歌和華為等公司高管(如林元慶,余凱,張潼)。馬修·澤勒(Matthew Zeiler)2013年贏得ImageNet挑戰(zhàn)賽后,在獲獎算法基礎(chǔ)上創(chuàng)辦了Clarifai公司,目前獲得了4000萬美元風(fēng)險投資。 谷歌與兩位牛津大學(xué)的研究者共同獲得2014年的ImageNet挑戰(zhàn)賽冠軍。隨后,牛津大學(xué)的兩位研究人員很快就被谷歌吸收,并進入谷歌收購的DeepMind實驗室工作。 現(xiàn)在,參與ImageNet挑戰(zhàn)賽獲獎的企業(yè)和個人已遍布科技行業(yè)的每個角落。
關(guān)于如何利用數(shù)據(jù)體現(xiàn)世界多樣性一直是當(dāng)時李飛飛需要解決的難題之一,最終她留意到了WordNet。 在WordNet里面,dog(狗)放在canine(犬科)下面,canine則會放在mammal(哺乳動物)下面,以此類推。這種語言組織方式依賴的是機器所能讀懂的邏輯,并由此匯集了超過15.5萬個索引單詞。李飛飛研究了WordNet后,就去找了一直從事WordNet研究的克里斯蒂安·菲爾鮑姆(Christiane Fellbaum)。菲爾鮑姆認(rèn)為,WordNet可以為每個單詞找到一張相關(guān)的圖片,但主要是為了參考,而不是建計算機視覺數(shù)據(jù)集。通過那次見面以后,李飛飛設(shè)想了一個更大膽的想法——組建一個龐大的數(shù)據(jù)集,為每個單詞都提供更多例子。
李飛飛首先想到的就是雇傭本科生手工尋找圖片,然后添加到數(shù)據(jù)集中。但她很快發(fā)現(xiàn),按照這樣的速度大約需要90年才能完成。
后來又想到能否讓計算機視覺算法從互聯(lián)網(wǎng)上選取圖片,人工來驗證圖片的準(zhǔn)確性?但經(jīng)過幾個月的研究后,發(fā)現(xiàn)同樣不可行——算法將會隨著時間的推移受到限制,只能在整理數(shù)據(jù)集時才能發(fā)現(xiàn)哪些算法具有識別能力。
直到有一次和一名研究生閑聊時,知道了亞馬遜有一個眾包平臺 Mechanical Turk,可以把任務(wù)分發(fā)給全世界坐在電腦前的人。李飛飛得知后非常興奮,感覺自己的ImageNet一定能做起來。隨后接觸發(fā)現(xiàn) Mechanical Turk本身也面臨一些缺陷,比如,如果某些參與該平臺的人試圖欺騙系統(tǒng)該怎么辦? 李飛飛帶領(lǐng)團隊針對Mechanical Turk參與者的行為開發(fā)了一批統(tǒng)計模型,確保數(shù)據(jù)集中只包含正確的圖片。
最終借助Mechanical Turk花了兩年半時間才完成這個數(shù)據(jù)集。其中包含320萬張經(jīng)過標(biāo)記的圖片,共分成5,247種類別,12個子樹,像“哺乳動物”、“汽車”和“家具”等。
2017年是這場挑戰(zhàn)賽的最后一年。這八年中,獲獎?wù)叩乃惴ㄕ_識別率就從71.8%提升到97.3%,已遠(yuǎn)遠(yuǎn)超越了人類,并證明了越大的數(shù)據(jù)集確實可以帶來更好的決策。
2009年,在京都一個計算機視覺會議上,一位名叫Alex Berg的參會人員拉住李飛飛,提議大賽中應(yīng)該額外加入用算法定位圖像目標(biāo)的任務(wù),而不僅僅是識別圖像。李飛飛想了想說,你來加入我們吧。Berg、Jia Deng和李飛飛三人用這些數(shù)據(jù)集寫出了五篇論文。其中第一篇論文成為了今后大賽如何用算法對大規(guī)模圖片進行分類的比賽標(biāo)準(zhǔn),也就是ImageNet挑戰(zhàn)賽規(guī)則的前身。
“我們意識到,如果想把這個數(shù)據(jù)集大眾化,我們還需要做更深入的研究。”李飛飛在第一篇論文中寫道。
隨后,李飛飛奔赴歐洲找到圖像識別大賽PASCAL VOC的組委會,希望對方能和她合作,并幫助宣傳ImageNet。PASCAL數(shù)據(jù)集當(dāng)時有一定影響力,但只有20個類,而ImageNet當(dāng)時有1000個類。
隨著ImageNet接下來連續(xù)兩年舉辦,它很快成為衡量分類算法在當(dāng)時最復(fù)雜的圖像數(shù)據(jù)集上的表現(xiàn)的一個基準(zhǔn)。
研究人員后來也發(fā)現(xiàn),他們的算法在使用ImageNet數(shù)據(jù)集訓(xùn)練時,表現(xiàn)效果會更好。
“當(dāng)時很意外地發(fā)現(xiàn)用ImageNet訓(xùn)練過的模型可以做其他識別任務(wù)的啟動模型,之后經(jīng)過微調(diào)就能完成任務(wù),”Berg說,“這不僅是神經(jīng)網(wǎng)絡(luò)的突破,也是常規(guī)認(rèn)知的飛躍?!?/p>
到了2012年的ImageNet挑戰(zhàn)賽,計算機視覺領(lǐng)域取得了重大成果。那一年,多倫多大學(xué)的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):AlexNet,成績比當(dāng)時的第二名高出41%。AlexNet現(xiàn)在依然在研究中被廣泛使用。
Hinton從20世紀(jì)80年代就一直致力于人工神經(jīng)網(wǎng)絡(luò)的研究,但他的研究成果一直找不到施展的平臺,直到遇到了ImageNet。Hinton和他的研究團隊之前已經(jīng)證明演示過他們的神經(jīng)網(wǎng)絡(luò)可以在更小的數(shù)據(jù)集上完成更小的任務(wù),比如筆跡檢測等,但他們需要更多的數(shù)據(jù)將人工神經(jīng)網(wǎng)絡(luò)運用到現(xiàn)實世界中。
“很明顯,如果在ImageNet上做得好,你就能解決圖像識別問題?!盨utskever說, “更令人驚奇的是,人們可以通過深度學(xué)習(xí)不斷改進它, 神經(jīng)網(wǎng)絡(luò)之間的層能容納處理更復(fù)雜的模式,是目前人工智能領(lǐng)域最流行的一項技術(shù),深度學(xué)習(xí)是最正確的決定?!?/p>
后來,直到2014年,所有競賽高分者的研究領(lǐng)域都是深度神經(jīng)網(wǎng)絡(luò)。
未來ImageNet依然會開放供研究者免費使用。即便ImageNet競賽本身結(jié)束,它留下的遺產(chǎn)也會繼續(xù)影響整個行業(yè)。2009年以來,數(shù)十個新開發(fā)的數(shù)據(jù)集已經(jīng)引入了計算機視覺、神經(jīng)語言處理和語音識別等子領(lǐng)域。
“ImageNet改變了人們的思維模式:雖然很多人仍然關(guān)心模型,但也很關(guān)注數(shù)據(jù)?!崩铒w飛說,“數(shù)據(jù)重新定義了我們對模型的思考方式?!?/p>
雷鋒網(wǎng)AI科技評論編輯
參考:https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。