0
本文作者: 我在思考中 | 2022-01-04 11:18 |
在日常生活中,我們需要一些「標(biāo)準(zhǔn)」來(lái)衡量個(gè)人的行為。
而在科研工作中,研究人員也需要一些「基準(zhǔn)」來(lái)評(píng)估模型的性能。
因此,不管是普遍的「標(biāo)準(zhǔn)」還是特定的「基準(zhǔn)」,它們都有一定的參考意義。
然而,如果有一天我們發(fā)現(xiàn)這些「參照物」與實(shí)際生活漸行漸遠(yuǎn)時(shí),它們?cè)撏翁幦ィ?/span>
近日,由加州大學(xué)伯克利分校、華盛頓大學(xué)和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準(zhǔn)定義的模糊任務(wù)在促進(jìn)智能理解上的局限性,就像用有限的博物館來(lái)代表整個(gè)世界一樣。
論文地址:https://openreview.net/pdf?id=j6NxpQbREA1
在這篇論文中,研究人員闡述了機(jī)器學(xué)習(xí)(ML)對(duì)通用任務(wù)框架(CTF)的過(guò)度依賴(lài),因?yàn)檫@個(gè)框架不恰當(dāng)?shù)匮葑兂晌覀兘裉焖斫獾倪@些聲稱(chēng)評(píng)估「通用能力」的基準(zhǔn)。值得注意的是,研究團(tuán)隊(duì)并不否認(rèn)這些基準(zhǔn)的實(shí)用性,而是希望指出將其作為框架存在的固有缺陷。
這篇論文最能引起共鳴的一點(diǎn)就是用故事書(shū)作為引子,且將情節(jié)貫穿全文,使得論文的研究?jī)?nèi)容更為直白易懂。
這本書(shū)就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,書(shū)中的主人公Grover參觀了一家聲稱(chēng)展示「整個(gè)世界」的博物館。
該博物館的每個(gè)展廳都陳列著不同類(lèi)別的東西,有些類(lèi)別是隨意和主觀的,比如「你在墻上看到的東西( Things You Find On a Wall )」和「房間里能讓你撓癢癢的東西( The Things that Can Tickle You Room )」;有些類(lèi)別則非常具體的,例如「胡蘿卜屋( The Carrot Room )」,而另一些則含糊不清,如「高大的廳堂( The Tall Hall )」。
當(dāng)Grover認(rèn)為自己已經(jīng)參觀完博物館的一切時(shí),他來(lái)到寫(xiě)著「其他東西(Everything Else)」的大門(mén)前。打開(kāi)門(mén)后,卻發(fā)現(xiàn)自己置身于外面的世界。
作為兒童故事,Grover的經(jīng)歷是荒誕的。然而,在實(shí)際的研究中,例如人工智能尤其是ML領(lǐng)域,也存在類(lèi)似的固有錯(cuò)誤邏輯,其中許多流行的基準(zhǔn)依賴(lài)于固有的錯(cuò)誤假設(shè)。
這篇論文的研究人員認(rèn)為,在諸如「視覺(jué)理解」或「語(yǔ)言理解」之類(lèi)的模糊任務(wù)中,作為衡量一般能力進(jìn)展的基準(zhǔn),與有限的博物館在代表「整個(gè)世界的一切」方面一樣無(wú)效,且這兩個(gè)謬論的原因是相似的,即本質(zhì)上是基于特定的、有限的且局限于上下文的環(huán)境。
GLUE或ImageNet之類(lèi)的基準(zhǔn)測(cè)試常常被提議為驗(yàn)證任何給定模型性能的基本通用任務(wù)的定義。其結(jié)果是,通過(guò)這些基準(zhǔn)數(shù)據(jù)集證明合理的結(jié)論往往遠(yuǎn)遠(yuǎn)超越了它們最初設(shè)計(jì)的任務(wù),甚至超出了最初的開(kāi)發(fā)目標(biāo)。
盡管作為邁向「通用目標(biāo)」的標(biāo)志,這些基準(zhǔn)存在明顯的局限性。事實(shí)上,這些基準(zhǔn)的開(kāi)發(fā)、使用和采用表明了一個(gè)結(jié)構(gòu)有效性的問(wèn)題,其中涉及的基準(zhǔn)——由于它們?cè)谔囟〝?shù)據(jù)、度量和實(shí)踐中的實(shí)例化——不可能捕獲任何具有代表性的關(guān)于它們的普遍適用性的結(jié)論。
論文的作者們認(rèn)為測(cè)量通用能力的目標(biāo)(即通用對(duì)象識(shí)別、通用語(yǔ)言理解或領(lǐng)域獨(dú)立推理等目標(biāo))不能充分體現(xiàn)在數(shù)據(jù)定義的基準(zhǔn)中。研究人員注意到,當(dāng)前的趨勢(shì)不恰當(dāng)?shù)財(cái)U(kuò)展了CTF范式,以將其應(yīng)用于與現(xiàn)實(shí)世界目標(biāo)或背景不同的抽象表現(xiàn)任務(wù)。
從歷史上看,CTF的開(kāi)發(fā)正是為了引入實(shí)用導(dǎo)向和嚴(yán)格范圍的人工智能任務(wù),即自動(dòng)語(yǔ)音識(shí)別(ASR)或機(jī)器翻譯(MT),其中所需的驗(yàn)證是基準(zhǔn)是否準(zhǔn)確地反映了計(jì)算機(jī)在現(xiàn)實(shí)環(huán)境中所要求的實(shí)際任務(wù)。這一波定義不明確的「通用」目標(biāo)則完全顛覆了其引入的意圖。
與其把Grover的經(jīng)歷當(dāng)成兒童故事來(lái)看,倒不如說(shuō)這是一則深刻的寓言故事。當(dāng)Grover打開(kāi)「其他東西」的大門(mén)時(shí),卻發(fā)現(xiàn)自己置身于博物館外的大千世界。故事的結(jié)尾或許已經(jīng)預(yù)示了這個(gè)研究的結(jié)論,ImageNet之類(lèi)的基準(zhǔn)定義必然不能代表適應(yīng)所有現(xiàn)實(shí)世界模糊任務(wù)的「通用目標(biāo)」。
因此,這篇論文確實(shí)有許多值得討論和深思的地方。ImageNet存在不足,那其他基準(zhǔn)定義就是完美無(wú)缺的嗎?除了ImageNet,目前在通用對(duì)象識(shí)別上還有更好的參照基準(zhǔn)嗎?該如何看待以及解決基準(zhǔn)定義越來(lái)越「不基準(zhǔn)」這個(gè)問(wèn)題?
外行看熱鬧,內(nèi)行看門(mén)道,這么頭疼的問(wèn)題就應(yīng)該交給專(zhuān)業(yè)人士。
迎面向我們走來(lái)的是第一位評(píng)委,該評(píng)委發(fā)出了“反對(duì)CV和NLP的“通用”基準(zhǔn)中令人信服的觀點(diǎn)!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的贊嘆,因?yàn)樗X(jué)得這篇論文史料詳實(shí),觀點(diǎn)明確,分析到位,著實(shí)令人信服。
論文的研究人員先在文中鋪墊了大量的背景知識(shí),向讀者展現(xiàn)了通用人工智能和基準(zhǔn)測(cè)試的相關(guān)研究,并分析了ML的基準(zhǔn)測(cè)試何時(shí)開(kāi)始作為評(píng)估范圍狹窄的任務(wù)性能的標(biāo)準(zhǔn)化方法。最后,結(jié)論就水到渠成了:通用語(yǔ)言理解和通用對(duì)象識(shí)別的基準(zhǔn)本質(zhì)上是有缺陷的,因?yàn)樗鼈儜?yīng)用于狹窄的范圍。
最后,這位評(píng)委真誠(chéng)地希望計(jì)算機(jī)視覺(jué)和NLP社區(qū)能認(rèn)真對(duì)待這篇論文,因?yàn)樗J(rèn)為該論文對(duì)在這兩個(gè)領(lǐng)域取得更有意義的進(jìn)展做出了寶貴的貢獻(xiàn),而不僅僅是追求最先進(jìn)的技術(shù)。
但美中不足的是,既然發(fā)現(xiàn)了ImageNet基準(zhǔn)存在局限性,那有什么辦法可以減少對(duì)這些通用標(biāo)準(zhǔn)的過(guò)度依賴(lài)?看來(lái)論文的研究人員也還沒(méi)找到這個(gè)問(wèn)題的答案。
而第二位評(píng)委對(duì)這篇論文的評(píng)價(jià)是:通用人工智能基準(zhǔn)的謬論(The Fallacy of Benchmarks for General Artificial Intelligence )。因?yàn)檫@篇論文的受眾主要是AI領(lǐng)域的研究人員,所以作者在前文回顧了通用AI的相關(guān)基準(zhǔn),一下拉近了與讀者的距離。此外,引用Grover的故事也使得該論文有趣易懂。
即使這篇論文的開(kāi)頭存在表述問(wèn)題,未能無(wú)縫銜接主題,但瑕不掩瑜,評(píng)委二號(hào)高度贊揚(yáng)了這篇論文為ML領(lǐng)域的研究指明了方向。
接著,評(píng)委三號(hào)也帶著他的觀點(diǎn)款款走來(lái):好論文!但改一下結(jié)構(gòu)就更好了(Well argued paper, with some reorganization suggested)。這位評(píng)委指出,這篇論文最大的亮點(diǎn)是觀點(diǎn)獨(dú)特且論據(jù)充足。但也發(fā)出了和第一位評(píng)委相同的疑惑:所以,有什么解決方案可以減少對(duì)通用標(biāo)準(zhǔn)的過(guò)度依賴(lài)?
不同于前三位評(píng)委的「慷慨」,第四位評(píng)委只給出了5分的評(píng)價(jià),認(rèn)為這篇論文只是:當(dāng)前基準(zhǔn)測(cè)試的簡(jiǎn)史(History of the benchmarks we use today)。從這個(gè)評(píng)語(yǔ)不難看出,這位評(píng)委覺(jué)得這篇論文列舉了很多基準(zhǔn)測(cè)試且強(qiáng)調(diào)了它們的局限性,但作者團(tuán)隊(duì)并沒(méi)有采取任何立場(chǎng)。
最后,評(píng)委五號(hào)不見(jiàn)其人,先聞其聲:很棒!但還有上升空間(Great, but improvements needed)。第五位評(píng)委認(rèn)為這篇論文在梳理和總結(jié)相關(guān)工作的方面做得非常好,同時(shí)有大量的研究支撐文中的論點(diǎn),希望這篇論文能引起相關(guān)領(lǐng)域研究人員的重視。
正因?yàn)閷?duì)這篇論文寄予了極高的期望,因此評(píng)委只給出了6分的評(píng)價(jià),同時(shí)羅列了非常詳細(xì)的修改建議,希望論文的作者能加以改進(jìn)。
看完五大評(píng)審的官方評(píng)論,總結(jié)起來(lái)基本就是:論文不錯(cuò),觀點(diǎn)新穎,論據(jù)充分,要是能提出解決方案就更好了。此外,有三位評(píng)委都不約而同地希望這篇論文能引起相關(guān)領(lǐng)域的重視。
Reddit上關(guān)于這篇文章的討論熱度也不小,我們來(lái)看看神通廣大的網(wǎng)友怎么說(shuō)。
某位網(wǎng)友一針見(jiàn)血地指出,雖然ImageNet等基準(zhǔn)測(cè)試像「有限的博物館」一樣存在不足,但卻是目前我們訓(xùn)練模型最有力的工具。
確實(shí),就像上述評(píng)委提到的,ImageNet是有局限性,但是否有更好的解決方案?因此,有熱心網(wǎng)友為論文的作者修改了摘要:沒(méi)有任何數(shù)據(jù)集能夠捕捉所有細(xì)節(jié)的全部復(fù)雜性,就像沒(méi)有博物館可以包含整個(gè)世界中所有的事物一樣。
一些網(wǎng)友則認(rèn)為論文不錯(cuò),尤其是「芝麻街」故事情節(jié)的插入加深了他們對(duì)該論文的理解。
這些網(wǎng)友覺(jué)得,用「無(wú)法展示一切的博物館」類(lèi)比「ImageNet在一些模糊任務(wù)上的局限性」非常恰當(dāng)。
大概論文的作者們也沒(méi)想到,寫(xiě)個(gè)文章還能為一本書(shū)代言,有網(wǎng)友調(diào)侃:宇宙萬(wàn)物的答案就隱藏在這本「芝麻街」故事書(shū)中。
更多網(wǎng)友表示贊同論文作者的觀點(diǎn),畢竟相比解決問(wèn)題,發(fā)現(xiàn)問(wèn)題太容易了。(狗頭)
所以,解決方案究竟在哪?
就算博物館「無(wú)法展示一切」,也沒(méi)有人能否定其價(jià)值。同理,ImageNet這類(lèi)基準(zhǔn)定義的存在意義也不容置喙。不斷發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,歷史的車(chē)輪才會(huì)滾滾向前(狗頭)。
參考鏈接:
https://openreview.net/forum?id=j6NxpQbREA1
https://www.reddit.com/r/MachineLearning/comments/r45wdo/r_ai_and_the_everything_in_the_whole_wide_world/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。