0
雷鋒網(wǎng) AI 科技評(píng)論按:由于深度神經(jīng)網(wǎng)絡(luò)的成功,機(jī)器學(xué)習(xí)的整個(gè)領(lǐng)域也愈發(fā)熱門(mén)、愈發(fā)茁壯。機(jī)器學(xué)習(xí)的繁榮以及 arXiv 助推下的知識(shí)和技巧快速更新當(dāng)然是好事,不過(guò)這也會(huì)帶來(lái)一些煩惱,那就是隨之涌現(xiàn)的質(zhì)量不高的論文。
之前已經(jīng)有兩類(lèi)沒(méi)營(yíng)養(yǎng)的論文被廣泛吐槽過(guò),一類(lèi)是調(diào)整改進(jìn)現(xiàn)有模型和超參數(shù),只為了刷 benchmark 數(shù)據(jù)的「灌水」論文;另一類(lèi)是在某個(gè)新興的細(xì)分領(lǐng)域做出了一點(diǎn)粗制濫造的成果,就馬上傳到 arXiv 上成為「這個(gè)領(lǐng)域突破性/開(kāi)創(chuàng)性進(jìn)展」的「占坑」論文。前者對(duì)系統(tǒng)工程師和研究者們都參考價(jià)值很小,后者「成果價(jià)值不高但不得不引用」也讓后來(lái)者如鯁在喉。
近期,reddit 的機(jī)器學(xué)習(xí)版上也出現(xiàn)了一個(gè)熱門(mén)帖子,聚集了很多人留言討論。這個(gè)帖子的主題就是談?wù)?strong>深度學(xué)習(xí)文獻(xiàn)里常見(jiàn)的、令人討厭的投機(jī)取巧的做法?!刚撐馁|(zhì)量的評(píng)定靠的是審稿人的好評(píng)價(jià)」這事本來(lái)沒(méi)錯(cuò),但許多作者已經(jīng)把「審稿人的好評(píng)價(jià)」作為了寫(xiě)作的目標(biāo),那么在寫(xiě)論文的過(guò)程中,為了探求真理的初衷就開(kāi)始走樣,開(kāi)始出現(xiàn)各種「為了好看」而故意策劃的做法。雷鋒網(wǎng) AI 科技評(píng)論就把網(wǎng)友們眼中的種種「罪狀」列舉如下,我們來(lái)看看,并一起譴責(zé)這些不道德的論文作者們吧。
網(wǎng)友 FutureIsMine:選了一個(gè)很小的數(shù)據(jù)集來(lái)測(cè)試模型,模型在上面有很好的表現(xiàn)是因?yàn)橐呀?jīng)可以記住這個(gè)數(shù)據(jù)集了,這樣就只剩正則化了。接下來(lái)會(huì)發(fā)生的事情就是,當(dāng)別人嘗試復(fù)現(xiàn)這個(gè)算法解決自己的問(wèn)題的時(shí)候,就會(huì)發(fā)現(xiàn)它的表現(xiàn)其實(shí)要比之前更廣為接受的頂級(jí)模型的表現(xiàn)差得多。
網(wǎng)友 reservedsparrow:同意 FutureIsMine 的說(shuō)法,而且我覺(jué)得這事的另一個(gè)極端也很可怕。用一個(gè)非常復(fù)雜的數(shù)據(jù)集來(lái)比較自己的方法 A 和之前的方法 B;給 A 調(diào)參花的時(shí)間精力比 B 多得多;論文里面寫(xiě)“所有實(shí)驗(yàn)都用了 α=0.1,β=0.0001,……等參數(shù)值”;最后呈現(xiàn)出來(lái)的結(jié)果就顯得 A 更好。
網(wǎng)友 p-morais:有種做法在我看來(lái)特別黑心。在強(qiáng)化學(xué)習(xí)的連續(xù)控制方面,一直調(diào)整自己的物理模型,直到達(dá)到了想要通過(guò)算法達(dá)到的結(jié)果已經(jīng)成了慣用做法(起碼「純粹的」強(qiáng)化學(xué)習(xí)論文是這樣的,下面我會(huì)列舉幾篇),但同時(shí)又并不會(huì)說(shuō)明物理模型的細(xì)節(jié);甚至更糟糕的是,展示的圖像或者視頻中的物理模型看起來(lái)和其它論文中的差不多,但其實(shí)完全不同。
1707.02286、1502.05477、1509.02971、1604.06778、1707.06347 還有 openreview.net/pdf?id=S1ANxQW0b 這幾篇論文都是這樣。具體來(lái)說(shuō),仔細(xì)看看他們的「行走機(jī)器人」或者「仿人類(lèi)」運(yùn)動(dòng)環(huán)境設(shè)置吧。你要是覺(jué)得,『因?yàn)閹讉€(gè)模型看起來(lái)沒(méi)多大區(qū)別,而且這幾篇論文沒(méi)有一篇說(shuō)明了物理模型的詳細(xì)設(shè)置,那它們就肯定解決的是等價(jià)的問(wèn)題、不同論文中的結(jié)果可以直接拿來(lái)對(duì)比』的話(huà),那你就大錯(cuò)特錯(cuò)了。
他們這種做法就好像「做 CV 的人為了讓結(jié)果更好看所以開(kāi)始修改數(shù)據(jù)集」一樣,接下來(lái)展現(xiàn)測(cè)試結(jié)果的時(shí)候又對(duì)所有這些改動(dòng)的細(xì)節(jié)閉口不談。我能理解強(qiáng)化學(xué)習(xí)研究者們一般不把自己看作有足機(jī)器人的研究者,而且相比具體的動(dòng)作,他們更關(guān)注的是反饋?zhàn)畲蠡?;但是如果要展示算法學(xué)到的有足機(jī)器人的實(shí)際步態(tài)的話(huà),那就有必要展示出所有重現(xiàn)這個(gè)步態(tài)所需的細(xì)節(jié),包括物理模型的規(guī)格細(xì)節(jié)。純粹的強(qiáng)化學(xué)習(xí)理論研究者可不是這些論文的唯一讀者。
網(wǎng)友 kyndder_blows_goats:在很小的數(shù)據(jù)集上,如果你沒(méi)有用很強(qiáng)的正則化(不管是算法中隱式的還是顯式的),那你的模型就會(huì)過(guò)擬合得一塌糊涂。所以如果這時(shí)候把它和一個(gè)沒(méi)有用同樣正則化的基準(zhǔn)模型做對(duì)比,你的模型就會(huì)看起來(lái)特別棒。然而在真實(shí)的數(shù)據(jù)集上,正則化很大一部分都是數(shù)據(jù)自己帶來(lái)的,你的隱式正則化的模型就很可能表現(xiàn)不怎么樣。
網(wǎng)友 elder_price666:在測(cè)試中順手就把當(dāng)前的頂級(jí)方法漏掉,這樣自己的方法就是看起來(lái)最好的那個(gè)。
網(wǎng)友 Bhananana:拿來(lái)做對(duì)比的其它模型都是自己隨便挑的,比如和頂級(jí)模型的第二好的版本做對(duì)比,理由是這個(gè)版本的「硬件配置和自己的最為接近」,又或者和一組老模型和頂尖模型的更差的版本做對(duì)比但同時(shí)給不出任何統(tǒng)計(jì)角度的正當(dāng)理由,這不是亂來(lái)嗎。就為了能在摘要里寫(xiě)「達(dá)到了和頂級(jí)模型近似的結(jié)果」就精心挑選和要哪些模型做對(duì)比,論文就不該這么寫(xiě)。能不能自覺(jué)點(diǎn),尊重一下統(tǒng)計(jì)方法。
網(wǎng)友 tomvorlostriddle:
不和恰當(dāng)?shù)幕鶞?zhǔn)模型做對(duì)比。舉個(gè)例子,和最新、最好的 5 個(gè)半監(jiān)督學(xué)習(xí)算法做比較其實(shí)挺好的,但是如果一個(gè)簡(jiǎn)單的隨機(jī)森林算法,忽略了數(shù)據(jù)集里沒(méi)有標(biāo)簽的那部分,而且還不怎么需要調(diào)參就跟你的方法達(dá)到了差不多的表現(xiàn)的話(huà),那你就不應(yīng)該在論文中省略掉它。
手工對(duì)數(shù)據(jù)集做了很多調(diào)整以便自己的算法跑出好的結(jié)果,然后對(duì)外宣稱(chēng)自己選擇的數(shù)據(jù)集非常有代表性。
測(cè)量數(shù)據(jù)集預(yù)測(cè)的準(zhǔn)確率,同時(shí)準(zhǔn)確率和資源消耗之間有明顯的不平衡。
只選用類(lèi)別和資源消耗之間沒(méi)有不平衡狀況的數(shù)據(jù)集,以此來(lái)評(píng)價(jià)本來(lái)就應(yīng)該運(yùn)用在不平衡數(shù)據(jù)上的算法。這雖然避免了上一個(gè)問(wèn)題吧,但是這讓別人怎么評(píng)價(jià)你的算法呢。
不做任何調(diào)節(jié)以便進(jìn)行多次對(duì)比。
不做任何調(diào)節(jié)以便進(jìn)行假想復(fù)現(xiàn),比如要多次運(yùn)行的 CV 任務(wù)里就需要這個(gè)。
網(wǎng)友 reservedsparrow:這是在兩篇 2017 VQA Challenge 冠軍論文的 PyTorch 實(shí)現(xiàn)中受到啟發(fā)的。代碼作者們?cè)?README.md 中寫(xiě)到:「(我們改進(jìn)的)第三點(diǎn)是因?yàn)?,我們就是覺(jué)得原論文中的兩個(gè)流分類(lèi)器和預(yù)訓(xùn)練過(guò)于復(fù)雜了,而且沒(méi)有什么必要性?!?/p>
此處的投機(jī)取巧:從開(kāi)頭就寫(xiě)得很復(fù)雜,而且根本不屑于花費(fèi)時(shí)間逐項(xiàng)確認(rèn)是哪個(gè)因素在起作用,也不會(huì)嘗試簡(jiǎn)化它。
這種做法能提升測(cè)量指標(biāo)/達(dá)到目標(biāo)的原因:審稿人通常更喜歡抱怨論文寫(xiě)得太簡(jiǎn)單(「小步漸進(jìn)的研究」),而不怎么抱怨論文寫(xiě)得太復(fù)雜。
這對(duì)作者以外的所有人都不是好事的原因:會(huì)帶來(lái)過(guò)于復(fù)雜的模型,同時(shí)幾乎無(wú)法幫助人弄明白哪些部分是真正有用的。
網(wǎng)友 elder_price666:用多余的證明過(guò)程(比如把已有的證明小修小改再做一遍)讓論文看起來(lái)具有更強(qiáng)的數(shù)學(xué)性,即便這根本不是必要的。NIPS 論文在這方面最糟糕。
網(wǎng)友 PresentCompanyExcl:在論文摘要里寫(xiě)「只花了 x 個(gè)小時(shí)就訓(xùn)練完畢」,然后只在正文里才說(shuō)明了并行計(jì)算用了一萬(wàn)個(gè) CPU 并且花費(fèi)了多少墻上時(shí)間。
網(wǎng)友 invariant_crypto:我懷疑有種做法在強(qiáng)化學(xué)習(xí)界非常盛行,尤其是在連續(xù)控制方面,只看看算法的穩(wěn)定性有多差就能理解為啥這樣做:從 50 個(gè)隨機(jī)種子開(kāi)始訓(xùn)練 50 個(gè)模型,取了最好的 5 個(gè)結(jié)果。然后在論文里寫(xiě)「我們下面介紹 5 個(gè)隨機(jī)種子得到的結(jié)果」。
網(wǎng)友 LiteFatSushi:說(shuō)自己達(dá)到了頂尖表現(xiàn),但是閉口不談參數(shù)的搜索空間有多大、用了多少 CPU/GPU 時(shí)間進(jìn)行搜索。想要超過(guò)當(dāng)前的頂尖表現(xiàn)很容易(但是專(zhuān)門(mén)為了這個(gè)發(fā)論文就很沒(méi)勁了),用一個(gè)同等的甚至超微差一點(diǎn)的模型都可以做到,只要用隨機(jī)種子多試幾次、或者針對(duì)要跑的數(shù)據(jù)集多搜索搜索參數(shù)空間。要是你論文里的「新的頂尖表現(xiàn)模型」過(guò)于復(fù)雜、需要的微調(diào)也大幅度增加,那就沒(méi)人會(huì)對(duì)它感興趣。從這個(gè)角度講,手頭有很多資源的大公司(谷歌、微軟、百度等等)的論文有很大嫌疑。
網(wǎng)友 rgalbo:為了找到一個(gè)好的模型架構(gòu),自己做了數(shù)不清的迭代實(shí)驗(yàn)。然后在論文里寫(xiě)得好像自己憑直覺(jué)就得到了這個(gè)架構(gòu)一樣。
網(wǎng)友 tomvorlostriddle:對(duì)算法的明顯局限性閉口不提。就簡(jiǎn)單寫(xiě)句「這是一種直推式的方法,對(duì)新數(shù)據(jù)的泛化性不好」。拜托,不管是誰(shuí),仔細(xì)看看論文都能發(fā)現(xiàn)這個(gè)。故意不寫(xiě)局限性,唯一能騙到的人就是對(duì)論文本來(lái)就不太感興趣的人。
網(wǎng)友 schmidhubernet:1)往 arXiv 傳被拒絕的論文。2)在審稿流程開(kāi)始前就無(wú)恥地在 reddit 的 ML 版上宣傳自己的論文。
網(wǎng)友 invariant_crypto:其實(shí)上傳被拒絕的論文到 arXiv 并不是錯(cuò)的,但是如果論文沒(méi)有修正審稿人指出的致命的紕漏、錯(cuò)誤等等,就很可能會(huì)造成誤導(dǎo),甚至讓讀者嘗試在它的基礎(chǔ)上繼續(xù)研究。
網(wǎng)友 _MandelBrot:arXiv 到底是 arXiv,如果讀未經(jīng)評(píng)議的論文的時(shí)候沒(méi)有謹(jǐn)慎一點(diǎn),那得怪自己。
網(wǎng)友 torvoraptor:我考慮過(guò)這樣,如果有經(jīng)過(guò)評(píng)議的論文,那我就忽略 arXiv 上的論文,因?yàn)樗鼈儺吘箾](méi)經(jīng)過(guò)評(píng)議(引用它們當(dāng)然沒(méi)問(wèn)題)。我還遇到過(guò)幾次自己論文的審稿人要求引用未經(jīng)正式發(fā)表的 arXiv 論文(基本上就是他們自己的工作)。
不得不說(shuō),網(wǎng)友們提到的有些做法讓雷鋒網(wǎng) AI 科技評(píng)論也開(kāi)了眼界,原來(lái)還有人這樣寫(xiě)論文的。我們?nèi)蘸罂凑撐牡臅r(shí)候要多加小心,避免被出現(xiàn)這些投機(jī)取巧的時(shí)候被騙到;自己寫(xiě)論文的時(shí)候也可以更真誠(chéng)、更全面一點(diǎn),免得讓讀者/審稿人不由自主地戒備起來(lái)。如果讀者們也有一些自己的想法,歡迎大家在評(píng)論區(qū)共同交流。
via Machine Learning @ reddit,雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
Yoav Goldberg與Yann LeCun論戰(zhàn)背后:arXiv是個(gè)好平臺(tái),但和學(xué)術(shù)會(huì)議是兩碼事
發(fā)表論文時(shí),該不該引用arXiv上未出版的論文?
盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫(xiě)還是要寫(xiě)的,而且要寫(xiě)好
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。