丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

不正之風!機器學習論文里都有哪四大投機取巧的寫作手法?

本文作者: 楊曉凡 編輯:郭奕欣 2017-12-27 10:16
導語:每個寫論文的人都希望自己的論文得到關注,可是不能丟了節(jié)操呀

不正之風!機器學習論文里都有哪四大投機取巧的寫作手法?

雷鋒網(wǎng) AI 科技評論按:由于深度神經(jīng)網(wǎng)絡的成功,機器學習的整個領域也愈發(fā)熱門、愈發(fā)茁壯。機器學習的繁榮以及 arXiv 助推下的知識和技巧快速更新當然是好事,不過這也會帶來一些煩惱,那就是隨之涌現(xiàn)的質(zhì)量不高的論文。

之前已經(jīng)有兩類沒營養(yǎng)的論文被廣泛吐槽過,一類是調(diào)整改進現(xiàn)有模型和超參數(shù),只為了刷 benchmark 數(shù)據(jù)的「灌水」論文;另一類是在某個新興的細分領域做出了一點粗制濫造的成果,就馬上傳到 arXiv 上成為「這個領域突破性/開創(chuàng)性進展」的「占坑」論文。前者對系統(tǒng)工程師和研究者們都參考價值很小,后者「成果價值不高但不得不引用」也讓后來者如鯁在喉。

近期,reddit 的機器學習版上也出現(xiàn)了一個熱門帖子,聚集了很多人留言討論。這個帖子的主題就是談談深度學習文獻里常見的、令人討厭的投機取巧的做法。「論文質(zhì)量的評定靠的是審稿人的好評價」這事本來沒錯,但許多作者已經(jīng)把「審稿人的好評價」作為了寫作的目標,那么在寫論文的過程中,為了探求真理的初衷就開始走樣,開始出現(xiàn)各種「為了好看」而故意策劃的做法。雷鋒網(wǎng) AI 科技評論就把網(wǎng)友們眼中的種種「罪狀」列舉如下,我們來看看,并一起譴責這些不道德的論文作者們吧。

做法一:精心設計的測試條件

網(wǎng)友 FutureIsMine:選了一個很小的數(shù)據(jù)集來測試模型,模型在上面有很好的表現(xiàn)是因為已經(jīng)可以記住這個數(shù)據(jù)集了,這樣就只剩正則化了。接下來會發(fā)生的事情就是,當別人嘗試復現(xiàn)這個算法解決自己的問題的時候,就會發(fā)現(xiàn)它的表現(xiàn)其實要比之前更廣為接受的頂級模型的表現(xiàn)差得多。

網(wǎng)友 reservedsparrow:同意 FutureIsMine 的說法,而且我覺得這事的另一個極端也很可怕。用一個非常復雜的數(shù)據(jù)集來比較自己的方法 A 和之前的方法 B;給 A 調(diào)參花的時間精力比 B 多得多;論文里面寫“所有實驗都用了 α=0.1,β=0.0001,……等參數(shù)值”;最后呈現(xiàn)出來的結(jié)果就顯得 A 更好。

網(wǎng)友 p-morais:有種做法在我看來特別黑心。在強化學習的連續(xù)控制方面,一直調(diào)整自己的物理模型,直到達到了想要通過算法達到的結(jié)果已經(jīng)成了慣用做法(起碼「純粹的」強化學習論文是這樣的,下面我會列舉幾篇),但同時又并不會說明物理模型的細節(jié);甚至更糟糕的是,展示的圖像或者視頻中的物理模型看起來和其它論文中的差不多,但其實完全不同。

1707.02286、1502.05477、1509.02971、1604.06778、1707.06347 還有 openreview.net/pdf?id=S1ANxQW0b 這幾篇論文都是這樣。具體來說,仔細看看他們的「行走機器人」或者「仿人類」運動環(huán)境設置吧。你要是覺得,『因為幾個模型看起來沒多大區(qū)別,而且這幾篇論文沒有一篇說明了物理模型的詳細設置,那它們就肯定解決的是等價的問題、不同論文中的結(jié)果可以直接拿來對比』的話,那你就大錯特錯了。

他們這種做法就好像「做 CV 的人為了讓結(jié)果更好看所以開始修改數(shù)據(jù)集」一樣,接下來展現(xiàn)測試結(jié)果的時候又對所有這些改動的細節(jié)閉口不談。我能理解強化學習研究者們一般不把自己看作有足機器人的研究者,而且相比具體的動作,他們更關注的是反饋最大化;但是如果要展示算法學到的有足機器人的實際步態(tài)的話,那就有必要展示出所有重現(xiàn)這個步態(tài)所需的細節(jié),包括物理模型的規(guī)格細節(jié)。純粹的強化學習理論研究者可不是這些論文的唯一讀者。

網(wǎng)友 kyndder_blows_goats:在很小的數(shù)據(jù)集上,如果你沒有用很強的正則化(不管是算法中隱式的還是顯式的),那你的模型就會過擬合得一塌糊涂。所以如果這時候把它和一個沒有用同樣正則化的基準模型做對比,你的模型就會看起來特別棒。然而在真實的數(shù)據(jù)集上,正則化很大一部分都是數(shù)據(jù)自己帶來的,你的隱式正則化的模型就很可能表現(xiàn)不怎么樣。

網(wǎng)友 elder_price666:在測試中順手就把當前的頂級方法漏掉,這樣自己的方法就是看起來最好的那個。

網(wǎng)友 Bhananana:拿來做對比的其它模型都是自己隨便挑的,比如和頂級模型的第二好的版本做對比,理由是這個版本的「硬件配置和自己的最為接近」,又或者和一組老模型和頂尖模型的更差的版本做對比但同時給不出任何統(tǒng)計角度的正當理由,這不是亂來嗎。就為了能在摘要里寫「達到了和頂級模型近似的結(jié)果」就精心挑選和要哪些模型做對比,論文就不該這么寫。能不能自覺點,尊重一下統(tǒng)計方法。

網(wǎng)友 tomvorlostriddle:

  • 不和恰當?shù)幕鶞誓P妥鰧Ρ?。舉個例子,和最新、最好的 5 個半監(jiān)督學習算法做比較其實挺好的,但是如果一個簡單的隨機森林算法,忽略了數(shù)據(jù)集里沒有標簽的那部分,而且還不怎么需要調(diào)參就跟你的方法達到了差不多的表現(xiàn)的話,那你就不應該在論文中省略掉它。

  • 手工對數(shù)據(jù)集做了很多調(diào)整以便自己的算法跑出好的結(jié)果,然后對外宣稱自己選擇的數(shù)據(jù)集非常有代表性。

  • 測量數(shù)據(jù)集預測的準確率,同時準確率和資源消耗之間有明顯的不平衡。

  • 只選用類別和資源消耗之間沒有不平衡狀況的數(shù)據(jù)集,以此來評價本來就應該運用在不平衡數(shù)據(jù)上的算法。這雖然避免了上一個問題吧,但是這讓別人怎么評價你的算法呢。

  • 不做任何調(diào)節(jié)以便進行多次對比。

  • 不做任何調(diào)節(jié)以便進行假想復現(xiàn),比如要多次運行的 CV 任務里就需要這個。

做法二:故意用復雜的方法

網(wǎng)友 reservedsparrow:這是在兩篇 2017 VQA Challenge 冠軍論文的 PyTorch 實現(xiàn)中受到啟發(fā)的。代碼作者們在 README.md 中寫到:「(我們改進的)第三點是因為,我們就是覺得原論文中的兩個流分類器和預訓練過于復雜了,而且沒有什么必要性?!?/p>

  • 此處的投機取巧:從開頭就寫得很復雜,而且根本不屑于花費時間逐項確認是哪個因素在起作用,也不會嘗試簡化它。

  • 這種做法能提升測量指標/達到目標的原因:審稿人通常更喜歡抱怨論文寫得太簡單(「小步漸進的研究」),而不怎么抱怨論文寫得太復雜。

  • 這對作者以外的所有人都不是好事的原因:會帶來過于復雜的模型,同時幾乎無法幫助人弄明白哪些部分是真正有用的。

網(wǎng)友 elder_price666:用多余的證明過程(比如把已有的證明小修小改再做一遍)讓論文看起來具有更強的數(shù)學性,即便這根本不是必要的。NIPS 論文在這方面最糟糕。

做法三:精心點綴的結(jié)果

網(wǎng)友 PresentCompanyExcl:在論文摘要里寫「只花了 x 個小時就訓練完畢」,然后只在正文里才說明了并行計算用了一萬個 CPU 并且花費了多少墻上時間。

網(wǎng)友 invariant_crypto:我懷疑有種做法在強化學習界非常盛行,尤其是在連續(xù)控制方面,只看看算法的穩(wěn)定性有多差就能理解為啥這樣做:從 50 個隨機種子開始訓練 50 個模型,取了最好的 5 個結(jié)果。然后在論文里寫「我們下面介紹 5 個隨機種子得到的結(jié)果」。

網(wǎng)友 LiteFatSushi:說自己達到了頂尖表現(xiàn),但是閉口不談參數(shù)的搜索空間有多大、用了多少 CPU/GPU 時間進行搜索。想要超過當前的頂尖表現(xiàn)很容易(但是專門為了這個發(fā)論文就很沒勁了),用一個同等的甚至超微差一點的模型都可以做到,只要用隨機種子多試幾次、或者針對要跑的數(shù)據(jù)集多搜索搜索參數(shù)空間。要是你論文里的「新的頂尖表現(xiàn)模型」過于復雜、需要的微調(diào)也大幅度增加,那就沒人會對它感興趣。從這個角度講,手頭有很多資源的大公司(谷歌、微軟、百度等等)的論文有很大嫌疑。

網(wǎng)友 rgalbo:為了找到一個好的模型架構,自己做了數(shù)不清的迭代實驗。然后在論文里寫得好像自己憑直覺就得到了這個架構一樣。

網(wǎng)友 tomvorlostriddle:對算法的明顯局限性閉口不提。就簡單寫句「這是一種直推式的方法,對新數(shù)據(jù)的泛化性不好」。拜托,不管是誰,仔細看看論文都能發(fā)現(xiàn)這個。故意不寫局限性,唯一能騙到的人就是對論文本來就不太感興趣的人。

做法四:不道德地宣傳論文

網(wǎng)友 schmidhubernet:1)往 arXiv 傳被拒絕的論文。2)在審稿流程開始前就無恥地在 reddit 的 ML 版上宣傳自己的論文。

網(wǎng)友 invariant_crypto:其實上傳被拒絕的論文到 arXiv 并不是錯的,但是如果論文沒有修正審稿人指出的致命的紕漏、錯誤等等,就很可能會造成誤導,甚至讓讀者嘗試在它的基礎上繼續(xù)研究。

網(wǎng)友 _MandelBrot:arXiv 到底是 arXiv,如果讀未經(jīng)評議的論文的時候沒有謹慎一點,那得怪自己。

網(wǎng)友 torvoraptor:我考慮過這樣,如果有經(jīng)過評議的論文,那我就忽略 arXiv 上的論文,因為它們畢竟沒經(jīng)過評議(引用它們當然沒問題)。我還遇到過幾次自己論文的審稿人要求引用未經(jīng)正式發(fā)表的 arXiv 論文(基本上就是他們自己的工作)。


不得不說,網(wǎng)友們提到的有些做法讓雷鋒網(wǎng) AI 科技評論也開了眼界,原來還有人這樣寫論文的。我們?nèi)蘸罂凑撐牡臅r候要多加小心,避免被出現(xiàn)這些投機取巧的時候被騙到;自己寫論文的時候也可以更真誠、更全面一點,免得讓讀者/審稿人不由自主地戒備起來。如果讀者們也有一些自己的想法,歡迎大家在評論區(qū)共同交流。

via Machine Learning @ reddit,雷鋒網(wǎng) AI 科技評論編譯

相關文章:

Yoav Goldberg與Yann LeCun論戰(zhàn)背后:arXiv是個好平臺,但和學術會議是兩碼事

發(fā)表論文時,該不該引用arXiv上未出版的論文?

盡管有伊隆馬斯克的嘲諷,但學術論文該寫還是要寫的,而且要寫好

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

不正之風!機器學習論文里都有哪四大投機取巧的寫作手法?

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說