論文發(fā)表了就萬(wàn)事大吉了？小心欠下「論文債」

本文作者：楊曉凡

2019-10-05 21:06

導(dǎo)語(yǔ)：對(duì)成果負(fù)責(zé)，對(duì)領(lǐng)域負(fù)責(zé)

雷鋒網(wǎng) AI 科技評(píng)論按：The Gradient 在線雜志（thegradient.pub）近期發(fā)表的一篇文章指出了一個(gè)尷尬的事實(shí)：機(jī)器學(xué)習(xí)領(lǐng)域的作者們正在欠下越來(lái)越多的「論文債」，而這對(duì)整個(gè)領(lǐng)域都是有害的。那么，什么是「論文債」？「論文債」是怎么欠下的？我們能做些什么？

論文發(fā)表慣例的先行領(lǐng)域

對(duì)學(xué)者們來(lái)說(shuō)，寫(xiě)作、發(fā)表論文是學(xué)術(shù)聲譽(yù)的第一來(lái)源。如果是教授，發(fā)表了多少論文決定了你能不能得到終身教職；如果你是學(xué)生，發(fā)表論文的狀況會(huì)決定你能不能畢業(yè)、什么時(shí)候能畢業(yè)，甚至畢業(yè)以后是去企業(yè)比較好還是適合留在學(xué)術(shù)界。

一篇論文應(yīng)當(dāng)是一份詳細(xì)的手稿、一份操作指南，幫助別的研究者們理解以及重現(xiàn)其中的學(xué)術(shù)想法。但我們實(shí)際看到的論文往往只是講了故事的一部分，研究者們經(jīng)常會(huì)遺漏一些細(xì)節(jié)，或者把他們的方法表達(dá)得更為理想化，以便讓未來(lái)的審稿人讀得更舒服。除此之外，隨著他們做更多實(shí)驗(yàn)（包括在后續(xù)研究中的）、和別的研究者交流，研究者們對(duì)自己的論文的認(rèn)識(shí)也會(huì)逐漸發(fā)展變化，而這些變化是極少會(huì)被記錄下來(lái)并以文本形式公布的（除非這些變化已經(jīng)多到了足以再寫(xiě)一篇新論文的程度）。這當(dāng)然不意味著研究者們有任何的壞心思，只不過(guò)是現(xiàn)有的學(xué)術(shù)發(fā)表慣例并不鼓勵(lì)研究者們把寶貴的時(shí)間花在更新已經(jīng)發(fā)表的論文上。

令人欣慰的是，機(jī)器學(xué)習(xí)領(lǐng)域的論文發(fā)表慣例已經(jīng)有了不少變化。arXiv 這樣的平臺(tái)讓發(fā)表學(xué)術(shù)觀點(diǎn)的門(mén)檻更低（即便不是完善的學(xué)術(shù)論文）、可以免費(fèi)集中查閱絕大多數(shù)學(xué)術(shù)論文，也讓論文的修訂更新變得更容易；其它的平臺(tái)也有不同的補(bǔ)充，rescience.github.io 會(huì)發(fā)布以往論文的重現(xiàn)，distill.pub 在線期刊可以提供豐富、高度可視化、可交互的科研想法展示。在論文之外，機(jī)器學(xué)習(xí)領(lǐng)域也有許多發(fā)布高質(zhì)量的技術(shù)博客、高質(zhì)量的代碼復(fù)現(xiàn)的人，這些形式的成果也可以得到認(rèn)可。

即便有了這些，The Gradient 認(rèn)為還是不夠，他們認(rèn)為還缺少一種鼓勵(lì)大家表達(dá)對(duì)于已經(jīng)發(fā)表的論文的真實(shí)想法、展開(kāi)有價(jià)值的討論的方式。比如 The Gradient 的一位作者 Ryan Lowe 就說(shuō)，他很愿意發(fā)現(xiàn)并承認(rèn)自己研究工作中的問(wèn)題和不足，自己經(jīng)常會(huì)和朋友、同事直白地討論自己以往發(fā)表的論文，但是在公開(kāi)發(fā)表的論文中就會(huì)收斂很多?？上У氖?，許多有卓識(shí)的研究者由于種種原因沒(méi)法來(lái)到學(xué)術(shù)會(huì)議現(xiàn)場(chǎng)，沒(méi)法和引用了他的工作的、在同一個(gè)方向上研究的其它研究者們當(dāng)面展開(kāi)直白真誠(chéng)的討論。

論文債

The Gradient 提出了一個(gè)有趣的新概念：「論文債」，對(duì)，就是「?jìng)?debt」。他們給出的簡(jiǎn)單的核心定義是：論文作者撰寫(xiě)論文時(shí)的可用知識(shí)，和論文讀者能從論文中獲得的知識(shí)之間的差異，就是「論文債」。一般來(lái)說(shuō)，作者所做的所有試驗(yàn)、作者的直覺(jué)判斷、作者意識(shí)到的局限性這些可以寫(xiě)進(jìn)論文中，但作者最后并沒(méi)有寫(xiě)的東西，就成了論文債。在 distill.pub 在線期刊亮相時(shí)，Chris Olah 和 Shan Carter 就曾提出一個(gè)「科研債 research debt」的概念，用來(lái)形容一個(gè)門(mén)外漢和一個(gè)領(lǐng)域?qū)＜抑g的知識(shí)區(qū)別。論文債也就是一種特定形式的科研債。

有很多原因都會(huì)讓論文債越積越多。有時(shí)候由于投稿的篇幅限制，研究者不得不省略掉一些直覺(jué)的解釋和實(shí)驗(yàn)；也有時(shí)候，研究者會(huì)寫(xiě)下模棱兩可或者給人誤導(dǎo)的話。在《Troubling Trends in Machine Learning Scholarship》（arxiv.org/abs/1807.03341）中，Lipton & Steinhardt 就描寫(xiě)了其中一些狀況：許多論文都沒(méi)能把猜測(cè)和解釋區(qū)分開(kāi)，對(duì)經(jīng)驗(yàn)積累、模型調(diào)節(jié)帶來(lái)的提高避而不談，以及為了讓方法看起來(lái)更復(fù)雜、更有數(shù)學(xué)性而增加不必要的方程。

更明目張膽的省略行為也很常見(jiàn)。比如，如果論文作者在其他一些額外的數(shù)據(jù)集上也做了實(shí)驗(yàn)的話，經(jīng)常發(fā)生的事是，只有得到很好的結(jié)果的時(shí)候他們才會(huì)把這個(gè)實(shí)驗(yàn)寫(xiě)進(jìn)論文里，即便失敗的結(jié)果對(duì)于其他研究者來(lái)說(shuō)極富價(jià)值。類(lèi)似地，論文作者們給基準(zhǔn)線模型選擇的超參數(shù)很多時(shí)候都并不是最優(yōu)的，但是作者們又并不總會(huì)把選擇的參數(shù)全部詳細(xì)列出來(lái)，所以即便讀者們有所質(zhì)疑也往往找不到直接的證據(jù)。

讓論文作者們甘愿積累論文債的動(dòng)機(jī)有很大一部分是為了取悅未來(lái)的論文審稿人。這也是合乎情理的，評(píng)價(jià)研究者水平的最重要因素就是他們發(fā)表在頂級(jí)會(huì)議和期刊上的論文數(shù)量。所以在撰寫(xiě)論文的時(shí)候遮掩方法的弱點(diǎn)、省略不好的結(jié)果、用一些迎合標(biāo)準(zhǔn)的寫(xiě)作手法都能讓論文在審稿人眼中顯得更棒一些、更容易通過(guò)同行評(píng)議。

除此之外，論文債堆積還有一個(gè)致命的原因是時(shí)間。如果論文作者們花時(shí)間做更多的實(shí)驗(yàn)，或者和領(lǐng)域內(nèi)的其它的研究者聊一聊的話，肯定會(huì)對(duì)自己的成果有更深的理解。如果新證據(jù)新想法比較多，作者們有時(shí)候會(huì)在 arXiv 上修訂更新自己的論文，但更多時(shí)候這些新證據(jù)新想法就只是爛在作者們自己的肚子里了。畢竟，把這些新內(nèi)容恰當(dāng)?shù)厝诤系皆瓉?lái)的論文中需要花不少精力，但是根本說(shuō)不準(zhǔn)做了以后有多少人會(huì)注意到，還不如把這些時(shí)間精力花在寫(xiě)新的論文、趕新的 deadline 上。

然而，論文債已經(jīng)成了最浪費(fèi)整個(gè)領(lǐng)域的研究者們的勞動(dòng)付出的那件事。如今，讀一篇論文的過(guò)程中就需要仔細(xì)辨別作者的哪些語(yǔ)句是技術(shù)上站得住腳的。一邊讀一篇機(jī)器學(xué)習(xí)論文一邊在心里琢磨「讓我看看他們想要遮掩什么，為了讓這個(gè)方法顯得效果不錯(cuò)你們都偷偷用了哪些技巧」已經(jīng)越來(lái)越常見(jiàn)。對(duì)于許多研究者，這種戒備心也是吃了許多苦頭以后不得已學(xué)到的 —— 領(lǐng)域內(nèi)出現(xiàn)過(guò)很多很棒的點(diǎn)子，但是真的在它們基礎(chǔ)上做進(jìn)一步的挖掘、建設(shè)的時(shí)候就遠(yuǎn)沒(méi)有論文中吹噓的那么好的效果。如今大家都已經(jīng)習(xí)慣了要帶著戒心，領(lǐng)域內(nèi)有也有那么多的論文欠下論文債而沒(méi)有要改觀的樣子，不得不說(shuō)令人遺憾。

直面回顧與反思

除了「明知故犯」的論文債之外，論文作者們翻下的一些無(wú)心之失也會(huì)帶來(lái)不好的影響。淺顯點(diǎn)的比如沒(méi)有對(duì)數(shù)據(jù)集和結(jié)果做足夠的檢驗(yàn)，模型能產(chǎn)出好的指標(biāo)數(shù)字，但是實(shí)際的結(jié)果表現(xiàn)出固定的偏倚；隱蔽點(diǎn)的比如在雷鋒網(wǎng) AI 科技評(píng)論的這篇文章中談到的，大家雖然都會(huì)認(rèn)真做誤差分析，但是不好的開(kāi)頭導(dǎo)致后來(lái)者沿襲的誤差分析方式其實(shí)有很多疏漏。作者們當(dāng)時(shí)寫(xiě)這些論文的時(shí)候自然是好心的、不需要有任何愧疚的，后來(lái)有了更多了解、經(jīng)過(guò)別人提醒之后，自己的水平提高了，能發(fā)現(xiàn)以前的做法存在問(wèn)題了，還是應(yīng)該主動(dòng)去更正，以及影響更多的人避免犯同樣的錯(cuò)誤。

對(duì)于這些狀況，肯定也有別的研究者意識(shí)到了，但單個(gè)人能做的不多。The Gradient 團(tuán)隊(duì)就聯(lián)合多方力量制定了一個(gè)小有野心的計(jì)劃，他們編寫(xiě)發(fā)布了 ML Retrospectives（機(jī)器學(xué)習(xí)回顧反思，http://ml-retrospectives.github.io/），一個(gè)專(zhuān)門(mén)供研究者們對(duì)自己以往的研究工作進(jìn)行反思、補(bǔ)充的平臺(tái)。在今年的 NeurIPS 2019 中他們也會(huì)舉辦一個(gè) Retrospectives workshop，高質(zhì)量的論文回顧反思可以在 workshop 中發(fā)表。

ML Retrospectives 是一個(gè)實(shí)驗(yàn)：The Gradient 其實(shí)自己也不確定研究者們有多大的動(dòng)力來(lái)給自己的以往的論文寫(xiě)回顧反思，以及最終產(chǎn)出的內(nèi)容能如何對(duì)整個(gè)領(lǐng)域起到幫助。對(duì)于這些問(wèn)題，他們也會(huì)在剛剛提到的 NeurIPS 2019 的 Retrospectives workshop 中進(jìn)行討論。當(dāng)然，真正重要的是倡導(dǎo)、鼓勵(lì)研究者們更開(kāi)放誠(chéng)實(shí)地思考、討論自己以往的成果，以及和別人分享他們的對(duì)于以往論文的新想法。

科學(xué)研究很重要，我們通過(guò)科學(xué)研究了解了越來(lái)越多關(guān)于這個(gè)世界的知識(shí)，了解了更多如何做事和思考的方法論。但我們也需要關(guān)注科學(xué)進(jìn)展本身，如果具體的研究者們的動(dòng)機(jī)和作為并不能助力領(lǐng)域的科研進(jìn)步的話，這個(gè)領(lǐng)域肯定會(huì)出問(wèn)題。ML Retrospectives 是其中的一個(gè)改進(jìn)狀況的嘗試，大家都更希望看到的是所有研究者們都可以用更科學(xué)、面向發(fā)展的態(tài)度做更多對(duì)整個(gè)領(lǐng)域有益的事情。

雷鋒網(wǎng) AI 科技評(píng)論部分編譯自 https://thegradient.pub/introducing-retrospectives/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。