Ian Goodfellow 談 GANs 論文評審：有這些跡象的論文要懷疑

本文作者：楊曉凡

編輯：郭奕欣

2018-03-28 10:06

導語：「基準模型總是在別人的論文里表現(xiàn)比較好」

雷鋒網(wǎng) AI 科技評論按：谷歌大腦研究員、「GANs」之父、《Deep Learning》課本作者之一的 Ian Goodfellow 自上次的線上直播里回答了網(wǎng)友們提出的種種問題之后，昨天也在 Twitter 上發(fā)表了很多關(guān)于 GANs 論文評審、GANs 研究現(xiàn)狀的想法。作為一直以來投入了大量精力在 GANs 上的研究者，以及作為參與了許多論文評審的審稿人， Ian Goodfellow 自然為 GANs 的進步感到開心，但他現(xiàn)在也同樣對領(lǐng)域內(nèi)的現(xiàn)狀有諸多憂慮。雷鋒網(wǎng) AI 科技評論把相關(guān)內(nèi)容整理如下。

「越是好論文，越是資深審稿人在看」

我想談談學術(shù)會議的論文評審的事。最近我看到很多人講「很明顯，好的論文都給資深審稿人看了」，或者「要記得去占論文，不然分給你的都是質(zhì)量不高的論文」這樣的話。既然我現(xiàn)在也算是資深審稿人了，我想很多人應該愿意聽到我說這句話：我自己不會主動要求去審那些明顯的好論文。

審稿人希望審哪些論文可能會出于各種各樣的目標。每個審稿人都應該想好自己的目標，并且了解一些其它審稿人可能會抱有的目標。我參與論文評審一般有兩個目標：1，確保論文的質(zhì)量足夠高；2，減少我自己作為審稿人的工作量?；谖业倪@兩個目標，我希望評審的論文多數(shù)時候都是可能需要拒掉的，但其它的審稿人不一定能看出來其中的原因。有一些非常忙的審稿人甚至會要求只看那些明顯質(zhì)量很糟糕的論文，就是為了盡量減輕自己的工作量。

審稿人們其它可能的目標還包括：比一般大眾更早地看到有意思的研究（不過現(xiàn)在論文都傳 arXiv 了，這樣的人就沒那么多了）、確保好的研究成果不會被拒、審閱他們自己做過深入研究的某幾個課題下的論文，等等。當然也有一些審稿人的做法很消極、很自私。比如，審稿人和某篇論文的作者有私人恩怨，那他就可能會要求審這篇論文，以便給它打個低分?，F(xiàn)在大量論文都會先傳到 arXiv 上，論文投稿的匿名性大打折扣，這種事情也就變得常見了。

不過也有一件需要說明的是，審稿人搶占論文的作用不一定有你想象的那么明顯。區(qū)域主席一般都會把審稿人列表手動整理到比較高的水平上。起碼我自己做區(qū)域主席的時候確實這樣做了。自動審稿人分配系統(tǒng)經(jīng)常需要忽略很多指定審稿的要求，以保證每一篇論文都會有人審。我自己就確實遇到過這樣的情況，之前已經(jīng)選了「不想審」的文章結(jié)果還是分配給我了，我的好幾個朋友也跟我講他們也遇到過。

如果我做區(qū)域主席的話，基本可以肯定我會給每篇論文分一個在那個課題上稱得上絕對專家的審稿人，有必要的時候我甚至會邀請新的審稿人加入。比如我就經(jīng)常從安全社區(qū)邀請審稿人來看機器學習安全性的論文。

如何評審對 GANs 做出通用改進的論文

對于 GANs 工作原理的理論和實證研究論文都已經(jīng)有很多，關(guān)于如何把 GANs 用在一些有意思的或者奇怪的新任務的論文也有很多（比如第一篇用 GANs 做無監(jiān)督翻譯的），還有很多研究模型的評價指標的。我沒打算談這些。也有很多論文把 GANs 作為一個大系統(tǒng)當中的一部分，比如用 GANs 做半監(jiān)督學習、差分隱私、數(shù)據(jù)增強等等。這些也不是我想談的——這都需要在那個所在的大系統(tǒng)的應用領(lǐng)域中進行評價。

我下面想聊的是能夠普遍地讓 GANs 的訓練變得更穩(wěn)定，或者能讓 GANs 產(chǎn)生更好的樣本等等的改進 GANs 表現(xiàn)的新方法。我首先推薦 GANs 論文的審稿人都應該讀一讀《Are GANs Created Equal》（https://arxiv.org/abs/1711.10337）這篇論文，它解釋了為什么這個領(lǐng)域的實證研究非常難做，要做的話如何才能做對。另一篇很適合閱讀的背景知識論文是《A Note on the Evaluation of Generative Models》（https://arxiv.org/abs/1511.01844），它解釋了為什么有的模型可以同時具有很棒的樣本和很糟糕的似然，又或者同時有很糟糕的樣本和很高的似然，以及其它生成式模型會遇到的評價指標方面的問題。

GANs 的論文寫作有一大難點，就是如何有新穎性?，F(xiàn)在大家已經(jīng)提出了許許多多的 GANs 改進模型，很難把它們?nèi)甲粉櫟?，很難弄清自己的一個新的想法是不是真的以前沒有人做過。最好嘗試在谷歌上把它的四五種不同的叫法都搜搜試試，看看會不會有人已經(jīng)提過了。已經(jīng)有人把各種 GANs 的變體總結(jié)出了資源，可以到這個 GAN ZOO 看看（https://github.com/hindupuravinash/the-gan-zoo）。即便論文里提出的新方法不是全新的，它可能還是有一些價值的，但是審稿人應當確保論文作者充分了解之前的研究中的內(nèi)容。

評價指標發(fā)展到現(xiàn)在，F(xiàn)rechet Inception Distance（或者它的類別內(nèi)版本）大概是現(xiàn)有方法里衡量通用的 GANs 表現(xiàn)最好的一種方法了。對于 ImageNet 之外的數(shù)據(jù)集，定義距離的時候用模型而不是 Inception 是很合理的做法。有一些研究特殊情況的論文可能也會包括其它的一些評價指標（比如帶有 real NVP（real-valued non-volume preserving，無體積真值保留）的 GANs 可以報告準確的似然），但是如果一篇論文里沒有包括 Frechet Inception Distance，那么我就很想了解一下這是為什么了。

有很多論文希望讀者多觀察生成的樣本，并以此為主要依據(jù)形成論文所提方法的印象。這通常是一個不好的信號。以我的了解，有的領(lǐng)域的問題用以往的方法從來沒有解決過，然后 GANs 帶來了明顯的提升、能生成樣本了，這才是通過樣本展示方法效果這種做法主要適合的地方。比如說，用單個 GANs 模型生成 ImageNet 中各種內(nèi)容不同的圖像曾經(jīng)很難做，許多論文嘗試解決這個問題但結(jié)果基本都是失敗的。SN-GAN 成功地為所有類別都生成了可以辨認的樣本，那么從這一點就可以看到 SN-GAN 是一項重大改進。（雖然這種提升也可能是所提的方法之外的因素帶來的，比如新的、更大的架構(gòu)等等）

相比之下，很多論文中展示了來自 CIFAR-10 或者 CelebA 數(shù)據(jù)集生成的樣本，然后希望審稿人被這些樣本折服。對于這樣的情況，我作為審稿人其實根本不清楚他們希望我在其中找到哪些亮點。這都是一些已經(jīng)基本得到解決的任務，那我也基本就對這些論文失去了興趣。同時，對于一些有某種小缺陷的圖像，和其它定性地有另一種小缺陷的圖像之間，我也不知道應該如何排序，也許這種時候擲骰子或者畫十字格可能會更合適一點？出于這些原因我一般不會把來自 CelebA 和 CIFAR-10 等等的生成樣本當一回事，它們也就只能佐證一下這個方法沒有大的紕漏而已。

對于任何一個實現(xiàn)了自己的模型作為基準模型的人，審稿人都應當很小心。有很多細小的改動都可以讓深度學習算法出問題，而論文作者也有充分的動機不去仔細檢查自己的基準模型。一般來說，各個基準模型里至少要有一個是在別的論文中展示過的，因為那一篇論文的作者會有一些主動性得到好的結(jié)果。這樣做的話，對模型的評價起碼不會過于自私。

審稿人也應當檢查一下實現(xiàn)了一樣的模型、做了一樣的任務的其它論文，其中都分別得到了什么分數(shù)。引用一篇論文，但是展示的圖像/分數(shù)比原論文實際寫的要差，很多人都在這樣做。當然了，其它研究領(lǐng)域內(nèi)也有這種故意打壓別人的基準模型的做法，但是我覺得在 GANs 的論文中這種情況尤為嚴重。

有一些情況下，一篇論文研究的是一個全新的任務，或者是以前別人研究過的任務的某個罕有關(guān)注的方面，作者可能會有必要自己實現(xiàn)一個基準模型。在這種情況下，我覺得這篇論文可能需要花差不多一半的篇幅論證自己的基準模型是正確的才比較合適。

所有超參數(shù)的取值都來自哪里也非常重要，一定要解釋。經(jīng)常發(fā)生的情況是，新提出的方法之所以有更好的表現(xiàn)，真正的原因其實是作者花了更多時間、想了各種辦法為新方法優(yōu)化超參數(shù)。

許多深度學習算法，尤其是 GANs 和強化學習，每一次運行得到的結(jié)果都會有非常大的區(qū)別。論文里展示結(jié)果的時候，對于同樣的超參數(shù)應當至少展示三次運行得到的結(jié)果，才能對結(jié)果的隨機性有個初步的感受。有很多論文，從結(jié)果看來似乎是有所改進，但其實就是從新方法的結(jié)果里挑出比較好的，然后從老方法的結(jié)果里挑出比較差的，最后再放在一起比而已。即便有一些不能明顯看出在挑選結(jié)果的論文，通常在報告學習率曲線的時候也是用一根線表示新方法，一根線表示老方法，然后這兩根線之前的區(qū)別并不大。對于這樣的情況，我敢說同一個方法跑兩次的結(jié)果都會大相徑庭。

對于解釋超參數(shù)是如何優(yōu)化的，說明選擇這樣的超參數(shù)是為了優(yōu)化最大值、最小值、還是多次運行之后的平均值非常重要。還有一件需要注意的是，針對某種好的方法寫出一篇糟糕的論文是完全有可能的。有時候我們看到一篇論文里提出的新方法有很好的表現(xiàn)，但同時文中還有很多想法是沒有科學的依據(jù)的。后面這樣的做法審稿人應當嘗試駁回。

如果你是區(qū)域主席，我非常希望你可以對審稿人-論文之間的匹配做一些仔細的調(diào)節(jié)。我覺得這世界上沒有哪個人完全懂得 GANs 的方方面面。舉例說明，如果你拿到了一篇論文，內(nèi)容是帶有編碼器的 GANs，那你應該試著找寫過 ALI、BiGAN、alpha-GAN、AVB 論文的作者來看這篇論文。即便是我，對于 GANs 下面的許多子課題的了解也是非常有限、無能為力。

如果你審的論文是關(guān)于模式崩潰的，然后論文作者認為模式崩潰意味著模型記住了訓練樣本的一個子集的話，你需要有所懷疑。模式崩潰的實際狀況要邪門得多。比如，模式崩潰得到的結(jié)果經(jīng)常是一些奇怪的垃圾點，而且和實際數(shù)據(jù)一點都不像。在訓練過程中這樣的點還會在空間中來回移動。模式崩潰也有一種表現(xiàn)是對圖像中某種紋理或者背景的重復，其中有一些細微的改變，但對的情況在人眼看來應當有很大的變化。

今天講給大家的思考題就這么多吧。對于各位 GANs 論文的審稿人來說，你們也可以考慮下給別人提出的意見在自己身上是不是適用。

（完）

via Twitter @goodfellow_ian，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學術(shù)死腦筋

發(fā)私信

當月熱門文章