丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

Ian Goodfellow 談 GANs 論文評(píng)審:有這些跡象的論文要懷疑

本文作者: 楊曉凡 編輯:郭奕欣 2018-03-28 10:06
導(dǎo)語(yǔ):「基準(zhǔn)模型總是在別人的論文里表現(xiàn)比較好」

Ian Goodfellow 談 GANs 論文評(píng)審:有這些跡象的論文要懷疑

雷鋒網(wǎng) AI 科技評(píng)論按:谷歌大腦研究員、「GANs」之父、《Deep Learning》課本作者之一的 Ian Goodfellow 自上次的線上直播里回答了網(wǎng)友們提出的種種問(wèn)題之后,昨天也在 Twitter 上發(fā)表了很多關(guān)于 GANs 論文評(píng)審、GANs 研究現(xiàn)狀的想法。作為一直以來(lái)投入了大量精力在 GANs 上的研究者,以及作為參與了許多論文評(píng)審的審稿人, Ian Goodfellow 自然為 GANs 的進(jìn)步感到開心,但他現(xiàn)在也同樣對(duì)領(lǐng)域內(nèi)的現(xiàn)狀有諸多憂慮。雷鋒網(wǎng) AI 科技評(píng)論把相關(guān)內(nèi)容整理如下。

「越是好論文,越是資深審稿人在看」

我想談?wù)剬W(xué)術(shù)會(huì)議的論文評(píng)審的事。最近我看到很多人講「很明顯,好的論文都給資深審稿人看了」,或者「要記得去占論文,不然分給你的都是質(zhì)量不高的論文」這樣的話。既然我現(xiàn)在也算是資深審稿人了,我想很多人應(yīng)該愿意聽到我說(shuō)這句話:我自己不會(huì)主動(dòng)要求去審那些明顯的好論文。

審稿人希望審哪些論文可能會(huì)出于各種各樣的目標(biāo)。每個(gè)審稿人都應(yīng)該想好自己的目標(biāo),并且了解一些其它審稿人可能會(huì)抱有的目標(biāo)。我參與論文評(píng)審一般有兩個(gè)目標(biāo):1,確保論文的質(zhì)量足夠高;2,減少我自己作為審稿人的工作量?;谖业倪@兩個(gè)目標(biāo),我希望評(píng)審的論文多數(shù)時(shí)候都是可能需要拒掉的,但其它的審稿人不一定能看出來(lái)其中的原因。有一些非常忙的審稿人甚至?xí)笾豢茨切┟黠@質(zhì)量很糟糕的論文,就是為了盡量減輕自己的工作量。

審稿人們其它可能的目標(biāo)還包括:比一般大眾更早地看到有意思的研究(不過(guò)現(xiàn)在論文都傳 arXiv 了,這樣的人就沒(méi)那么多了)、確保好的研究成果不會(huì)被拒、審閱他們自己做過(guò)深入研究的某幾個(gè)課題下的論文,等等。當(dāng)然也有一些審稿人的做法很消極、很自私。比如,審稿人和某篇論文的作者有私人恩怨,那他就可能會(huì)要求審這篇論文,以便給它打個(gè)低分。現(xiàn)在大量論文都會(huì)先傳到 arXiv 上,論文投稿的匿名性大打折扣,這種事情也就變得常見了。

不過(guò)也有一件需要說(shuō)明的是,審稿人搶占論文的作用不一定有你想象的那么明顯。區(qū)域主席一般都會(huì)把審稿人列表手動(dòng)整理到比較高的水平上。起碼我自己做區(qū)域主席的時(shí)候確實(shí)這樣做了。自動(dòng)審稿人分配系統(tǒng)經(jīng)常需要忽略很多指定審稿的要求,以保證每一篇論文都會(huì)有人審。我自己就確實(shí)遇到過(guò)這樣的情況,之前已經(jīng)選了「不想審」的文章結(jié)果還是分配給我了,我的好幾個(gè)朋友也跟我講他們也遇到過(guò)。

如果我做區(qū)域主席的話,基本可以肯定我會(huì)給每篇論文分一個(gè)在那個(gè)課題上稱得上絕對(duì)專家的審稿人,有必要的時(shí)候我甚至?xí)?qǐng)新的審稿人加入。比如我就經(jīng)常從安全社區(qū)邀請(qǐng)審稿人來(lái)看機(jī)器學(xué)習(xí)安全性的論文。

如何評(píng)審對(duì) GANs 做出通用改進(jìn)的論文

對(duì)于 GANs 工作原理的理論和實(shí)證研究論文都已經(jīng)有很多,關(guān)于如何把 GANs 用在一些有意思的或者奇怪的新任務(wù)的論文也有很多(比如第一篇用 GANs 做無(wú)監(jiān)督翻譯的),還有很多研究模型的評(píng)價(jià)指標(biāo)的。我沒(méi)打算談這些。也有很多論文把 GANs 作為一個(gè)大系統(tǒng)當(dāng)中的一部分,比如用 GANs 做半監(jiān)督學(xué)習(xí)、差分隱私、數(shù)據(jù)增強(qiáng)等等。這些也不是我想談的——這都需要在那個(gè)所在的大系統(tǒng)的應(yīng)用領(lǐng)域中進(jìn)行評(píng)價(jià)。

我下面想聊的是能夠普遍地讓 GANs 的訓(xùn)練變得更穩(wěn)定,或者能讓 GANs 產(chǎn)生更好的樣本等等的改進(jìn) GANs 表現(xiàn)的新方法。我首先推薦 GANs 論文的審稿人都應(yīng)該讀一讀《Are GANs Created Equal》(https://arxiv.org/abs/1711.10337)這篇論文,它解釋了為什么這個(gè)領(lǐng)域的實(shí)證研究非常難做,要做的話如何才能做對(duì)。另一篇很適合閱讀的背景知識(shí)論文是《A Note on the Evaluation of Generative Models》(https://arxiv.org/abs/1511.01844),它解釋了為什么有的模型可以同時(shí)具有很棒的樣本和很糟糕的似然,又或者同時(shí)有很糟糕的樣本和很高的似然,以及其它生成式模型會(huì)遇到的評(píng)價(jià)指標(biāo)方面的問(wèn)題。

GANs 的論文寫作有一大難點(diǎn),就是如何有新穎性。現(xiàn)在大家已經(jīng)提出了許許多多的 GANs 改進(jìn)模型,很難把它們?nèi)甲粉櫟剑茈y弄清自己的一個(gè)新的想法是不是真的以前沒(méi)有人做過(guò)。最好嘗試在谷歌上把它的四五種不同的叫法都搜搜試試,看看會(huì)不會(huì)有人已經(jīng)提過(guò)了。已經(jīng)有人把各種 GANs 的變體總結(jié)出了資源,可以到這個(gè) GAN ZOO 看看(https://github.com/hindupuravinash/the-gan-zoo)。即便論文里提出的新方法不是全新的,它可能還是有一些價(jià)值的,但是審稿人應(yīng)當(dāng)確保論文作者充分了解之前的研究中的內(nèi)容。

評(píng)價(jià)指標(biāo)發(fā)展到現(xiàn)在,F(xiàn)rechet Inception Distance(或者它的類別內(nèi)版本)大概是現(xiàn)有方法里衡量通用的 GANs 表現(xiàn)最好的一種方法了。對(duì)于 ImageNet 之外的數(shù)據(jù)集,定義距離的時(shí)候用模型而不是 Inception 是很合理的做法。有一些研究特殊情況的論文可能也會(huì)包括其它的一些評(píng)價(jià)指標(biāo)(比如帶有 real NVP(real-valued non-volume preserving,無(wú)體積真值保留)的 GANs 可以報(bào)告準(zhǔn)確的似然),但是如果一篇論文里沒(méi)有包括 Frechet Inception Distance,那么我就很想了解一下這是為什么了。

有很多論文希望讀者多觀察生成的樣本,并以此為主要依據(jù)形成論文所提方法的印象。這通常是一個(gè)不好的信號(hào)。以我的了解,有的領(lǐng)域的問(wèn)題用以往的方法從來(lái)沒(méi)有解決過(guò),然后 GANs 帶來(lái)了明顯的提升、能生成樣本了,這才是通過(guò)樣本展示方法效果這種做法主要適合的地方。比如說(shuō),用單個(gè) GANs 模型生成 ImageNet 中各種內(nèi)容不同的圖像曾經(jīng)很難做,許多論文嘗試解決這個(gè)問(wèn)題但結(jié)果基本都是失敗的。SN-GAN 成功地為所有類別都生成了可以辨認(rèn)的樣本,那么從這一點(diǎn)就可以看到 SN-GAN 是一項(xiàng)重大改進(jìn)。(雖然這種提升也可能是所提的方法之外的因素帶來(lái)的,比如新的、更大的架構(gòu)等等)

相比之下,很多論文中展示了來(lái)自 CIFAR-10 或者 CelebA 數(shù)據(jù)集生成的樣本,然后希望審稿人被這些樣本折服。對(duì)于這樣的情況,我作為審稿人其實(shí)根本不清楚他們希望我在其中找到哪些亮點(diǎn)。這都是一些已經(jīng)基本得到解決的任務(wù),那我也基本就對(duì)這些論文失去了興趣。同時(shí),對(duì)于一些有某種小缺陷的圖像,和其它定性地有另一種小缺陷的圖像之間,我也不知道應(yīng)該如何排序,也許這種時(shí)候擲骰子或者畫十字格可能會(huì)更合適一點(diǎn)?出于這些原因我一般不會(huì)把來(lái)自 CelebA 和 CIFAR-10 等等的生成樣本當(dāng)一回事,它們也就只能佐證一下這個(gè)方法沒(méi)有大的紕漏而已。

對(duì)于任何一個(gè)實(shí)現(xiàn)了自己的模型作為基準(zhǔn)模型的人,審稿人都應(yīng)當(dāng)很小心。有很多細(xì)小的改動(dòng)都可以讓深度學(xué)習(xí)算法出問(wèn)題,而論文作者也有充分的動(dòng)機(jī)不去仔細(xì)檢查自己的基準(zhǔn)模型。一般來(lái)說(shuō),各個(gè)基準(zhǔn)模型里至少要有一個(gè)是在別的論文中展示過(guò)的,因?yàn)槟且黄撐牡淖髡邥?huì)有一些主動(dòng)性得到好的結(jié)果。這樣做的話,對(duì)模型的評(píng)價(jià)起碼不會(huì)過(guò)于自私。

審稿人也應(yīng)當(dāng)檢查一下實(shí)現(xiàn)了一樣的模型、做了一樣的任務(wù)的其它論文,其中都分別得到了什么分?jǐn)?shù)。引用一篇論文,但是展示的圖像/分?jǐn)?shù)比原論文實(shí)際寫的要差,很多人都在這樣做。當(dāng)然了,其它研究領(lǐng)域內(nèi)也有這種故意打壓別人的基準(zhǔn)模型的做法,但是我覺(jué)得在 GANs 的論文中這種情況尤為嚴(yán)重。

有一些情況下,一篇論文研究的是一個(gè)全新的任務(wù),或者是以前別人研究過(guò)的任務(wù)的某個(gè)罕有關(guān)注的方面,作者可能會(huì)有必要自己實(shí)現(xiàn)一個(gè)基準(zhǔn)模型。在這種情況下,我覺(jué)得這篇論文可能需要花差不多一半的篇幅論證自己的基準(zhǔn)模型是正確的才比較合適。

所有超參數(shù)的取值都來(lái)自哪里也非常重要,一定要解釋。經(jīng)常發(fā)生的情況是,新提出的方法之所以有更好的表現(xiàn),真正的原因其實(shí)是作者花了更多時(shí)間、想了各種辦法為新方法優(yōu)化超參數(shù)。

許多深度學(xué)習(xí)算法,尤其是 GANs 和強(qiáng)化學(xué)習(xí),每一次運(yùn)行得到的結(jié)果都會(huì)有非常大的區(qū)別。論文里展示結(jié)果的時(shí)候,對(duì)于同樣的超參數(shù)應(yīng)當(dāng)至少展示三次運(yùn)行得到的結(jié)果,才能對(duì)結(jié)果的隨機(jī)性有個(gè)初步的感受。有很多論文,從結(jié)果看來(lái)似乎是有所改進(jìn),但其實(shí)就是從新方法的結(jié)果里挑出比較好的,然后從老方法的結(jié)果里挑出比較差的,最后再放在一起比而已。即便有一些不能明顯看出在挑選結(jié)果的論文,通常在報(bào)告學(xué)習(xí)率曲線的時(shí)候也是用一根線表示新方法,一根線表示老方法,然后這兩根線之前的區(qū)別并不大。對(duì)于這樣的情況,我敢說(shuō)同一個(gè)方法跑兩次的結(jié)果都會(huì)大相徑庭。

對(duì)于解釋超參數(shù)是如何優(yōu)化的,說(shuō)明選擇這樣的超參數(shù)是為了優(yōu)化最大值、最小值、還是多次運(yùn)行之后的平均值非常重要。還有一件需要注意的是,針對(duì)某種好的方法寫出一篇糟糕的論文是完全有可能的。有時(shí)候我們看到一篇論文里提出的新方法有很好的表現(xiàn),但同時(shí)文中還有很多想法是沒(méi)有科學(xué)的依據(jù)的。后面這樣的做法審稿人應(yīng)當(dāng)嘗試駁回。

如果你是區(qū)域主席,我非常希望你可以對(duì)審稿人-論文之間的匹配做一些仔細(xì)的調(diào)節(jié)。我覺(jué)得這世界上沒(méi)有哪個(gè)人完全懂得 GANs 的方方面面。舉例說(shuō)明,如果你拿到了一篇論文,內(nèi)容是帶有編碼器的 GANs,那你應(yīng)該試著找寫過(guò) ALI、BiGAN、alpha-GAN、AVB 論文的作者來(lái)看這篇論文。即便是我,對(duì)于 GANs 下面的許多子課題的了解也是非常有限、無(wú)能為力。

如果你審的論文是關(guān)于模式崩潰的,然后論文作者認(rèn)為模式崩潰意味著模型記住了訓(xùn)練樣本的一個(gè)子集的話,你需要有所懷疑。模式崩潰的實(shí)際狀況要邪門得多。比如,模式崩潰得到的結(jié)果經(jīng)常是一些奇怪的垃圾點(diǎn),而且和實(shí)際數(shù)據(jù)一點(diǎn)都不像。在訓(xùn)練過(guò)程中這樣的點(diǎn)還會(huì)在空間中來(lái)回移動(dòng)。模式崩潰也有一種表現(xiàn)是對(duì)圖像中某種紋理或者背景的重復(fù),其中有一些細(xì)微的改變,但對(duì)的情況在人眼看來(lái)應(yīng)當(dāng)有很大的變化。

今天講給大家的思考題就這么多吧。對(duì)于各位 GANs 論文的審稿人來(lái)說(shuō),你們也可以考慮下給別人提出的意見在自己身上是不是適用。

(完)

via Twitter @goodfellow_ian,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Ian Goodfellow 談 GANs 論文評(píng)審:有這些跡象的論文要懷疑

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)