LipNet與ICLR評委互懟始末：名氣大又怎樣，還不是被拒絕了

本文作者：奕欣

2017-02-18 18:28

專題：ICLR 2017

導(dǎo)語：LipNet早在去年就火遍各大媒體，卻在ICLR遭到了拒絕，并引發(fā)了一場公開辯駁（撕逼）。其中緣由到底是怎樣？

ICLR 2017 4 月份馬上就要召開，OpenReview 的結(jié)果也陸續(xù)出來。既然是一項(xiàng)學(xué)術(shù)會議，自然就涉及到論文的錄取與評審。其中，一篇早在去年就火遍各大媒體的論文遭到了拒絕，并引發(fā)了一場公開辯駁（撕逼）。其中緣由到底是怎樣？一起和雷鋒網(wǎng) AI 科技評論一起來看看吧。

不知看官是否還記得大明湖畔的夏雨荷去年 11 月的一篇論文——《LipNet: End-to-End Sentence-level Lipreading》，由牛津大學(xué)人工智能實(shí)驗(yàn)室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 聯(lián)合發(fā)布，當(dāng)時雷鋒網(wǎng) AI 科技評論也做過相關(guān)報(bào)道。此文一出，很快便引來了眾多的關(guān)注，第一及第二作者 Yannis Assael 和 Breandan Shilingford 也是采訪不斷。

LipNet與ICLR評委互懟始末：名氣大又怎樣，還不是被拒絕了

這篇論文介紹了利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)語句層面的自動唇讀技術(shù) LipNet，它采用了一種能夠?qū)⒖勺冮L度的視頻序列映射為文本的模型，采用了時空卷積、LSTM 及CTC loss，并完全是以端到端的方式訓(xùn)練的。結(jié)論顯示，在 GRID 語料庫上，LipNet 實(shí)現(xiàn)了 93.4% 的準(zhǔn)確度，超過了經(jīng)驗(yàn)豐富的人類唇讀者和之前的 79.6% 的最佳準(zhǔn)確度。而且，這一轉(zhuǎn)換文本的速度幾乎是實(shí)時的。

論文火到什么程度呢？Nvidia CEO 黃仁勛在 CES 2017 上提及了他們與牛津大學(xué)的 LipNet 團(tuán)隊(duì)有合作，研發(fā)讀唇深度學(xué)習(xí)網(wǎng)絡(luò)模型的應(yīng)用，并表示這一成果將應(yīng)用于 Nvidia 的協(xié)同駕駛技術(shù)上。

而它為何突然躥紅，經(jīng)雷鋒網(wǎng) AI 科技評論與三位相關(guān)專業(yè)的研究生求證討論后，嘗試總結(jié)了如下三點(diǎn)原因：

1. 大 IP 的渲染。牛津大學(xué)人工智能實(shí)驗(yàn)室、谷歌 DeepMind 和 CIFAR 三家機(jī)構(gòu)強(qiáng)強(qiáng)聯(lián)手，大家心中的預(yù)期會提升不少，也會覺得這應(yīng)該是一項(xiàng)非常有意義的發(fā)現(xiàn)。
2. 技術(shù)層面的提升。傳統(tǒng)的唇讀技術(shù)是根據(jù)視覺特征及預(yù)測來實(shí)現(xiàn)的，即使是端到端的訓(xùn)練，目前也只能實(shí)現(xiàn)單個詞的分類，而不是語句層面的預(yù)測。LipNet 的提出是第一個在唇讀領(lǐng)域?qū)⑸疃葘W(xué)習(xí)應(yīng)用于端到端學(xué)習(xí)的模型。
3. 應(yīng)用領(lǐng)域接地氣。世界上絕大多數(shù)人都采用語言交流，讀唇術(shù)如果能獲得廣泛應(yīng)用，能夠幫助更多有聽力障礙的人，甚至還能應(yīng)用到手機(jī)語音助手領(lǐng)域。因此廣泛應(yīng)用的可能性又把這篇論文提升到了一個高度。
4. 媒體的渲染引發(fā)了病毒式傳播。當(dāng)時有某些媒體過于樂觀，將它與《2001 太空漫游》里的飛船主控計(jì)算機(jī) Hall 類比，認(rèn)為人類離讀懂唇語的機(jī)器已經(jīng)不遠(yuǎn)，也有不少媒體發(fā)表了擔(dān)憂，認(rèn)為這將讓人類毫無隱私可言。雖然這些只是猜測與聯(lián)想，但這樣的渲染也無疑吸引了不少讀者的關(guān)注。

就是這樣一篇聚光燈下的論文，投遞了 ICLR?；ㄩ_兩朵各表一枝，現(xiàn)在 AI 科技評論來說說一個神奇的會議——ICLR。

ICLR 神奇在哪？它成立于 2013 年，比起資歷久遠(yuǎn)的其它大會實(shí)在是年輕得可以，甚至還沒有被 CCF 收錄，也就是說連 C 類會議都算不上，但它卻憑借出色的論文質(zhì)量得到了越來越多的關(guān)注，經(jīng)常與 NIPS、CVPR 等國際大會相提并論。MXNet 的李沐在與雷鋒網(wǎng)交流的時候，他也向 AI 君推薦了 ICLR，認(rèn)為非常值得一去。

在 2013 年，Yann LeCun 和 Yosha Bengio 聯(lián)合發(fā)起了這個會議，希望能在一個新的小型場所集中討論「學(xué)習(xí)表征方法」，也因此而取名為「International Conference on Learning Representations」。

ICLR 的 Open Review 環(huán)節(jié)，就是 LeCun 與 Bengio 倡導(dǎo)的一種評審方式。所有的論文都會直接發(fā)布在 arXiv 上，而在投稿截止后，所有的論文投稿都會在 openreview.net 上公開評審。區(qū)別于 double blind 的論文審閱流程，投稿人與評審可以在這個公開場合進(jìn)行交流與評閱。雷鋒網(wǎng) AI 科技評論認(rèn)為，直接在網(wǎng)上公開論文及評審流程能夠提升研究迭代效率，無需等待數(shù)個月的評審環(huán)節(jié)。但就像公開閱卷一樣，如果學(xué)校與姓名露出（特別是論文有大牛加持的情況下），論文可能會產(chǎn)生不必要的光環(huán)效應(yīng)，評審人會形成一定的心理預(yù)期，這樣可能會導(dǎo)致「盛名之下其實(shí)難副」的情況。

LipNet與ICLR評委互懟始末：名氣大又怎樣，還不是被拒絕了

但實(shí)際上這種擔(dān)心是多余的，畢竟這篇在去年火得一塌糊涂的 LipNet 論文，在今年就遭遇了 ICLR 的無情拒絕。

其中與評委爭論得最為激烈的就是導(dǎo)師 Nando de Freitas，作為牛津大學(xué)機(jī)器學(xué)習(xí)教授，DeepMind 研究科學(xué)家，還是 CIFAR 的 Fellow，論文遭到質(zhì)疑甚至面臨被拒的風(fēng)險，F(xiàn)reitas 在 Open Review 上不僅據(jù)理力爭，從行文上看還有語出不遜咄咄逼人之嫌，而評審?fù)瑯右膊豢蜌?，直接開炮，簡直隔著屏幕都能感受到唇槍舌劍的緊張氛圍。

比如說，F(xiàn)reitas 直言評審的意見更新毫無價值，吐槽評審給出的修改意見簡直是居高臨下，站著說話不腰疼，完全是一派胡言！

而評審也是一點(diǎn)不手軟，揚(yáng)言「哦，這么直接應(yīng)用深度學(xué)習(xí)的方法真是一點(diǎn)技術(shù)含量也沒呢，要是我在什么新領(lǐng)域上試試深度學(xué)習(xí)，結(jié)果應(yīng)該也不錯的?！谷缓筮€把之前給論文的評審意見（原本的意見是推薦上 workshop）刪掉了。

本著社會主義核心價值觀的原則，AI 科技評論就不全文貼出了，大家稍微感受一下就好，想看完整版的可以點(diǎn)此處查看。

幾個回合后，雙方都感受到了自己實(shí)在是太不禮貌了，停止了語言上的攻擊。Freitas 在 1 月 23 日回復(fù)了評審人的意見，雖然語氣軟了不少，但隱約看出態(tài)度還是很強(qiáng)勢的。

「我為我的無禮感到抱歉，但我堅(jiān)決不同意您的意見。」

接下來他將論文的走紅始末回顧了一番，翻譯過來大概意思就是：我們周五把論文掛了出來，結(jié)果隔天就在 Reddit 上走紅了，而且帖子的標(biāo)題的指向是我們已經(jīng)取得了超人類的通用唇讀性能。Neil 在 Twitter 上指出了這一點(diǎn)，我們在周日也馬上進(jìn)行了修改。但在周一的時候，論文已經(jīng)獲得了廣泛的傳播，（所以不是我們在炒作）。

而針對其中的觀點(diǎn)，F(xiàn)reitas 又逐一做出了反駁。除了繼續(xù)佐證自己的觀點(diǎn)，F(xiàn)reitas 還針鋒相對地提醒還有兩位評審沒有回答他提出的尖銳問題。雖然嘴上道了歉，但還是毫不服軟，看來真的是和評審杠上了。

LipNet與ICLR評委互懟始末：名氣大又怎樣，還不是被拒絕了

最終評定結(jié)果于 2 月初終于貼出，AI 科技評論摘編重點(diǎn)如下：

最終結(jié)果：拒絕（Reject）
評論：
首先要說明的是，評審主席不看 Twitter，也不看 Reddit/ML 這樣的東西，所以以下的評審意見純粹是基于文章本身及 OpenReview 的討論結(jié)果而定的。

（雷鋒網(wǎng)翻譯版本：不要和評審們扯文章有多大影響力，我們只從論文出發(fā)。開頭就是一刀啊，可以預(yù)見接下來的慘烈……）

ICLR 的評審過程初衷是為了創(chuàng)建作者與評審者兩者的建設(shè)性討論，而討論的目的是為了讓作者們在這個過程中有所精益。

（雷鋒網(wǎng)翻譯版本：目的是為了學(xué)術(shù)圈的共同進(jìn)步，所以經(jīng)歷這么長時間的扯皮也是為了你們作者好啊。）

在討論的過程中，雖然一些評審提出了這篇論文的積極作用，但實(shí)際上并沒有任何證據(jù)顯示評審會因?yàn)樗谏缃幻襟w的傳播力而影響判斷（甚至是意識到這種影響）。

（雷鋒網(wǎng)翻譯版本：再次重申媒體影響力不會影響對論文的判斷，所以不要拿這個說事。）

作者認(rèn)為，評審們會因?yàn)槊襟w報(bào)道而產(chǎn)生偏見，但這一點(diǎn)并不成立。從討論中我們可以看出，作者與評審在論文的創(chuàng)新度、原創(chuàng)度及研究意義上有著很大的分歧。雖然作者擁有與評審自由辯駁的權(quán)利，但使用了像「一派胡言」、「毫無道理」、「居高臨下」、「目中無人」（雷鋒網(wǎng)按：以上幾個詞為小編強(qiáng)行翻譯，原詞分別為"absolute nonsense", "unreasonable", "condescending"及"disrespectful"）并無益于科學(xué)的建設(shè)性討論，而為了提升論文質(zhì)量花費(fèi)了大量時間的 ICLR 評審們也感到了作者深深的冒犯之意。

（雷鋒網(wǎng)不入流翻譯：就算是觀點(diǎn)不一樣，但用那些不禮貌的詞，真的大丈夫？對得起我們評審這么花心思為你審核文章嗎？）

隨后，評審給出了兩個結(jié)論：

1. 評審們非常重視論文的創(chuàng)新度及研究意義。
2. 經(jīng)過審閱，論文確實(shí)還沒有達(dá)到入選 ICLR 的標(biāo)準(zhǔn)?！刚撐氖且黄獞?yīng)用性論文，作者提出了第一個用機(jī)器學(xué)習(xí)實(shí)現(xiàn)端到端的語句層面唇讀技術(shù)?！?/p>

當(dāng)然，優(yōu)點(diǎn)自然有，但不足之處也不少，雷鋒網(wǎng)摘編主要內(nèi)容與讀者們分享，主要集中于三個方面。

1. GRID 數(shù)據(jù)集依然比較局限，論文基于此得到的結(jié)論自然也不足以成為震撼的研究性進(jìn)展。
2. 論文在某些地方存在夸大的地方，至少在表述上存在問題。
3. 論文的某些論據(jù)不夠翔實(shí)。

最后又總結(jié)了一番：

此文的缺點(diǎn)在于，在研究深度學(xué)習(xí)的相關(guān)應(yīng)用時，它并沒有做出巨大的技術(shù)貢獻(xiàn)，也沒有提出任何超出目前應(yīng)用領(lǐng)域的新見解。

這一句，讓人心服口服。

前段時間雷鋒網(wǎng) AI 科技評論在與 MXNet 的李沐聊天時，在討論工業(yè)界與學(xué)術(shù)界的交融問題時也提及了這件事。李沐絲毫沒有掩飾他對這篇論文的欣賞之情，也表達(dá)了其被拒絕的惋惜之情。他認(rèn)為這篇論文實(shí)際上寫得很不錯，只是不符合 ICLR 的評審標(biāo)準(zhǔn)。論文里提及能將唇語的判別能力提升 10%，對于工業(yè)界也是一個很大的突破。不過，好的結(jié)果對工業(yè)界有用，但從研究的結(jié)果來說，不一定就與突破劃上等號。就像李沐此前所提及的一樣，工業(yè)界追求的是「how」，而學(xué)術(shù)界看重的是「why」，產(chǎn)品與研究的方向完全不同，前者追求效果，能做出東西來就是勝利，而后者更看重創(chuàng)新。

「NIPS 看重的是偏理論的東西，有的論文甚至一行代碼沒有也能入選，而 ICLR 希望做出來的東西具有洞見，需要的是能利用現(xiàn)有的東西解釋其中的原因。」

李沐隨后也向雷鋒網(wǎng) AI 科技評論分享了他做學(xué)術(shù)研究時的一些心得，「做學(xué)術(shù)研究時最重要的是想法，也就是說你對這個東西有什么看法，并且能想得透徹，寫得明白（讓評審看懂），而第二點(diǎn)在于，做這個東西你是否有什么洞察，能給出深層次的解釋，第三點(diǎn)才是這個方法的結(jié)果好不好?！?/p>

這樣看來，LipNet 的論文無法入 ICLR 的法眼，根本原因在于將應(yīng)用型的論文投遞到了追求理論創(chuàng)新的大會上。雷鋒網(wǎng) AI 科技評論小編揣測，大概是 Freitas 對于論文取得的工業(yè)界成果非常自信，認(rèn)為拿下 ICLR 十拿九穩(wěn)，沒想到在學(xué)術(shù)圈卻沒有獲得預(yù)期的認(rèn)同，所以才會氣得跳腳，說出那些沖動的話吧。

自此事情已經(jīng)告一段落。雷鋒網(wǎng)小編就順嘴提個八卦：時間還得推移到 2012 年的 CVPR 上，當(dāng)時 LeCun 已經(jīng)是大名鼎鼎的機(jī)器學(xué)習(xí)大牛，他的論文得到了很好的實(shí)驗(yàn)結(jié)果，但評審認(rèn)為論文并沒有說明為何能得到這個結(jié)果，因此把他的論文給拒絕了，LeCun 自此表示，不再向 CVPR 投遞論文。

歷史總是相似的，在 LeCun 組建的 ICLR 大會上，類似的場景再度上演。雖然后來 LeCun 還是向 CVPR 投遞了論文，只是不知道這一次，當(dāng)事人們和看客們，又會做何感想呢？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。