0
本文作者: 谷磊 | 2017-05-05 20:05 |
今天,朋友圈里又傳來一陣激烈的討論,原來是特斯拉 CEO 伊隆馬斯克又放出“狂言”:90%的學術論文都是毫無價值的。
其實,在很多從事學術研究的老師和學生看來,是多少有一些認同感的。相信不會有人因為這句話就否定論文在基礎理論和應用層面的帶來的巨大創(chuàng)新力,很多人爭論的點僅是到底百分之多少有價值的問題。那么雷鋒網(wǎng)認為論文既然還要寫,就應該努力去做那有價值的那部分。基于此,我們聯(lián)系到一些最近剛剛被NLP領域的頂級會議ACL收錄的論文作者,跟他們聊了聊如何寫出一篇優(yōu)秀的學術論文的話題。
近日,自然語言處理領域國際最權威的學術會議 ACL(The Association for Computational Linguistics) 公布了其2017年錄用的論文。
以人類語言為研究對象的“自然語言處理”(Natural Language Processing:NLP)是人工智能最重要的研究方向之一。作為在 NLP 領域世界范圍內(nèi)影響力最大、也最具活力的國際學術組織,ACL(國際計算語言學會)第 55 屆年會將于 2017 年 7 月 30 日至 8 月 4 日在加拿大溫哥華舉辦。
4月22日,為了促進國內(nèi)自然語言處理相關研究的發(fā)展以及研究者之間的交流,中國中文信息學會青年工作委員會聯(lián)合騰訊公司在北京舉辦了“ACL 2017論文報告會”,邀請到了國內(nèi)部分被錄用論文的作者報告其論文方法,共同探討自然語言處理領域的新發(fā)展和新技術(附講者Slides下載)。
雷鋒網(wǎng) AI 科技評論作為合作媒體也應邀參與,并在會后采訪了部分的作者,請他們就論文投稿技巧、心中的偶像、今后的打算以及新舊研究方法之間的聯(lián)系等問題表達了自己的看法,雷鋒網(wǎng)將回答匯總整理如下。
吳雙志:經(jīng)驗的話談不上,就是一個按部就班的過程吧。首先我本身就是以做神經(jīng)網(wǎng)絡機器翻譯課題為主的,所以需要對現(xiàn)有模型的優(yōu)點缺點有較為深刻的掌握和理解。平時就會看很多相關的工作,找找靈感。這次的投稿的內(nèi)容也是去嘗試解決翻譯中的一個經(jīng)典問題。至于方法,是在一次偶然的機會中跟同事討論時定下來的,當時也是抱著嘗試的心態(tài)。當模型雛形做出來以后發(fā)現(xiàn)效果挺好的,從而繼續(xù)深入的做下去。后來剛好在ACL投稿之前就都差不多完成了,就投了ACL。所以我覺得就是一個按部就班的過程吧。
何世柱:博士期間我一直在做知識庫問答相關的工作,了解到知識庫問答目前研究中的一個重要瓶頸就是問答-答案標注數(shù)據(jù)的匱乏。正好課題組內(nèi)有師兄在研究社區(qū)問答,而社區(qū)問答中有大量的用戶標注的問答-答案數(shù)據(jù),雖然這些數(shù)據(jù)有噪音有錯誤,但還是非常有價值的資源。因此,那時候就想是不是可以利用社區(qū)問答的數(shù)據(jù)幫助知識庫答案。早期的想法還是比較樸素,沒有想到比較好的模型來做這樣的任務。16年上半年,看到了華為諾亞方舟實驗室的幾個相關工作,并與相關作者進行了深入的溝通和交流。受此啟發(fā),針對我們的問題設計了文章的模型。
在選題的時候,與組內(nèi)老師進行了討論,他們認為課題是有意義的,但是難點就在于如何評價。目前還是沒有很好的評價方法,只能采取邊工作邊摸索的方式推進工作。任務是什么,解決的問題是什么,模型是如何解決這些問題的,這些思路確定之后,論文的撰寫就比較流暢了。
另外,寫作過程中,老師和同學,特別是非該研究方向的同學,幫助檢查也是非常重要的。個人認為研究中仔細思考討論“要解決什么問題”和“如何解決這個問題”至關重要。
羅炳峰:這篇論文的選題是相對比較自然的一次。我在做關系抽取的相關實驗的過程中,發(fā)現(xiàn)數(shù)據(jù)集的噪聲很大程度上影響最終關系抽取器的效果。而通過查閱以往文獻,發(fā)現(xiàn)以往的工作對這一問題處理的比較粗糙。于是我就通過查詢其他領域的噪聲處理相關文獻尋找靈感,并結(jié)合關系抽取的具體情況設計出了現(xiàn)在的算法,并做了相應的實驗。由于寫代碼和做實驗還算順利,所以初步完成這個工作并沒有花太多時間。不過由于這個工作的頭緒比較多,所以花了比較大的功夫?qū)懜?,從開始寫到初步定稿就花了一個多月的時間。功夫不負有心人,最后審稿人給的分數(shù)也比較高,所以從投稿到收錄都比較順利。
經(jīng)驗方面,首先我覺得選題是論文的基礎,選擇的研究方向最好要么可以解決一類問題,要么可以覺得可以顯著提升一個重要的任務。方法設計方面,可以從問題本身出發(fā),分析出問題的本質(zhì)是什么,難點是什么。明確了問題之后,就可以結(jié)合大量的文獻調(diào)研來尋找靈感,同時也確保自己的方法的新穎性。
最后寫稿的時候,一定要認真對待,因為工作做得再好,寫的讓別人看不明白,或者論證不充分都是白搭。最好在截稿日前一個月就開始寫,然后通過迭代來逐步完善。在迭代的過程中,一定要找有經(jīng)驗的人(比如導師和高年級學長學姐)提一些意見,爭取把審稿人可能會覺得有問題的地方都在文章中說清楚。比如我這次寫稿就被指出了intuition寫的不夠,文章脈絡要重新組織,缺某一塊的實驗,實驗論證的太淺等一系列問題。要發(fā)現(xiàn)這些問題需要有充足的投稿經(jīng)驗,而我們學生在這一點上往往是欠缺的,所以多找有經(jīng)驗的人提一些意見可以大大提高最終論文被錄取的概率。
不愿具名的作者: 這次比較幸運,我的工作能夠被ACL收錄。本文提出的模型簡單但方法相對比較新穎。由于研究方向是信息抽取,所以一直以來都在針對信息抽取相關任務進行方法上的探索,并不存在著一個選題的問題。許多的工作都在方法的嘗試和探索方面。
關于方法的探索方面,這次沒有局限于已有的抽取方法框架,而是從NLP的其他研究任務中借鑒思路,把我們需要研究的抽取問題轉(zhuǎn)換為了另外一種形式“序列標注問題”,從而方便使用更有效地端對端模型去實現(xiàn)抽取,并在相關數(shù)據(jù)集中實驗,實驗結(jié)果也驗證了方法的有效性。
有了上述的實驗工作就可以開始撰寫論文。一般我寫論文的思路都是:提出問題(說明清楚本文旨在研究一個什么樣的任務,它有什么意義),分析問題(該任務的特點以及已有方法存在的問題),解決問題(本文設計模型的思路以及模型的創(chuàng)新性)。力求思路清晰,邏輯嚴謹,描述簡單易懂。在學術的路上我還有許多需要學習的,上述只是自己在研究過程中的一點習慣和經(jīng)驗。
涂存超:我覺得選題最重要的方面是面向真實存在的問題,提出自己的解決方案,不要無病呻吟。motivation足夠強或研究的問題足夠新,才會有更大的把握被ACL這種專門領域的頂會錄用。
夏喬林:我的論文雖然是NLP領域的,但是之前受到了很多篇其他領域論文的啟發(fā),所以我的體會是,多看一些自己學科的論文可能是有好處的。
何世柱:NLP方面比較崇拜的是斯坦福大學NLP組的Percy Liang。閱讀過他的相關文章,也深入研究過他開源的想法。發(fā)現(xiàn)他不僅文章寫得好,代碼也非常漂亮,閱讀他的文章和代碼收獲非常大。
不愿具名的作者:沒有固定的偶像,只有一些欣賞的工作。像Hinton, Lencun等這些高高在上的大牛們,更多的是一種敬畏和膜拜。此外,我比較佩服Mikolov這樣的年輕學者,博士剛畢業(yè)就發(fā)出了影響力巨大的Word2vec工作,將學術和工程結(jié)合的很好。
涂存超:學術界偶像:Christopher D. Manning;業(yè)界偶像:Tomas Mikolov
吳雙志:我個人來說是比較喜歡搞研究的,而且也很希望能將研究成果放到到實際應用中。所以我希望能加入既能做研究也能實現(xiàn)產(chǎn)品轉(zhuǎn)化的公司吧,至于創(chuàng)業(yè)的話,還沒想過。
何世柱:暫時沒有加入產(chǎn)業(yè)界的想法,也沒有創(chuàng)業(yè)的打算(可能再多磨煉磨煉吧,個人覺得創(chuàng)業(yè)非常難)。還是更喜歡科研中的自主性。但是我們的相關研究其實是與產(chǎn)業(yè)應用非常相關的,比如我這次的文章就是解決產(chǎn)業(yè)上的真實用戶需求,因此,我們也非常樂于跟產(chǎn)業(yè)界合作,因為可以更準確的獲取用戶的真實需求和數(shù)據(jù)。
夏喬林:還在讀博,但會考慮去谷歌這樣的公司實習,大牛的集中地,應該會學到很多東西。國內(nèi)想嘗試去一些創(chuàng)業(yè)公司實習。
涂存超:打算創(chuàng)業(yè)。
吳雙志:我覺得神經(jīng)網(wǎng)絡與傳統(tǒng)方法相比是有很多優(yōu)點的。神經(jīng)網(wǎng)絡具有很強的學習能力,我們知道在很多任務中,傳統(tǒng)方法可能需要復雜子模型結(jié)合一起才能完成,訓練過程和使用過程復雜,需要有較多的背景知識。然而神經(jīng)網(wǎng)絡卻可以用一個網(wǎng)絡對任務進行建模,并且在很多任務上的性能優(yōu)于傳統(tǒng)方法。神經(jīng)網(wǎng)絡模型降低了很多自然語言經(jīng)典任務的門檻。但是我覺得不能太盲從于神經(jīng)網(wǎng)絡,在應用神經(jīng)網(wǎng)絡的同時還要對具體任務做一些反思。傳統(tǒng)方法是領域?qū)<覀兒芏嗄甑难芯砍晒?,非常值得我們借鑒。
所以我覺得對于一個具體任務而言,我們不能僅僅去把神經(jīng)網(wǎng)絡拿來就用,還應該掌握這個任務的傳統(tǒng),經(jīng)典方法。
何世柱:這個問題很大,我只能是根據(jù)自己在實踐中的感受來進行回答。神經(jīng)網(wǎng)絡和傳統(tǒng)方法各自有優(yōu)缺點,神經(jīng)網(wǎng)絡表達能力強,可以對數(shù)據(jù)進行很好的泛化(本質(zhì)是上平滑),有更強的記憶能力(能存儲和匹配數(shù)據(jù)中更多的模式),但是神經(jīng)網(wǎng)絡方法對于數(shù)據(jù)的要求比較高,大量高質(zhì)量的數(shù)據(jù)才能學習好的模型。傳統(tǒng)方法可以很好的融合人的知識,實際上現(xiàn)在很多神經(jīng)網(wǎng)絡的方法也在嘗試加入更多的外部知識,比如機器翻譯中加入句法信息其實就是一種外部知識。我們的工作也是在神經(jīng)網(wǎng)絡中融入存儲于外部知識庫中的知識。
羅炳峰:我覺得神經(jīng)網(wǎng)絡的方法很大程度上是對傳統(tǒng)方法研究的問題提供了一個新的建模的視角,即區(qū)別于傳統(tǒng)方法通過人工構(gòu)造特征對問題進行刻畫,神經(jīng)網(wǎng)絡方法可以通過設計神經(jīng)網(wǎng)絡的結(jié)構(gòu),來對問題的各個特性進行建模,或者通過深層網(wǎng)絡使得模型自己學習特征。雖然神經(jīng)網(wǎng)絡剛提出時宣揚的優(yōu)勢之一就是不需要特征工程,但是其和傳統(tǒng)的基于特征的方法本身是不沖突的,比如Google的Deep&Wide模型就是神經(jīng)網(wǎng)絡模型和傳統(tǒng)特征工程方法結(jié)合的一個典型實例。另外像LSTM+CRF這類模型又是神經(jīng)網(wǎng)絡的結(jié)構(gòu)建模方法和概率圖模型的結(jié)構(gòu)建模方法的一個有效的結(jié)合方式。相信今后會看到更多的神經(jīng)網(wǎng)絡方法和傳統(tǒng)方法結(jié)合的案例。
不愿具名的作者: 目前的熱點的神經(jīng)網(wǎng)絡方法更偏向于一種數(shù)據(jù)驅(qū)動型的方法,相比傳統(tǒng)方法,無需更多的人工干預工作但對訓練數(shù)據(jù)具有很強的依賴性,在如今的大數(shù)據(jù)時代以及計算資源豐富的情況下,相對更具優(yōu)勢。此外,二者也并非完全獨立,也可相輔相成。比如傳統(tǒng)的人工定義規(guī)則模板的方法,這類方法可以提供準確的先驗知識,如何將這些準確的先驗知識和神經(jīng)網(wǎng)絡模型進行融合。
*出門問問NLP工程師李超對本文有貢獻。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。