丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給谷磊
發(fā)送

0

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫(xiě)還是要寫(xiě)的,而且要寫(xiě)好

本文作者: 谷磊 2017-05-05 20:05
導(dǎo)語(yǔ):NLP頂級(jí)會(huì)議ACL2017年收錄論文公布,我們和一些作者聊了聊,成功者的經(jīng)驗(yàn)不能完全復(fù)制,希望大家看完能有自己的思考

今天,朋友圈里又傳來(lái)一陣激烈的討論,原來(lái)是特斯拉 CEO 伊隆馬斯克又放出“狂言”:90%的學(xué)術(shù)論文都是毫無(wú)價(jià)值的。

其實(shí),在很多從事學(xué)術(shù)研究的老師和學(xué)生看來(lái),是多少有一些認(rèn)同感的。相信不會(huì)有人因?yàn)檫@句話就否定論文在基礎(chǔ)理論和應(yīng)用層面的帶來(lái)的巨大創(chuàng)新力,很多人爭(zhēng)論的點(diǎn)僅是到底百分之多少有價(jià)值的問(wèn)題。那么雷鋒網(wǎng)認(rèn)為論文既然還要寫(xiě),就應(yīng)該努力去做那有價(jià)值的那部分?;诖耍覀兟?lián)系到一些最近剛剛被NLP領(lǐng)域的頂級(jí)會(huì)議ACL收錄的論文作者,跟他們聊了聊如何寫(xiě)出一篇優(yōu)秀的學(xué)術(shù)論文的話題。

近日,自然語(yǔ)言處理領(lǐng)域國(guó)際最權(quán)威的學(xué)術(shù)會(huì)議 ACL(The Association for Computational Linguistics) 公布了其2017年錄用的論文。

以人類語(yǔ)言為研究對(duì)象的“自然語(yǔ)言處理”(Natural Language Processing:NLP)是人工智能最重要的研究方向之一。作為在 NLP 領(lǐng)域世界范圍內(nèi)影響力最大、也最具活力的國(guó)際學(xué)術(shù)組織,ACL(國(guó)際計(jì)算語(yǔ)言學(xué)會(huì))第 55 屆年會(huì)將于 2017 年 7 月 30 日至 8 月 4 日在加拿大溫哥華舉辦。

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫(xiě)還是要寫(xiě)的,而且要寫(xiě)好

4月22日,為了促進(jìn)國(guó)內(nèi)自然語(yǔ)言處理相關(guān)研究的發(fā)展以及研究者之間的交流,中國(guó)中文信息學(xué)會(huì)青年工作委員會(huì)聯(lián)合騰訊公司在北京舉辦了“ACL 2017論文報(bào)告會(huì)”,邀請(qǐng)到了國(guó)內(nèi)部分被錄用論文的作者報(bào)告其論文方法,共同探討自然語(yǔ)言處理領(lǐng)域的新發(fā)展和新技術(shù)(附講者Slides下載)。

雷鋒網(wǎng) AI 科技評(píng)論作為合作媒體也應(yīng)邀參與,并在會(huì)后采訪了部分的作者,請(qǐng)他們就論文投稿技巧、心中的偶像、今后的打算以及新舊研究方法之間的聯(lián)系等問(wèn)題表達(dá)了自己的看法,雷鋒網(wǎng)將回答匯總整理如下。

雷鋒網(wǎng):請(qǐng)簡(jiǎn)單描述下本次投稿的過(guò)程,從選題,寫(xiě)稿,投稿到被收錄,你認(rèn)為有什么經(jīng)驗(yàn)可以遵循嗎?

吳雙志:經(jīng)驗(yàn)的話談不上,就是一個(gè)按部就班的過(guò)程吧。首先我本身就是以做神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯課題為主的,所以需要對(duì)現(xiàn)有模型的優(yōu)點(diǎn)缺點(diǎn)有較為深刻的掌握和理解。平時(shí)就會(huì)看很多相關(guān)的工作,找找靈感。這次的投稿的內(nèi)容也是去嘗試解決翻譯中的一個(gè)經(jīng)典問(wèn)題。至于方法,是在一次偶然的機(jī)會(huì)中跟同事討論時(shí)定下來(lái)的,當(dāng)時(shí)也是抱著嘗試的心態(tài)。當(dāng)模型雛形做出來(lái)以后發(fā)現(xiàn)效果挺好的,從而繼續(xù)深入的做下去。后來(lái)剛好在ACL投稿之前就都差不多完成了,就投了ACL。所以我覺(jué)得就是一個(gè)按部就班的過(guò)程吧。

何世柱:博士期間我一直在做知識(shí)庫(kù)問(wèn)答相關(guān)的工作,了解到知識(shí)庫(kù)問(wèn)答目前研究中的一個(gè)重要瓶頸就是問(wèn)答-答案標(biāo)注數(shù)據(jù)的匱乏。正好課題組內(nèi)有師兄在研究社區(qū)問(wèn)答,而社區(qū)問(wèn)答中有大量的用戶標(biāo)注的問(wèn)答-答案數(shù)據(jù),雖然這些數(shù)據(jù)有噪音有錯(cuò)誤,但還是非常有價(jià)值的資源。因此,那時(shí)候就想是不是可以利用社區(qū)問(wèn)答的數(shù)據(jù)幫助知識(shí)庫(kù)答案。早期的想法還是比較樸素,沒(méi)有想到比較好的模型來(lái)做這樣的任務(wù)。16年上半年,看到了華為諾亞方舟實(shí)驗(yàn)室的幾個(gè)相關(guān)工作,并與相關(guān)作者進(jìn)行了深入的溝通和交流。受此啟發(fā),針對(duì)我們的問(wèn)題設(shè)計(jì)了文章的模型。

在選題的時(shí)候,與組內(nèi)老師進(jìn)行了討論,他們認(rèn)為課題是有意義的,但是難點(diǎn)就在于如何評(píng)價(jià)。目前還是沒(méi)有很好的評(píng)價(jià)方法,只能采取邊工作邊摸索的方式推進(jìn)工作。任務(wù)是什么,解決的問(wèn)題是什么,模型是如何解決這些問(wèn)題的,這些思路確定之后,論文的撰寫(xiě)就比較流暢了。

另外,寫(xiě)作過(guò)程中,老師和同學(xué),特別是非該研究方向的同學(xué),幫助檢查也是非常重要的。個(gè)人認(rèn)為研究中仔細(xì)思考討論“要解決什么問(wèn)題”和“如何解決這個(gè)問(wèn)題”至關(guān)重要。

羅炳峰:這篇論文的選題是相對(duì)比較自然的一次。我在做關(guān)系抽取的相關(guān)實(shí)驗(yàn)的過(guò)程中,發(fā)現(xiàn)數(shù)據(jù)集的噪聲很大程度上影響最終關(guān)系抽取器的效果。而通過(guò)查閱以往文獻(xiàn),發(fā)現(xiàn)以往的工作對(duì)這一問(wèn)題處理的比較粗糙。于是我就通過(guò)查詢其他領(lǐng)域的噪聲處理相關(guān)文獻(xiàn)尋找靈感,并結(jié)合關(guān)系抽取的具體情況設(shè)計(jì)出了現(xiàn)在的算法,并做了相應(yīng)的實(shí)驗(yàn)。由于寫(xiě)代碼和做實(shí)驗(yàn)還算順利,所以初步完成這個(gè)工作并沒(méi)有花太多時(shí)間。不過(guò)由于這個(gè)工作的頭緒比較多,所以花了比較大的功夫?qū)懜?,從開(kāi)始寫(xiě)到初步定稿就花了一個(gè)多月的時(shí)間。功夫不負(fù)有心人,最后審稿人給的分?jǐn)?shù)也比較高,所以從投稿到收錄都比較順利。

經(jīng)驗(yàn)方面,首先我覺(jué)得選題是論文的基礎(chǔ),選擇的研究方向最好要么可以解決一類問(wèn)題,要么可以覺(jué)得可以顯著提升一個(gè)重要的任務(wù)。方法設(shè)計(jì)方面,可以從問(wèn)題本身出發(fā),分析出問(wèn)題的本質(zhì)是什么,難點(diǎn)是什么。明確了問(wèn)題之后,就可以結(jié)合大量的文獻(xiàn)調(diào)研來(lái)尋找靈感,同時(shí)也確保自己的方法的新穎性。

最后寫(xiě)稿的時(shí)候,一定要認(rèn)真對(duì)待,因?yàn)楣ぷ髯龅迷俸?,?xiě)的讓別人看不明白,或者論證不充分都是白搭。最好在截稿日前一個(gè)月就開(kāi)始寫(xiě),然后通過(guò)迭代來(lái)逐步完善。在迭代的過(guò)程中,一定要找有經(jīng)驗(yàn)的人(比如導(dǎo)師和高年級(jí)學(xué)長(zhǎng)學(xué)姐)提一些意見(jiàn),爭(zhēng)取把審稿人可能會(huì)覺(jué)得有問(wèn)題的地方都在文章中說(shuō)清楚。比如我這次寫(xiě)稿就被指出了intuition寫(xiě)的不夠,文章脈絡(luò)要重新組織,缺某一塊的實(shí)驗(yàn),實(shí)驗(yàn)論證的太淺等一系列問(wèn)題。要發(fā)現(xiàn)這些問(wèn)題需要有充足的投稿經(jīng)驗(yàn),而我們學(xué)生在這一點(diǎn)上往往是欠缺的,所以多找有經(jīng)驗(yàn)的人提一些意見(jiàn)可以大大提高最終論文被錄取的概率。

不愿具名的作者: 這次比較幸運(yùn),我的工作能夠被ACL收錄。本文提出的模型簡(jiǎn)單但方法相對(duì)比較新穎。由于研究方向是信息抽取,所以一直以來(lái)都在針對(duì)信息抽取相關(guān)任務(wù)進(jìn)行方法上的探索,并不存在著一個(gè)選題的問(wèn)題。許多的工作都在方法的嘗試和探索方面。

關(guān)于方法的探索方面,這次沒(méi)有局限于已有的抽取方法框架,而是從NLP的其他研究任務(wù)中借鑒思路,把我們需要研究的抽取問(wèn)題轉(zhuǎn)換為了另外一種形式“序列標(biāo)注問(wèn)題”,從而方便使用更有效地端對(duì)端模型去實(shí)現(xiàn)抽取,并在相關(guān)數(shù)據(jù)集中實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果也驗(yàn)證了方法的有效性。

有了上述的實(shí)驗(yàn)工作就可以開(kāi)始撰寫(xiě)論文。一般我寫(xiě)論文的思路都是:提出問(wèn)題(說(shuō)明清楚本文旨在研究一個(gè)什么樣的任務(wù),它有什么意義),分析問(wèn)題(該任務(wù)的特點(diǎn)以及已有方法存在的問(wèn)題),解決問(wèn)題(本文設(shè)計(jì)模型的思路以及模型的創(chuàng)新性)。力求思路清晰,邏輯嚴(yán)謹(jǐn),描述簡(jiǎn)單易懂。在學(xué)術(shù)的路上我還有許多需要學(xué)習(xí)的,上述只是自己在研究過(guò)程中的一點(diǎn)習(xí)慣和經(jīng)驗(yàn)。

涂存超:我覺(jué)得選題最重要的方面是面向真實(shí)存在的問(wèn)題,提出自己的解決方案,不要無(wú)病呻吟。motivation足夠強(qiáng)或研究的問(wèn)題足夠新,才會(huì)有更大的把握被ACL這種專門領(lǐng)域的頂會(huì)錄用。

夏喬林:我的論文雖然是NLP領(lǐng)域的,但是之前受到了很多篇其他領(lǐng)域論文的啟發(fā),所以我的體會(huì)是,多看一些自己學(xué)科的論文可能是有好處的。

雷鋒網(wǎng):有沒(méi)有NLP方向的偶像?學(xué)術(shù)界是誰(shuí)? 工業(yè)界是誰(shuí)?

何世柱:NLP方面比較崇拜的是斯坦福大學(xué)NLP組的Percy Liang。閱讀過(guò)他的相關(guān)文章,也深入研究過(guò)他開(kāi)源的想法。發(fā)現(xiàn)他不僅文章寫(xiě)得好,代碼也非常漂亮,閱讀他的文章和代碼收獲非常大。

不愿具名的作者:沒(méi)有固定的偶像,只有一些欣賞的工作。像Hinton, Lencun等這些高高在上的大牛們,更多的是一種敬畏和膜拜。此外,我比較佩服Mikolov這樣的年輕學(xué)者,博士剛畢業(yè)就發(fā)出了影響力巨大的Word2vec工作,將學(xué)術(shù)和工程結(jié)合的很好。

涂存超:學(xué)術(shù)界偶像:Christopher D. Manning;業(yè)界偶像:Tomas Mikolov

雷鋒網(wǎng):有沒(méi)有想加入的公司?是哪家?有沒(méi)有打算創(chuàng)業(yè)?

吳雙志:我個(gè)人來(lái)說(shuō)是比較喜歡搞研究的,而且也很希望能將研究成果放到到實(shí)際應(yīng)用中。所以我希望能加入既能做研究也能實(shí)現(xiàn)產(chǎn)品轉(zhuǎn)化的公司吧,至于創(chuàng)業(yè)的話,還沒(méi)想過(guò)。

何世柱:暫時(shí)沒(méi)有加入產(chǎn)業(yè)界的想法,也沒(méi)有創(chuàng)業(yè)的打算(可能再多磨煉磨煉吧,個(gè)人覺(jué)得創(chuàng)業(yè)非常難)。還是更喜歡科研中的自主性。但是我們的相關(guān)研究其實(shí)是與產(chǎn)業(yè)應(yīng)用非常相關(guān)的,比如我這次的文章就是解決產(chǎn)業(yè)上的真實(shí)用戶需求,因此,我們也非常樂(lè)于跟產(chǎn)業(yè)界合作,因?yàn)榭梢愿鼫?zhǔn)確的獲取用戶的真實(shí)需求和數(shù)據(jù)。

夏喬林:還在讀博,但會(huì)考慮去谷歌這樣的公司實(shí)習(xí),大牛的集中地,應(yīng)該會(huì)學(xué)到很多東西。國(guó)內(nèi)想嘗試去一些創(chuàng)業(yè)公司實(shí)習(xí)。

涂存超:打算創(chuàng)業(yè)。

雷鋒網(wǎng):如何看待目前熱點(diǎn)的研究方法(神經(jīng)網(wǎng)絡(luò))與傳統(tǒng)方法之間的關(guān)系?或者說(shuō)如何看待經(jīng)驗(yàn)主義和理性主義的鐘擺。

吳雙志:我覺(jué)得神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)方法相比是有很多優(yōu)點(diǎn)的。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的學(xué)習(xí)能力,我們知道在很多任務(wù)中,傳統(tǒng)方法可能需要復(fù)雜子模型結(jié)合一起才能完成,訓(xùn)練過(guò)程和使用過(guò)程復(fù)雜,需要有較多的背景知識(shí)。然而神經(jīng)網(wǎng)絡(luò)卻可以用一個(gè)網(wǎng)絡(luò)對(duì)任務(wù)進(jìn)行建模,并且在很多任務(wù)上的性能優(yōu)于傳統(tǒng)方法。神經(jīng)網(wǎng)絡(luò)模型降低了很多自然語(yǔ)言經(jīng)典任務(wù)的門檻。但是我覺(jué)得不能太盲從于神經(jīng)網(wǎng)絡(luò),在應(yīng)用神經(jīng)網(wǎng)絡(luò)的同時(shí)還要對(duì)具體任務(wù)做一些反思。傳統(tǒng)方法是領(lǐng)域?qū)<覀兒芏嗄甑难芯砍晒?,非常值得我們借鑒。

所以我覺(jué)得對(duì)于一個(gè)具體任務(wù)而言,我們不能僅僅去把神經(jīng)網(wǎng)絡(luò)拿來(lái)就用,還應(yīng)該掌握這個(gè)任務(wù)的傳統(tǒng),經(jīng)典方法。

何世柱:這個(gè)問(wèn)題很大,我只能是根據(jù)自己在實(shí)踐中的感受來(lái)進(jìn)行回答。神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)方法各自有優(yōu)缺點(diǎn),神經(jīng)網(wǎng)絡(luò)表達(dá)能力強(qiáng),可以對(duì)數(shù)據(jù)進(jìn)行很好的泛化(本質(zhì)是上平滑),有更強(qiáng)的記憶能力(能存儲(chǔ)和匹配數(shù)據(jù)中更多的模式),但是神經(jīng)網(wǎng)絡(luò)方法對(duì)于數(shù)據(jù)的要求比較高,大量高質(zhì)量的數(shù)據(jù)才能學(xué)習(xí)好的模型。傳統(tǒng)方法可以很好的融合人的知識(shí),實(shí)際上現(xiàn)在很多神經(jīng)網(wǎng)絡(luò)的方法也在嘗試加入更多的外部知識(shí),比如機(jī)器翻譯中加入句法信息其實(shí)就是一種外部知識(shí)。我們的工作也是在神經(jīng)網(wǎng)絡(luò)中融入存儲(chǔ)于外部知識(shí)庫(kù)中的知識(shí)。

羅炳峰:我覺(jué)得神經(jīng)網(wǎng)絡(luò)的方法很大程度上是對(duì)傳統(tǒng)方法研究的問(wèn)題提供了一個(gè)新的建模的視角,即區(qū)別于傳統(tǒng)方法通過(guò)人工構(gòu)造特征對(duì)問(wèn)題進(jìn)行刻畫(huà),神經(jīng)網(wǎng)絡(luò)方法可以通過(guò)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),來(lái)對(duì)問(wèn)題的各個(gè)特性進(jìn)行建模,或者通過(guò)深層網(wǎng)絡(luò)使得模型自己學(xué)習(xí)特征。雖然神經(jīng)網(wǎng)絡(luò)剛提出時(shí)宣揚(yáng)的優(yōu)勢(shì)之一就是不需要特征工程,但是其和傳統(tǒng)的基于特征的方法本身是不沖突的,比如Google的Deep&Wide模型就是神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)特征工程方法結(jié)合的一個(gè)典型實(shí)例。另外像LSTM+CRF這類模型又是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)建模方法和概率圖模型的結(jié)構(gòu)建模方法的一個(gè)有效的結(jié)合方式。相信今后會(huì)看到更多的神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)方法結(jié)合的案例。

不愿具名的作者: 目前的熱點(diǎn)的神經(jīng)網(wǎng)絡(luò)方法更偏向于一種數(shù)據(jù)驅(qū)動(dòng)型的方法,相比傳統(tǒng)方法,無(wú)需更多的人工干預(yù)工作但對(duì)訓(xùn)練數(shù)據(jù)具有很強(qiáng)的依賴性,在如今的大數(shù)據(jù)時(shí)代以及計(jì)算資源豐富的情況下,相對(duì)更具優(yōu)勢(shì)。此外,二者也并非完全獨(dú)立,也可相輔相成。比如傳統(tǒng)的人工定義規(guī)則模板的方法,這類方法可以提供準(zhǔn)確的先驗(yàn)知識(shí),如何將這些準(zhǔn)確的先驗(yàn)知識(shí)和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行融合。

*出門問(wèn)問(wèn)NLP工程師李超對(duì)本文有貢獻(xiàn)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫(xiě)還是要寫(xiě)的,而且要寫(xiě)好

分享:
相關(guān)文章

編輯

專注報(bào)道人工智能。微信:ydxy301
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)