0
本文作者: 叢末 | 2019-08-06 18:15 |
ACL 2019 剛剛落下帷幕,想必大家對于今年 ACL 的意大利風(fēng)情以及火熱程度記憶猶新,其中最令人印象深刻的則要數(shù) 8 篇 ACL 2019 最佳論文出爐的高光時(shí)刻,其中,劉群教授團(tuán)隊(duì)更是一舉拿下了最佳長論文獎,連同最佳短論文獎、2 篇杰出論文獎的華人一作一起,在 ACL 2019 上一展華人風(fēng)采。
2018 年 7 月,愛爾蘭都柏林城市大學(xué)教授、自然語言處理和機(jī)器翻譯領(lǐng)域?qū)<覄⑷赫郊尤肴A為諾亞方舟實(shí)驗(yàn)室的消息,引起了學(xué)術(shù)、工業(yè)兩界的不小轟動。而將時(shí)間維度再往前推 6 年,劉群教授的頭銜前綴是「中國科學(xué)院計(jì)算技術(shù)研究所自然語言處理研究組負(fù)責(zé)人」,他在計(jì)算所 20 年的學(xué)界職業(yè)經(jīng)歷,開啟了他在機(jī)器翻譯領(lǐng)域深耕的大門,也成為他在回憶研究生涯時(shí)的第一扇門。
日前,AI 科技評論有幸對劉群教授進(jìn)行了專訪,主要就他在學(xué)術(shù)界長達(dá) 26 年的研究經(jīng)歷、加入華為諾亞方舟實(shí)驗(yàn)室的的契機(jī)、其執(zhí)掌的語音語義團(tuán)隊(duì)的整體布局和未來規(guī)劃以及對于自然語言處理的發(fā)展現(xiàn)狀和未來發(fā)展方向的看法,進(jìn)行了一次深度對話。
劉群,1989 年畢業(yè)于中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系,1992 年于中國科學(xué)院計(jì)算技術(shù)研究所獲得碩士學(xué)位,2004 年于北京大學(xué)獲得博士學(xué)位。2012 年 7 月之前,他是中國科學(xué)院計(jì)算技術(shù)研究所的研究員和自然語言處理研究組負(fù)責(zé)人。2012 年 7 至 2018 年 6 月,劉群任都柏林城市大學(xué)教授、愛爾蘭 ADAPT 研究中心(前身 CNGL 研究中心)自然語言處理主題負(fù)責(zé)人。2018 年 7 月,他正式加入華為諾亞方舟實(shí)驗(yàn)室,任語音語義首席科學(xué)家,主導(dǎo)語音和自然語言處理領(lǐng)域的前沿研究和技術(shù)創(chuàng)新。
他是自然語言處理和機(jī)器翻譯領(lǐng)域的國際著名專家,他的研究方向包括多語言信息處理、機(jī)器翻譯模型、方法與評價(jià)等。他最初領(lǐng)導(dǎo)研制的 ICTCLAS 開源系統(tǒng)是應(yīng)用最廣泛的中文詞語切分和詞性標(biāo)注工具,該項(xiàng)成果獲得中國中文信息學(xué)會錢偉長中文信息科學(xué)技術(shù)獎一等獎。他領(lǐng)導(dǎo)的研究組在基于句法的機(jī)器翻譯領(lǐng)域開展了長期的研究工作,其中代表性成果包括樹到串模型、最大熵轉(zhuǎn)錄語法模型、基于森林的機(jī)器翻譯方法等。
劉群教授在自然語言處理頂級會議和期刊上發(fā)表論文 60 余篇,迄今為止被引用 6900 余次(GoogleScholar),相關(guān)成果獲得了北京市科學(xué)技術(shù)二等獎和國家科技進(jìn)步二等獎,并授權(quán)給很多企業(yè)推廣應(yīng)用。他組織承擔(dān)和重點(diǎn)參與了國家自然科學(xué)基金、八六三計(jì)劃、愛爾蘭科學(xué)基金會、歐盟第七框架和 H2020 框架等眾多大型科學(xué)研究項(xiàng)目。劉群教授已培養(yǎng)碩士博士研究生 40 余人,很多學(xué)生已成為一些大學(xué)自然語言處理和機(jī)器翻譯領(lǐng)域的活躍研究人員和一些大型互聯(lián)網(wǎng)企業(yè)的機(jī)器翻譯團(tuán)隊(duì)的負(fù)責(zé)人。
在對自己迄今為止的自然語言處理研究生涯的回顧中,劉群教授分享了很多故事,而這些故事,要從他 1989 年進(jìn)入中科院計(jì)算所就讀研究生開始說起。
默默無聞的早期研究之路
1989 年至 1992 年,是劉群教授的研究生階段。剛進(jìn)入計(jì)算所的時(shí)候,他的導(dǎo)師是張祥老師,也就是當(dāng)時(shí)計(jì)算所二室的主任,之后分到了陳肇雄老師領(lǐng)導(dǎo)的機(jī)器翻譯課題組。正是在此期間,他對計(jì)算語言學(xué)和機(jī)器翻譯的研究產(chǎn)生了濃厚的興趣,由此走上了機(jī)器翻譯這一研究方向,并且在以后的研究工作也一直集中在該領(lǐng)域,從未離開過。
碩士畢業(yè)后,陳肇雄老師從計(jì)算所二室獨(dú)立出來,成立了計(jì)算所機(jī)器翻譯中心,而當(dāng)時(shí)的劉群還是一個(gè)初出茅廬的研究人員,他選擇了留在計(jì)算所二室,開始獨(dú)立開展機(jī)器翻譯研究,并選擇了漢英機(jī)器翻譯這一具體的研究課題。而在此期間,他與北京大學(xué)計(jì)算語言學(xué)研究所展開了合作,并由此與其后來的博士導(dǎo)師俞士汶老師結(jié)緣。
從畢業(yè)到 1998 年,劉群領(lǐng)導(dǎo)的研究團(tuán)隊(duì)與北大的合作項(xiàng)目初見成效,漢英機(jī)器翻譯系統(tǒng)參加 863 專家組組織的中文信息處理與智能人機(jī)接口技術(shù)評測取得了較好的成績,劉群的研究工作也迎來了一次小的高潮。
1999 年至 2004 年,是劉群的博士階段,他繼續(xù)在漢英機(jī)器翻譯這條研究軌道上深耕。而值得一提的是,在此期間,國際上的機(jī)器翻譯研究發(fā)生了較大的變化,其中一個(gè)最大的變化便是 IBM 公司自 1989 年便開始研究的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法在國際上經(jīng)過多年沉寂后,從 1999 年開始流行起來,而國內(nèi)大部分的研究者還沒有意識到這個(gè)變化。
而劉群意識到這一問題的時(shí)間已是 2002 年,當(dāng)時(shí)他參加美國 NIST 的漢英機(jī)器翻譯評測,結(jié)果讓其大失所望,也使其意識到了統(tǒng)計(jì)機(jī)器翻譯方法與傳統(tǒng)的規(guī)則方法相比所具有的明顯優(yōu)勢,開始轉(zhuǎn)到了統(tǒng)計(jì)方法上來。
而這一年也被劉群教授視作其研究生涯的一個(gè)重要轉(zhuǎn)折點(diǎn):研究方式從傳統(tǒng)的規(guī)則方法過渡到統(tǒng)計(jì)方法,由此在之后的幾年時(shí)間內(nèi)取得了一系列突破性成果,工作成果從默默無聞開始在機(jī)器翻譯領(lǐng)域嶄露頭角。而他本人也在這一段時(shí)間獲得了博士學(xué)位,并不久就在計(jì)算所評上了研究員(相當(dāng)于教授),完成了作為一個(gè)研究人員身份的轉(zhuǎn)變。
工作成果開始在機(jī)器翻譯界嶄露頭角
2005 年,劉群教授領(lǐng)導(dǎo)的團(tuán)隊(duì)在 NIST 評測中獲得了第五名的成績,并且在這一年,他的學(xué)生第一次在 ACL 上發(fā)表了論文。對于當(dāng)時(shí)還較為沉寂的中國自然語言處理和機(jī)器翻譯研究界而言,劉群教授的這些成果算是為中國的自然語言處理和機(jī)器翻譯在國際舞臺上露了一次臉。
劉群教授感慨道:「在此之前國內(nèi)基本上只有微軟亞洲研究院在 ACL 有一些成果,但那個(gè)時(shí)候微軟亞研在國內(nèi)是非常高大上的,他們可以從世界各地聘來最頂尖的研究人員,同時(shí)高薪聘請國內(nèi)最資深的教授和最聰明的年輕人,并給這些研究人員提供最好的研究條件,這讓國內(nèi)的大學(xué)和研究機(jī)構(gòu)都望塵莫及。那時(shí)國內(nèi)高校和研究機(jī)構(gòu)基本上沒有人能夠在 ACL 上發(fā)表論文,然而我的課題組連續(xù)兩年發(fā)表了三篇論文(2006 年又在 ACL 上發(fā)表了兩篇論文),并且我們還在 NIST 評測中取得了第五名的成績,而前四名都是這一領(lǐng)域知名的研究機(jī)構(gòu),并且互相之間有很多的交流和合作。而我們在當(dāng)時(shí)國際交流比較少、國內(nèi)外開源工具都非常有限的情況下,獨(dú)立做出這樣的成果是非常難得的,所以當(dāng)時(shí)無論在國內(nèi)還是在國際上的影響,都比較大?!?/p>
而這些成果的取得,很大程度上還是源于劉群教授開始啟用統(tǒng)計(jì)方法來研究機(jī)器翻譯的遠(yuǎn)見。
另外在 2002 年開始用統(tǒng)計(jì)方法做機(jī)器翻譯到 2005 年在國際舞臺上取得成績期間,劉群教授還做了一些比較有影響力的工作,其中一項(xiàng)便是基于統(tǒng)計(jì)方法做中文分詞,取得了國內(nèi)最好的成績,并且,他還將這一工具進(jìn)行了開源,緩解了這個(gè)研究領(lǐng)域的瓶頸問題,提升了整個(gè)國內(nèi)中文自然語言處理和機(jī)器翻譯領(lǐng)域的研究水平。
劉群教授談到,也就是從這幾年開始,他在自然語言處理和機(jī)器翻譯領(lǐng)域的工作開始具有了較大的影響力,獲得了該領(lǐng)域較大的關(guān)注。
離開計(jì)算所,任職都柏林城市大學(xué)
就劉群教授看來,其職業(yè)生涯比較重要的轉(zhuǎn)折點(diǎn)便是 2002 年看到了國內(nèi)外在機(jī)器翻譯研究上的差距,轉(zhuǎn)而開始使用統(tǒng)計(jì)方法來研究機(jī)器翻譯,并在此領(lǐng)域開展了一系列深入的研究工作,也由此在該領(lǐng)域產(chǎn)生了比較大的影響力。
而在加入華為開始工業(yè)界的征程之前,劉群教授在學(xué)術(shù)界的職業(yè)生涯還發(fā)生了另一項(xiàng)重大的變動:于 2012 年離開計(jì)算所,前往都柏林城市大學(xué)任職。
在計(jì)算所任職的那 20 年,除了研究上從默默無聞到開始在機(jī)器翻譯領(lǐng)域嶄露頭角,劉群教授回憶起來,還用了另外一句話來做形容,那就是「沒有盡頭的經(jīng)費(fèi)壓力」。
「我在計(jì)算所帶團(tuán)隊(duì)的時(shí)候壓力非常大,主要是來自經(jīng)費(fèi)的壓力。當(dāng)時(shí)國家給我們的經(jīng)費(fèi)大概是工資的百分之二三十,經(jīng)費(fèi)不夠就需要你自己去爭取國家或者企業(yè)項(xiàng)目掙經(jīng)費(fèi),那段時(shí)間隨著我們的工作影響力逐漸增大,計(jì)算所在各方面給了我很多支持,我的團(tuán)隊(duì)也在逐漸增大,最大的時(shí)候達(dá)到近 30 人,然而維持這個(gè)團(tuán)隊(duì)的經(jīng)費(fèi)是要我們自己去爭取的。結(jié)果好幾次在年終結(jié)算的時(shí)候,我們的經(jīng)費(fèi)都嚴(yán)重超支,幾乎難以為繼。所以很長一段時(shí)間里,我基本上沒有心思去做其他的事情,整天就是去找項(xiàng)目做以維持團(tuán)隊(duì)研究開銷?!?/p>
這也成為劉群教授在 2012 年選擇離開計(jì)算所到愛爾蘭都柏林城市大學(xué)任職的原因之一,而另一個(gè)更重要的原因則是他希望擁有一段國外科研經(jīng)歷,從而能夠更好地了解和直觀地感受西方國家的科研體制和從事科學(xué)研究的方式。
「其實(shí)我本人能感受到國內(nèi)外學(xué)術(shù)科研的差距,因此也一直希望能夠擁有一段國外科研經(jīng)歷。而在此之前,我最長的一段國外科研經(jīng)歷便是曾到紐約大學(xué)訪問過兩個(gè)月,這其實(shí)算不了真正的國外科研經(jīng)歷,所以我自己也比較遺憾。此外,我的英文不夠好,也不是很有語言天賦的人,因此我認(rèn)為要想提高自己的英文能力,必須要在國外真正生活一段時(shí)間。
當(dāng)時(shí),都柏林城市大學(xué)和我此前一直有合作的一位老師那邊正好空出一個(gè)教授的崗位,他們通過獵頭找到我問我是否有興趣,我當(dāng)時(shí)也覺得這是一個(gè)比較好的機(jī)會。與此同時(shí),這段期間我正好拿到了一個(gè)比較大的項(xiàng)目,經(jīng)費(fèi)足以支撐團(tuán)隊(duì)至少兩三年的時(shí)間,所以當(dāng)時(shí)我就比較放心地將課題組的負(fù)責(zé)權(quán)交給了課題組的其他老師?!?/p>
基于這段從國內(nèi)到國外的任職經(jīng)歷,劉群教授也指出了相比于國外,國內(nèi)科研環(huán)境所存在的一些問題,包括:
第一是科研經(jīng)費(fèi)的管理問題。正如劉群教授在前面所提到的,經(jīng)費(fèi)壓力乃至生存壓力大的問題是國內(nèi)科研人員(特別是中科院的研究人員)面臨的一大難題,「這一問題近些年來可能有所好轉(zhuǎn),我不太了解現(xiàn)在的情況,但在我當(dāng)年是非常嚴(yán)重的問題。另外,我認(rèn)為國內(nèi)行政權(quán)力對科研經(jīng)費(fèi)的審批和管理的干預(yù)過大,也是一個(gè)比較嚴(yán)重的問題。而在這方面做得最好的應(yīng)該是自然科學(xué)基金,但是其他一些部門的科研經(jīng)費(fèi)審批和管理中,行政干預(yù)的力度都比較大,我認(rèn)為這是比較不好的一個(gè)方面?!?/p>
第二是博士導(dǎo)師資格問題?!竾飧咝J菦]有博士導(dǎo)師資格這一說的,只要老師本人具有博士學(xué)位,又有科研經(jīng)費(fèi),就可以招收博士生,然而在國內(nèi),很多優(yōu)秀的年輕老師因?yàn)闆]有導(dǎo)師資格而無法招收博士學(xué)生,而實(shí)際上剛博士畢業(yè)的年輕老師正處在處在學(xué)術(shù)生命力最旺盛的時(shí)期,然而他們沒有學(xué)生就無法很好的開展科研工作,這是國內(nèi)體制下的一個(gè)不那么合理的規(guī)定?!?/p>
第三是博士生待遇過低的問題。「國外的一個(gè)博士生一般情況下可以憑借他的工資養(yǎng)一個(gè)小家庭,然而國內(nèi)博士生的待遇連自身的基本生活都無法保障,又怎么讓他們安安心心地搞科研呢?」
第四是國內(nèi)科研環(huán)境整體比較浮躁的問題?!肝艺J(rèn)為相比于國外而言,國內(nèi)整體的科研環(huán)境還是有些浮躁和急功近利,具體表現(xiàn)在有很多人著急發(fā)論文,雖然表面上看上去做得很漂亮,但是深究下去會發(fā)現(xiàn)很多明顯的問題。就比如說我們在一些國際頂會上,中國學(xué)者發(fā)表的論文數(shù)量幾乎和美國差不多了,但是真正有影響力的、原創(chuàng)性的工作相對來說還比較少。不過針對這一點(diǎn)我也不想把問題說得太嚴(yán)重,因?yàn)閲鴥?nèi)科研正在高速發(fā)展,出現(xiàn)一點(diǎn)浮躁現(xiàn)象也在所難免,但希望這種情況在以后得以慢慢改善?!?/p>
在都柏林城市大學(xué)任職 6 年以后,劉群教授的研究生涯又迎來了第三個(gè)階段:加入華為,正式從學(xué)術(shù)界轉(zhuǎn)到工業(yè)界。
加入華為存在歷史淵源
2018 年 7 月,劉群教授加入華為,成為 AI 領(lǐng)域?qū)W者跨界工業(yè)界的又一大重磅消息。對此,劉群教授給出了 4 點(diǎn)原因:
第一,他自身在科研工作中就一直都非常重視應(yīng)用,「包括在培養(yǎng)學(xué)生過程中,我都非常強(qiáng)調(diào)應(yīng)用意識,雖然很多學(xué)生都會比較抗拒這一點(diǎn),我認(rèn)為這對于他們而言是好事而不是壞事,比如現(xiàn)在國內(nèi)幾個(gè)巨頭企業(yè)的機(jī)器翻譯研究基本都有我的學(xué)生擔(dān)任負(fù)責(zé)人?!?/p>
第二,現(xiàn)在的企業(yè)越來越注重學(xué)術(shù)性的研究,而不是做純應(yīng)用的研究,這就為學(xué)術(shù)界希望將研究成果付諸應(yīng)用但又不愿意做純應(yīng)用的學(xué)者提供了一個(gè)很好的機(jī)會,所以這一點(diǎn)對于劉群教授而言,同樣具有很大的吸引力;
第三,企業(yè)能提供高校所望塵莫及的數(shù)據(jù)、算力以及人才資源?!副热缯f人才,我在學(xué)校里面帶的學(xué)生是沒有什么經(jīng)驗(yàn)的,而企業(yè)中的人才實(shí)踐能力非常強(qiáng),很多我在學(xué)術(shù)界無法實(shí)現(xiàn)的大項(xiàng)目在企業(yè)這里都能夠?qū)崿F(xiàn)。」
第四,他加入工業(yè)界也有一些個(gè)人原因?!笇?shí)際上,我是一個(gè)非常愿意接受挑戰(zhàn)的人,而且我認(rèn)為一個(gè)人的一生要豐富多彩些,老是呆在一個(gè)地方可能會錯過很多此前沒見過的風(fēng)景?!?/p>
那為什么單單選擇加入華為呢?對于劉群教授給出的答案,我們可以用與華為的「惺惺相惜」來概括:
一方面是華為對于劉群教授本身的極大認(rèn)可?!肝腋A為之間有長期合作的歷史淵源。實(shí)際上我以前在計(jì)算所就跟華為有過合作,而且在我到愛爾蘭都柏林城市大學(xué)任職以后,華為依舊跑到愛爾蘭去繼續(xù)跟我合作。我在國內(nèi)任職的時(shí)候,跟我合作的單位也不少,但是我到愛爾蘭后還保持跟我合作、并一直持續(xù)合作這么久時(shí)間的,基本上也就數(shù)華為了。所以,經(jīng)過這么久時(shí)間的合作和互相了解,我很確定華為對于我個(gè)人能力以及研究方式的認(rèn)可?!?/p>
而另一方面,則是劉群教授對于華為在國際化和研究理念等方面的認(rèn)可。「首先,我認(rèn)為華為真的是一家國際化公司,而它的這種國際化都是靠自己一步步打下來的,既體現(xiàn)在業(yè)務(wù)布局的全球化,也體現(xiàn)在人才的國際化。其中,華為為了吸引和招攬全球當(dāng)?shù)貎?yōu)秀的科學(xué)家而直接將研究機(jī)構(gòu)建設(shè)到當(dāng)?shù)厝サ淖龇ê陀^念,我認(rèn)為非常有意思也非常先進(jìn)。現(xiàn)在有很多國內(nèi)企業(yè)也在國外建立研究機(jī)構(gòu),比如說百度和騰訊都在美國建立了當(dāng)?shù)氐难芯繖C(jī)構(gòu),但是鮮有公司像華為一樣,在歐洲、加拿大、俄羅斯等國家都設(shè)立當(dāng)?shù)匮芯繖C(jī)構(gòu)的。其次,華為對于基礎(chǔ)研究是非常重視的,也投入了非常多的資金去做基礎(chǔ)研究,當(dāng)然現(xiàn)在還不是那種純理論的基礎(chǔ)研究,但是相對于其他公司而言,華為在基礎(chǔ)研究的投入以及實(shí)力都是較高的?!?/p>
在加入華為之后,劉群教授在工作內(nèi)容和工作方式等方面無疑也會面臨著一些轉(zhuǎn)變,用他的話來說,便是挑戰(zhàn)與機(jī)遇并存。
挑戰(zhàn)主要體現(xiàn)在研究范圍和管理的團(tuán)隊(duì)規(guī)模都更大了?!肝以趯W(xué)術(shù)界主要是集中做機(jī)器翻譯,幾乎不會完全脫離機(jī)器翻譯這個(gè)研究領(lǐng)域,而我現(xiàn)在負(fù)責(zé)的語音語義實(shí)驗(yàn)室,除了機(jī)器翻譯以外,還涉及到在自然語言處理技術(shù)在工業(yè)界方方面面的應(yīng)用,包括語音、對話、問答等等。與此同時(shí),我目前領(lǐng)導(dǎo)的團(tuán)隊(duì)有 70 多個(gè)人,而我原來帶的團(tuán)隊(duì)最多的時(shí)候都不到 30 人。這是目前對于我而言,挑戰(zhàn)比較大的地方。」
而與之對應(yīng)的機(jī)遇則是,華為為其研究所提供的平臺支持。「原來我在學(xué)術(shù)界所無法實(shí)現(xiàn)的很多有趣的想法,在華為提供的算力、數(shù)據(jù)、研究隊(duì)伍等方面的支持下,我都能夠一一去嘗試。這是讓我感覺非常幸福的一件事。」
諾亞方舟實(shí)驗(yàn)室的整體布局和未來規(guī)劃
自 2012 年成立至今,華為諾亞方舟實(shí)驗(yàn)室一直以來都是一個(gè)相對低調(diào)的存在。在本次采訪中,劉群教授也跟我們聊了聊其負(fù)責(zé)的諾亞方舟語音語義實(shí)驗(yàn)室的整體布局以及未來規(guī)劃。
諾亞方舟語音語義實(shí)驗(yàn)室整體布局主要為三大塊:語音、對話和翻譯。而除此之外,現(xiàn)在實(shí)驗(yàn)室還有一個(gè)比較重要的研究方向——多模態(tài)。他指出,隨著深度學(xué)習(xí)等技術(shù)的引入,自然語言處理技術(shù)與計(jì)算機(jī)視覺等其他技術(shù)從完全隔離的狀態(tài)逐漸走向互相打通,多模態(tài)也從不可能走向易于實(shí)現(xiàn),并且未來還會有很大的研究空間,因而實(shí)驗(yàn)室對于該研究方向也非常重視。
而談到實(shí)驗(yàn)室未來的規(guī)劃,劉群教授表示,除了以上四個(gè)方向,他還在主導(dǎo)實(shí)驗(yàn)室抓另一研究方向,即語言模型。「它其實(shí)是自然語言處理的一項(xiàng)基礎(chǔ)技術(shù),針對這一研究方向,我們目前正在從事的一項(xiàng)具體的研究工作,叫做預(yù)訓(xùn)練語言模型,近期實(shí)驗(yàn)室也投入了很多的力量來深耕這個(gè)方向,因?yàn)槲覀兿M軌蛟谶@一非?;A(chǔ)的工具上占據(jù)先導(dǎo)地位?!?/p>
與此同時(shí),加強(qiáng)國際人才合作也是實(shí)驗(yàn)室在今后非常重視的一個(gè)方面?!冈诩夹g(shù)研發(fā)上,我們并不是任何事情都要自主去做,而是希望能夠借助外腦,跟世界上最好的研究者合作,然后對他們予以最大的支持去開展科研項(xiàng)目。」
針對國際合作,我們也聊到了當(dāng)下的中美摩擦是否會對華為的國際科研合作造成影響,劉群教授非??隙ǖ鼗卮穑翰粫?/strong>他表示,中美摩擦其實(shí)屬于特殊情況,包括美國在內(nèi)的世界范圍內(nèi)的絕大多數(shù)科學(xué)家其實(shí)都反對美國的這一行為,雖然現(xiàn)在中國和美國的科研合作出現(xiàn)一些問題,但中國與其他國家之間幾乎不會出現(xiàn)這種情況,因而當(dāng)前美國與華為的沖突會更多地影響到產(chǎn)品供貨方面,而科研方面的國際交流很大程度上都是通過公開發(fā)表學(xué)術(shù)論文和開放源代碼等形式進(jìn)行的,因此限制合作的影響相對來說小得多,幾乎不會影響甚至?xí)龠M(jìn)華為與美國以外地區(qū)的國際合作。
劉群教授作為自然語言處理領(lǐng)域的領(lǐng)先專家,AI 科技評論與他的對話自然免不了談到自然語言處理目前的發(fā)展現(xiàn)狀以及未來發(fā)展方向。
當(dāng)問及如何看待自然語言處理目前的發(fā)展現(xiàn)狀,劉群教授表示:超出預(yù)期。「我以前基于規(guī)則研究機(jī)器翻譯的時(shí)候,覺得有很多問題都太難了,有生之年都不一定能看到這些問題得以解決,但是現(xiàn)在,很多問題都被很好地解決了。因此以前一些我不敢去做的研究,比如說語義問題,我現(xiàn)在都可以考慮去做了?!?/p>
同時(shí),劉群教授還指出了近年來自然語言處理領(lǐng)域出現(xiàn)的兩大革命性成果:一個(gè)是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的出現(xiàn)變革了自然語言處理研究的范式,把自然語言處理問題的定義和求解從離散的符號域搬到了連續(xù)的數(shù)值域,導(dǎo)致整個(gè)問題的定義和所使用的數(shù)學(xué)工具與以前完全不同,使得該領(lǐng)域發(fā)生了極具革命性的變化;第二個(gè)是從去年開始出現(xiàn)的預(yù)訓(xùn)練語言模型,能夠一定程度上實(shí)現(xiàn)「一個(gè)模型包打天下」,能夠解決自然語言處理領(lǐng)域相關(guān)的所有問題,由此就克服了此前一個(gè)問題就要設(shè)計(jì)一套方法的難題,將該領(lǐng)域研究提升到了一個(gè)新的水平。
而關(guān)于自然語言處理未來的研究方向,劉群教授認(rèn)為語義問題是今后值得重點(diǎn)關(guān)注的研究方向。
他指出,語言問題一般分為兩類,一類是形式問題,一類是語義問題(即意義問題),目前神經(jīng)網(wǎng)絡(luò)能夠比較好地解決形式問題,但是語義問題還是一個(gè)待攻克的難題。而語義問題中最難的地方,實(shí)際上是對現(xiàn)實(shí)世界進(jìn)行建模,而現(xiàn)實(shí)世界有包括物理世界(客觀世界)和主觀世界。
以物理世界為例,其實(shí)我們用語言來描述一個(gè)物理世界是一種非常粗糙的建模,因此自然語言處理即便從語料庫中學(xué)到了某個(gè)東西的相關(guān)語言描述,但它依舊無法理解某個(gè)東西在物理世界中呈現(xiàn)的樣子。但人不一樣,我們每個(gè)人腦子里都有一個(gè)世界模型,根據(jù)一句話就能在腦海中想象出這句話在物理世界或主觀世界中的呈現(xiàn)面貌。
對現(xiàn)實(shí)世界建模在具體的自然語言處理研究方向上,包括兩個(gè)部分:一是讓自然語言處理研究與知識圖譜結(jié)合,嘗試圖神經(jīng)網(wǎng)絡(luò)、概率圖模型等新的研究方向,將圖與語言結(jié)合起來研究;二是在自然語言處理研究中結(jié)合多模態(tài),實(shí)現(xiàn)語言、視覺等多種模態(tài)的互通。
「目前我的很多研究工作都在往這個(gè)方向走,也認(rèn)為未來幾年會有一些成果出來,但是這一研究方向具體的實(shí)現(xiàn)程度以及何時(shí)能夠達(dá)到一個(gè)理想的狀態(tài),我目前還不敢說,因?yàn)槲夷壳斑€很難想象到一個(gè)機(jī)器能夠完全跟人一樣,對現(xiàn)實(shí)世界中的萬事萬物都有一個(gè)認(rèn)知和理解?!?/p>
無論是作為一位科學(xué)家在自然語言處理領(lǐng)域的研究工作上,還是作為一位教育者在培育人才方面,劉群教授都可以說是結(jié)出了累累碩果,對于后輩研究者,能從他身上借鑒的經(jīng)驗(yàn)自然很多,其中非常重要的一點(diǎn)便是從研究問題出發(fā)、熱于擁抱新技術(shù)的科研品質(zhì),而這一點(diǎn)更是劉群教授一直堅(jiān)持的一套研究方法論。
「一方面,一直以來我做研究的一個(gè)特點(diǎn)就是從問題出發(fā),這跟很多研究者強(qiáng)調(diào)方法的研究思路不一樣,因此在研究工作中,我最大的目標(biāo)就是解決問題,而不在乎用什么方法,這也讓我形成了一個(gè)很好的心態(tài),就是非常愿意擁抱新技術(shù),比如我一開始用規(guī)則方法在機(jī)器翻譯領(lǐng)域深耕,發(fā)現(xiàn)統(tǒng)計(jì)方法的優(yōu)勢后,我很快就轉(zhuǎn)向統(tǒng)計(jì)方法,后來神經(jīng)網(wǎng)絡(luò)方法出現(xiàn)后,為機(jī)器翻譯提供了全新的視角和可能性,我又轉(zhuǎn)到神經(jīng)網(wǎng)絡(luò)方法來研究機(jī)器翻譯。無論是從規(guī)則方法轉(zhuǎn)到統(tǒng)計(jì)方法,還是從統(tǒng)計(jì)方法轉(zhuǎn)到神經(jīng)網(wǎng)絡(luò)方法,都是研究方法上的巨大變化,在早期新的研究方法效果還不是很明朗的時(shí)候,這種轉(zhuǎn)移是比較困難,而且需要冒較大風(fēng)險(xiǎn)的。但我總是能夠比較敏銳地意識到這種新方法在解決問題上的優(yōu)勢,從而比較早地實(shí)現(xiàn)這種轉(zhuǎn)移,因此也能較早地做出一些有影響力的成果。
另一方面,我從來不去做填坑式的研究。所謂填坑式的研究,就是一旦機(jī)器學(xué)習(xí)領(lǐng)域提出一種新的方法,總有人很快把這種新方法在各種 NLP 問題上都刷一遍,然后宣稱自己是第一個(gè)用某種方法來解決某個(gè)問題的人。我的研究都有比較強(qiáng)烈的問題背景,目的是為了解決某個(gè)具體問題,有比較明確的 insight,而不是為了采用某種方法去做一個(gè)研究。在我看來,只要能解決問題,不管采用什么方法,不管采用的方法是否時(shí)髦,都是好的研究。」
與此同時(shí),基于目前國內(nèi)整體較為浮躁的科研現(xiàn)狀,劉群教授也特別針對后輩研究者強(qiáng)調(diào)了一點(diǎn):切勿急于求成!
「現(xiàn)在有些學(xué)生都在急著提出一個(gè)新的想法,然而這些想法實(shí)際上并沒有什么影響力,就算發(fā)表了論文也沒有什么太大的意義。相比之下,一些雖小但存在實(shí)際價(jià)值的想法反而以后可能成為重要、有影響力的研究方向,這是很難說的的。所以我建議他們還是要多去看看問題,而不是一開始就著急去看一大堆論文,在沒有抓住問題的本質(zhì)的情況下就去嘗試去提出新的東西。」
針對劉群教授本次獲得 ACL 2019 最佳長論文獎這一重磅獎項(xiàng),AI 科技評論也第一時(shí)間向劉群教授表示了祝賀,并邀請他為大家分享了獲獎感言:
這次獲獎我們感到非常榮幸,感謝大會對我們工作的高度認(rèn)可。這篇論文的主要工作是對神經(jīng)機(jī)器翻譯中長久以來一直存在的暴露偏差問題提出了一種有效的解決辦法。
論文的第一作者是我在中科院計(jì)算所的博士生張文,他今年剛剛通過博士答辯,這個(gè)工作是他的博士論文工作之一。說實(shí)話,張文同學(xué)入學(xué)時(shí)的基礎(chǔ)并不很強(qiáng),不過通過他在讀博這些年的刻苦努力,研究能力和學(xué)術(shù)水平都有了大幅度提高,近兩年來發(fā)表了多篇高水平的學(xué)術(shù)論文,這次獲獎也是實(shí)至名歸。
論文的第二作者馮洋老師,是現(xiàn)在中科院計(jì)算所自然語言處理研究組組長,也就是我原來的計(jì)算所課題組如今的負(fù)責(zé)人,她對這篇論文也付出了大量的心血。而馮洋老師原來也是我的博士生,她博士畢業(yè)后在英國、美國做過多年博士后研究,后來回國又分別在百度公司和清華大學(xué)各工作過一段時(shí)間,在學(xué)術(shù)界和企業(yè)界都有豐富的研究經(jīng)歷,此外她也在 ACL、EMNLP 等頂級會議上發(fā)表過很多篇高水平論文。此次獲獎更是對她的研究水平和團(tuán)隊(duì)領(lǐng)導(dǎo)能力的有力證明。
非常感謝張文同學(xué)和馮洋老師,也感謝其他合作者。
與此同時(shí),我也非常高興看到我原來的課題組在馮洋老師帶領(lǐng)下能夠再次取得這樣出色的成績。而諾亞方舟實(shí)驗(yàn)室目前也正在跟馮洋老師啟動一個(gè)合作項(xiàng)目,并期待與計(jì)算所的合作能夠取得更豐碩的成果。
(完) 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。