0
本文作者: 奕欣 | 2018-06-15 16:37 |
5 月 23 日,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室自然語(yǔ)言理解研究組在杭州舉行了阿里巴巴自然語(yǔ)言處理學(xué)術(shù)高級(jí)研討會(huì),共有近 30 位來(lái)自全國(guó)各高校機(jī)構(gòu)的學(xué)者嘉賓及 8 位阿里巴巴集團(tuán)參會(huì)代表蒞臨出席,并進(jìn)行了為期一天的學(xué)術(shù)分享。
本次會(huì)議旨在搭建高校學(xué)術(shù)與企業(yè)實(shí)踐的交流平臺(tái),增進(jìn)校企合作,創(chuàng)新自然語(yǔ)言處理新技術(shù)。本次會(huì)議邀請(qǐng)了多位高校教授分享其在 NLP 領(lǐng)域的工作和成果,與此同時(shí),阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室自然語(yǔ)言理解研究組成員也分享了他們?cè)谧匀徽Z(yǔ)言基礎(chǔ)研究、機(jī)器翻譯等多方面的研究進(jìn)展。
阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室自然語(yǔ)言理解研究組在雷鋒網(wǎng)學(xué)術(shù)頻道AI科技評(píng)論旗下數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」中有突出表現(xiàn),憑借刷新 SQuAD 紀(jì)錄獲得加分。
以下是雷鋒網(wǎng) AI 科技評(píng)論根據(jù)現(xiàn)場(chǎng)實(shí)錄整理的演講內(nèi)容。
研討會(huì)伊始,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室主任金榕博士及自然語(yǔ)言理解研究組首席科學(xué)家司羅博士分別做了開場(chǎng)致辭。
金榕博士表示,在十幾年前,做翻譯更多的是一種「探索型」的東西,很難想像它在今天會(huì)發(fā)展到這樣的壯大規(guī)模;「可能很多人覺(jué)得阿里巴巴更多是一個(gè)電商企業(yè),所以像推薦、搜索等功能是它最主要的事情,但是以今天阿里業(yè)務(wù)的形態(tài)來(lái)看,翻譯成為非常重要的方向?!苟痖挪┦恳脖硎?,阿里也希望翻譯在電商領(lǐng)域的價(jià)值同樣能遷移到日常生活當(dāng)中。
而司羅博士則結(jié)合他曾經(jīng)的學(xué)術(shù)界研究經(jīng)歷和如今在阿里巴巴的研究經(jīng)歷,分享了他的心得體會(huì)。「只有自然語(yǔ)言處理達(dá)成真正的突破,我覺(jué)得我們才能更進(jìn)一步創(chuàng)造更多的智能,創(chuàng)造更多的機(jī)會(huì)?!笰liNLP 平臺(tái)支持著阿里關(guān)于自然語(yǔ)言處理方方面面的需求,包括機(jī)器翻譯和多語(yǔ)言處理場(chǎng)景,在司羅博士的理解里,他認(rèn)為阿里提供的 AliNLP 平臺(tái)是「世界上自然語(yǔ)言處理領(lǐng)域最有價(jià)值的舞臺(tái)」。其次,司羅博士也提及了技術(shù)的開放業(yè)態(tài),通過(guò)阿里云等多種手段對(duì)外輸出阿里的技術(shù),做「普惠的自然語(yǔ)言技術(shù)的發(fā)明」。最后,司羅博士也強(qiáng)調(diào)了「腳踏實(shí)地」這個(gè)關(guān)鍵詞?!肝覀兿M鲆恍┳屪訉O后代記住我們的事情,能夠?qū)?lái)的孫子吹牛的事情。我們特別希望做有挑戰(zhàn)性、創(chuàng)新性的技術(shù)工作。」因此,他也向在場(chǎng)的嘉賓們倡議一同推進(jìn)技術(shù)的學(xué)以致用,為人類創(chuàng)造更美好的價(jià)值與更美好的未來(lái)。
隨后,蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院張民教授也作為嘉賓代表致辭。在過(guò)去的一年里,蘇州大學(xué)與阿里巴巴保持密切合作并取得優(yōu)秀成果。張民教授在致以謝意的同時(shí),也提及整個(gè)行業(yè)處在一個(gè)「好的時(shí)機(jī)」,即產(chǎn)業(yè)化的需求已經(jīng)成為時(shí)代的必然。此外,張民教授也指出情感、認(rèn)知、理解仍然是亟待解決的問(wèn)題,用微軟的話講是「得語(yǔ)言者得天下」,或者說(shuō),自然語(yǔ)言處理是人工智能皇冠上的一顆明珠。因此,阿里巴巴與高校的密切合作,不僅是企業(yè)的幸運(yùn),也是教師與個(gè)人于這個(gè)時(shí)代的幸運(yùn)。
在上午場(chǎng)的分享中,五位高校老師分享了他們?cè)诟髯匝芯孔匀徽Z(yǔ)言處理過(guò)程中的成果。
來(lái)自蘇州大學(xué)的陳文亮首先介紹了成立 30 年的蘇州大學(xué)自然語(yǔ)言處理團(tuán)隊(duì),該團(tuán)隊(duì)目前在信息檢索、篇章分析、信息抽取、情感分析、機(jī)器翻譯及知識(shí)圖譜等六大研究領(lǐng)域都有著深厚的學(xué)術(shù)積累。
隨后,陳文亮分享了團(tuán)隊(duì)與阿里不同團(tuán)隊(duì)的合作項(xiàng)目,結(jié)合在電商平臺(tái)業(yè)務(wù)需求中所產(chǎn)生的自然語(yǔ)言處理實(shí)際問(wèn)題,并開展創(chuàng)新性前沿應(yīng)用技術(shù)研究和開發(fā),研究如何利用大規(guī)模多領(lǐng)域跨語(yǔ)言無(wú)標(biāo)注語(yǔ)料資源,并提高自然語(yǔ)言處理任務(wù)的準(zhǔn)確率和魯棒性?;谝来婢浞鋷?kù)構(gòu)建和分析模型、面向單產(chǎn)品問(wèn)答文本的情感分析方法研究、面向知識(shí)圖譜構(gòu)建的文本挖掘算法研究和面向神經(jīng)機(jī)器翻譯的干預(yù)技術(shù)研究等四個(gè)領(lǐng)域,蘇州大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)分別在 IJCNLP-2017、IJCAI-2018 和 AAAI-2018 等國(guó)際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表了相關(guān)工作。
趙東巖 - 基于知識(shí)圖譜的文本語(yǔ)義理解及其智能應(yīng)用
北京大學(xué)計(jì)算機(jī)研究所的趙東巖首先從類人智能研究動(dòng)態(tài)入手,介紹了文本語(yǔ)義理解技術(shù)的相關(guān)背景,并從語(yǔ)義挖掘、語(yǔ)義理解、對(duì)話系統(tǒng)三個(gè)研究方向介紹了相關(guān)技術(shù)研究。
在語(yǔ)義挖掘領(lǐng)域,趙東巖團(tuán)隊(duì)已經(jīng)構(gòu)建了超過(guò) 1300 萬(wàn)條 RDF 知識(shí)條目、80 萬(wàn)實(shí)體的中文知識(shí)圖譜,并支持動(dòng)態(tài)構(gòu)建、置信度評(píng)價(jià)、自然語(yǔ)言問(wèn)答等。
在語(yǔ)義理解領(lǐng)域,團(tuán)隊(duì)構(gòu)建了基于圖結(jié)構(gòu)的大規(guī)模 RDF 語(yǔ)義網(wǎng)絡(luò)存儲(chǔ)與查詢系統(tǒng),搜狗知立方 10 億條知識(shí)圖譜實(shí)測(cè)的平均查詢時(shí)間為 400ms。
在對(duì)話系統(tǒng)領(lǐng)域,比較成熟的檢索式對(duì)話技術(shù)通過(guò)從大量對(duì)話數(shù)據(jù)庫(kù)中搜索候選回答,并將用戶問(wèn)題進(jìn)行結(jié)構(gòu)化,通過(guò)深度神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)候選回答進(jìn)行排序,得到最優(yōu)回答。
此外在語(yǔ)義引擎、對(duì)話機(jī)器人等方面,語(yǔ)義理解也有著多種技術(shù)應(yīng)用,如理財(cái)顧問(wèn)機(jī)器人、法律助理機(jī)器人等。
復(fù)旦大學(xué)的邱錫鵬首先回顧了 NLP 的發(fā)展歷程,并引出深度學(xué)習(xí)在自然語(yǔ)言處理中的「尷尬」地位主要有兩個(gè)方面。一是 NLP 任務(wù)中的神經(jīng)網(wǎng)絡(luò)并不深,多數(shù)情況下,一層 LSTM 加 attention 機(jī)制就足夠解決問(wèn)題;二是深度學(xué)習(xí)面臨數(shù)據(jù)標(biāo)注需求量大與代價(jià)高之間的矛盾。邱錫鵬指出在數(shù)據(jù)量小的情況下,可以采用多任務(wù)學(xué)習(xí)來(lái)聯(lián)合訓(xùn)練多個(gè)不同任務(wù),通過(guò)找到共性以相互提高,深度學(xué)習(xí)也為多任務(wù)學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用提供了條件,具體的結(jié)合形式包括硬共享模式,軟共享模式,以及共享-私有模式等。不過(guò)邱錫鵬也指出,在多領(lǐng)域任務(wù)、多級(jí)任務(wù)及多語(yǔ)言任務(wù)上,多任務(wù)學(xué)習(xí)仍然面臨不同層面的挑戰(zhàn)。
新加坡管理大學(xué)的蔣靜圍繞團(tuán)隊(duì)提出的 Match-LSTM 模型分享了這一算法在自然語(yǔ)言推理和機(jī)器閱讀理解上的應(yīng)用。該模型改進(jìn)了 Rocktaschel et al. (2015) 提出的基于 word-by-word attention 的模型,在解決文本蘊(yùn)含任務(wù)中取得提升,在 SQuAD 數(shù)據(jù)集中取得了最好效果。通過(guò)給定前提 (premise) 去判斷相應(yīng)的假說(shuō) (hypothesis) 是否正確,是則判斷為蘊(yùn)含 (entailment),否則為矛盾 (contradiction)。
推薦系統(tǒng)在傳統(tǒng)建模中通常采用基于矩陣分解的打分預(yù)測(cè)。南京大學(xué)的戴新宇在分享中指出,這一模型面臨冷啟動(dòng)與矩陣稀疏的兩大問(wèn)題。以社交關(guān)系數(shù)據(jù)、商品的評(píng)論數(shù)據(jù)為代表的異質(zhì)數(shù)據(jù)能夠幫助解決上述問(wèn)題。戴新宇介紹了如何設(shè)計(jì)一個(gè)模型來(lái)融合評(píng)論做基于隱式反饋的排序推薦,以及如何將神經(jīng)網(wǎng)絡(luò)的方法融入到推薦系統(tǒng)中。
下午場(chǎng)中,首先由阿里巴巴自然語(yǔ)言處理相關(guān)技術(shù)團(tuán)隊(duì)代表分享阿里介紹在研究當(dāng)中和工作當(dāng)中的一些挑戰(zhàn)及相應(yīng)成果。隨后由兩名來(lái)自高校的老師分享了他們?cè)谙嚓P(guān)學(xué)術(shù)研究工作的一些心得體會(huì)。
阿里集團(tuán)都談使命,阿里巴巴的使命是「讓天下沒(méi)有難做的生意」,阿里翻譯平臺(tái)的使命是「讓商業(yè)沒(méi)有語(yǔ)言障礙」。
秉承這一使命,阿里翻譯平臺(tái)的翻譯總量已經(jīng)達(dá)到每日 7.5 億次,每天翻譯的詞語(yǔ)數(shù)高達(dá) 2600 億。不過(guò),據(jù)陳博興表示,目前電商翻譯仍存在包括翻譯質(zhì)量、翻譯速度及服務(wù)質(zhì)量等多重問(wèn)題。為解決上述問(wèn)題,阿里翻譯平臺(tái)收集和構(gòu)建了大量的電商領(lǐng)域的平行語(yǔ)料和知識(shí)庫(kù),并結(jié)合不同業(yè)務(wù)場(chǎng)景有的放矢,設(shè)計(jì)了基于規(guī)則的翻譯模塊(Rule Based Machine Translation,RBMT),基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型(Statistical Machine Translation,SMT)和基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型(Neural Machine Translation,NMT)等。最后陳博興總結(jié)道,翻譯的準(zhǔn)確性、靈活性、可用性及穩(wěn)定性一直都是機(jī)器翻譯系統(tǒng)的重要標(biāo)準(zhǔn)。雖然目前機(jī)器翻譯的效果并不算盡善盡美,但它在一些場(chǎng)景中能提供巨大的商業(yè)價(jià)值。
圍繞阿里巴巴 NLP 基礎(chǔ)技術(shù)體系平臺(tái) AliNLP,李林琳介紹了平臺(tái)在分詞、語(yǔ)法錯(cuò)誤檢測(cè)、垂直知識(shí)庫(kù)、文本糾錯(cuò)解決方案、國(guó)際化業(yè)務(wù)、搜索方案等多個(gè)領(lǐng)域的探索和嘗試,目前在搜索推薦、廣告、金融、客服、娛樂(lè)、安全等業(yè)務(wù)場(chǎng)景廣泛使用,支持阿里云城市大腦、醫(yī)療大腦等產(chǎn)業(yè)創(chuàng)新,同時(shí)全面覆蓋 Alibaba.com, AliExpress, Lazada 國(guó)際化業(yè)務(wù)。
對(duì)于一個(gè)擁有海量多維數(shù)據(jù)的企業(yè),阿里 MIT 在文本挖掘上也做出了不少嘗試。劉曉鐘在分享中介紹了團(tuán)隊(duì)在智能司法、輿論分析、文本生成、反垃圾、個(gè)性化推薦、事件挖掘等多領(lǐng)域的探索及實(shí)踐應(yīng)用。通過(guò)用戶行為數(shù)據(jù)更好地理解用戶,抽取重要的用戶變量,代入文本挖掘的算法,進(jìn)而提升算法準(zhǔn)確度,阿里巴巴希望「天下沒(méi)有難做的生意」。在最后,劉曉鐘也提出了一些感興趣的研究方向,邀請(qǐng)各位老師一同與阿里合作。
我們是 NLP 的團(tuán)隊(duì),但是我們的研究并不僅僅指 NLP,我們特別期待的事情是把 NLP 做成算法,但我們會(huì)更多加入 User 的成分,User 的部分是我今天希望推薦給大家的,希望老師跟我們的合作。
清華大學(xué)劉奕群分享了清華大學(xué)在 NLP 領(lǐng)域所取得的成績(jī)。隨后,他介紹了異質(zhì)環(huán)境下的用戶交互行為模型的構(gòu)建,包括搜索、native、信息流場(chǎng)景下的交互。異質(zhì)化的呈現(xiàn)方式很多,信息源的來(lái)源多樣化,嘗試使用用戶感知的方法收集行為數(shù)據(jù),利用這些數(shù)據(jù)進(jìn)行建模,可以利用這些模型來(lái)預(yù)測(cè)用戶可能注意的內(nèi)容,估測(cè)用戶的注意力。搜索結(jié)果資源的聚合排序,通過(guò)大量的搜索結(jié)果和文本結(jié)果和在一起,給出一個(gè)最優(yōu)的排序。此外,團(tuán)隊(duì)也探索了在點(diǎn)擊行為之外,融合視覺(jué)特征、結(jié)構(gòu)化特征等各種不同的表示方式,并使用深度學(xué)習(xí)的方法進(jìn)行排序,以獲得更優(yōu)解。關(guān)于性能評(píng)價(jià)、欺詐檢測(cè)和 CQA 作弊行為,劉奕群也分享了團(tuán)隊(duì)所做的一些工作。
哈爾濱工業(yè)大學(xué) 楊沐昀
哈爾濱工業(yè)大學(xué)的趙鐵軍老師和楊沐昀老師從機(jī)器翻譯模型的改進(jìn)和機(jī)器翻譯譯文的后優(yōu)化兩方面進(jìn)行分享。前者主要圍繞局部上下文增強(qiáng)詞匯表示及句法導(dǎo)向的注意力機(jī)制;后者則主要圍繞基于實(shí)例的翻譯一致性優(yōu)化及基于偽反饋的編輯一致性優(yōu)化進(jìn)行分享。圍繞 MI&T Lab 機(jī)器翻譯研究,團(tuán)隊(duì)將「語(yǔ)義為核心,句法篇章為兩翼,認(rèn)知為前沿」作為基礎(chǔ)理論,基于平行語(yǔ)料庫(kù) NMT、基于非平行語(yǔ)料庫(kù)的無(wú)指導(dǎo) NMT 還有基于個(gè)人語(yǔ)料的機(jī)器翻譯后優(yōu)化為關(guān)鍵技術(shù),在個(gè)性化檢索、知識(shí)圖譜、對(duì)話系統(tǒng)等領(lǐng)域做落地嘗試,并應(yīng)用于健康信息等垂直領(lǐng)域。
在最后,阿里巴巴集團(tuán)機(jī)器智能技術(shù)實(shí)驗(yàn)室的駱衛(wèi)華老師與黃非老師對(duì)本次研討會(huì)進(jìn)行了總結(jié)。二位老師首先感謝諸位與會(huì)嘉賓遠(yuǎn)道而來(lái)參加研討會(huì)。
駱衛(wèi)華表示,這是阿里 NLP 團(tuán)隊(duì)首次組織相關(guān)的研討會(huì),也希望未來(lái)能與大家多做交流。他認(rèn)為本次研討會(huì)的主要作用有兩個(gè)方面。
首先是思維碰撞。駱衛(wèi)華希望這些阿里與學(xué)術(shù)界、學(xué)術(shù)界內(nèi)部的合作課題探討,能給與會(huì)嘉賓們有所啟發(fā):「我覺(jué)得一個(gè)真正好的會(huì)議并不是(在會(huì)上)解決多少問(wèn)題,而是大家能碰撞出來(lái)一些有價(jià)值的、新的問(wèn)題?!?/p>
其次是構(gòu)建合作橋梁。在研討會(huì)的分享之下,阿里巴巴也希望能將可能有的一些合作點(diǎn)串聯(lián)、嫁接起來(lái),促進(jìn)多方合作。
「工業(yè)界和學(xué)術(shù)界各有各的優(yōu)勢(shì)和分工,我們也希望能夠把大家的優(yōu)勢(shì)結(jié)合起來(lái),把各自在各自方向做好事情的能力結(jié)合起來(lái),能夠推動(dòng)這個(gè)技術(shù)領(lǐng)域更快地發(fā)展,能夠解決長(zhǎng)期以來(lái)懸而未決沒(méi)有解決的事情。」
黃非老師非常贊同駱衛(wèi)華老師的觀點(diǎn),他表示自己在會(huì)上受益匪淺。通過(guò)阿里的工作介紹,他希望嘉賓們能借這個(gè)機(jī)會(huì)了解到自然語(yǔ)言處理,特別是多語(yǔ)言自然語(yǔ)言處理的機(jī)器翻譯在阿里的重要戰(zhàn)略地位,特別是在阿里國(guó)際化中起到的技術(shù)作用。
「在這樣的場(chǎng)景下,我認(rèn)為學(xué)術(shù)界的老師和工業(yè)界的研究者有很大的研究機(jī)會(huì)和互補(bǔ)的機(jī)會(huì)。工業(yè)研究中會(huì)提出一些新的問(wèn)題,對(duì)學(xué)術(shù)應(yīng)用會(huì)有促進(jìn);同時(shí)各位老師在學(xué)術(shù)界的深厚積累,對(duì)阿里的技術(shù)推進(jìn)也有很大的幫助?!?/p>
我們也相信,阿里 NLP 團(tuán)隊(duì)將在未來(lái)舉辦更多與自然語(yǔ)言處理相關(guān)的研討會(huì),在研究與實(shí)踐中不斷帶動(dòng)學(xué)界與業(yè)界的交流與融合。更多資訊敬請(qǐng)關(guān)注雷鋒網(wǎng)AI科技評(píng)論。
附阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室自然語(yǔ)言理解研究組團(tuán)隊(duì)簡(jiǎn)介:
阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室自然語(yǔ)言理解研究組團(tuán)隊(duì)致力與學(xué)術(shù)界、產(chǎn)業(yè)界一起創(chuàng)新自然語(yǔ)言技術(shù)。團(tuán)隊(duì)成員普遍擁有 10 年以上自然語(yǔ)言處理研發(fā)經(jīng)驗(yàn),分布在中國(guó)、美國(guó)、新加坡的近百位研究員,30% 以上擁有博士學(xué)歷(如 CMU、伯克利、普林斯頓、清華、北大等),其中包括前國(guó)際知名院校終身教授、知名研究所研究員等。團(tuán)隊(duì)及成員多次在國(guó)際自然語(yǔ)言技術(shù)競(jìng)賽中取得冠軍成績(jī) (2016 年 CIKM Cup 電商搜索,2017 年 IJCNLP 語(yǔ)法糾錯(cuò),2017 年美國(guó)標(biāo)準(zhǔn)計(jì)量局信息提取,2017 年 WMT 俄語(yǔ)到英語(yǔ)等),在歷年頂級(jí)國(guó)際會(huì)議上 (ACL,AAAI,SIGIR,CIKM) 均有學(xué)術(shù)論文及報(bào)告產(chǎn)出。
團(tuán)隊(duì)主要從事自然語(yǔ)言基礎(chǔ)技術(shù),機(jī)器翻譯,文本挖掘,語(yǔ)義計(jì)算,文本搜索和推薦等方向的研究,致力于構(gòu)建阿里巴巴自然語(yǔ)言技術(shù)體系,支撐阿里巴巴經(jīng)濟(jì)體語(yǔ)言智能技術(shù)和應(yīng)用,秉持「讓商業(yè)沒(méi)有語(yǔ)言障礙」的使命理念,賦能阿里巴巴合作者,發(fā)展普惠自然語(yǔ)言智能技術(shù)。
創(chuàng)新自然語(yǔ)言技術(shù),探索未來(lái)智能。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。