0
本文作者: 奕欣 | 2018-02-04 10:50 |
雷鋒網(wǎng) AI 科技評論按:在 EmTech China 峰會上,微軟亞洲研究院副院長周明博士圍繞自然語言四個方面的進(jìn)展,結(jié)合 MSRA 在自然語言上的一系列研究成果做了介紹,雷鋒網(wǎng) AI 科技評論根據(jù)速記整理如下:
人工智能最重要的分支就是自然語言的理解與處理,即語言智能,通過對詞、句子、篇章進(jìn)行分析,對內(nèi)容里面的人物、時間、地點等進(jìn)行理解,然后在此基礎(chǔ)上,去支持一系列核心技術(shù),比如跨語言的翻譯、問答系統(tǒng)、閱讀理解、知識圖譜等技術(shù),基于這些技術(shù),又可以把它應(yīng)用到其它應(yīng)用領(lǐng)域,比如說搜索引擎、客服、金融、新聞等等領(lǐng)域??傊?,就是通過對語言的理解,實現(xiàn)人跟電腦的直接交流,從而實現(xiàn)人跟人更加有效地交流。自然語言技術(shù)不是一個獨立的技術(shù),其受云計算、大數(shù)據(jù)、機器學(xué)習(xí)、知識圖譜等等各個方面的支撐。
接下來將從四個方面介紹自然語言的進(jìn)展,即神經(jīng)機器翻譯、聊天機器人、閱讀理解及機器創(chuàng)作。
神經(jīng)機器翻譯就是模擬人腦的翻譯過程,人在翻譯的時候,首先是理解這句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉(zhuǎn)化到另一種語言。
神經(jīng)機器翻譯有兩個模塊,一個是編碼模塊,把輸入的源語言變成一個中間的語義表示,用一系列的機器的內(nèi)部狀態(tài)來代表,另一個模塊是解碼模塊,根據(jù)語義分析的結(jié)果,逐詞生成目標(biāo)語言。
神經(jīng)機器翻譯在這幾年發(fā)展非常迅速,2017 年的研究熱度更是一發(fā)不可收拾,現(xiàn)在神經(jīng)機器翻譯已經(jīng)取代了統(tǒng)計機器翻譯,成為機器翻譯的主流技術(shù)。目前有統(tǒng)計數(shù)據(jù)表明,在一些傳統(tǒng)的統(tǒng)計機器翻譯難以完成的任務(wù)上,神經(jīng)機器翻譯的性能遠(yuǎn)遠(yuǎn)超過了統(tǒng)計機器翻譯,而且跟人的標(biāo)準(zhǔn)答案非常接近,甚至說是相仿的水平。圍繞著神經(jīng)機器翻譯,研究者們已做了很多的工作,比如如何提升訓(xùn)練的效率,如何提升編碼和解碼的能力。還有一個重要的研究問題就是數(shù)據(jù)問題,神經(jīng)機器翻譯依賴于雙語對照的大規(guī)模的數(shù)據(jù)集來訓(xùn)練,端到端地訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),這涉及很多語音段和很多的垂直領(lǐng)域,但我們實際上并沒有那么多的數(shù)據(jù),我們只有小量的雙語數(shù)據(jù)和大量的單語數(shù)據(jù)。
所以,我們就提出了半監(jiān)督的聯(lián)合垂直模型,已知一個雙語推導(dǎo)語料,分別對之訓(xùn)練,從而達(dá)到中英翻譯系統(tǒng)與英中翻譯系統(tǒng)的相互促進(jìn),比如拿中英翻譯系統(tǒng)去翻中文的語料,形成很多偽的中英對照語料,然后把這個語料去加到英中翻譯里面去。同樣,用英中翻譯系統(tǒng)去翻譯大量的英文語料,然后把這個語料加到中英翻譯里面,這樣經(jīng)過多次迭代之后,翻譯水平大幅度提升。
微軟現(xiàn)在已經(jīng)全面采用神經(jīng)機器翻譯,最近還跟華為的 Mate10 手機合作,得到了神經(jīng)機器翻譯類似于在云上的效果。
第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產(chǎn)生比較符合人的想法,以及符合當(dāng)前上下文的回復(fù),再根據(jù)人與機器各自的回復(fù)將話題進(jìn)行下去。微軟小冰就是這樣的一個聊天機器人?;诋?dāng)前的輸入信息,再加上對話的情感,以及用戶的畫像,經(jīng)過一個類似于神經(jīng)機器翻譯的解碼模型生成回復(fù),可以達(dá)到上下文相關(guān)、領(lǐng)域相關(guān)、話題有關(guān),而且是針對用戶特點的個性化的回復(fù)。
這樣的技術(shù)已經(jīng)應(yīng)用到微軟的很多產(chǎn)品里,比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進(jìn)行自然人機交互的 Cortana、可以在敦煌回答游客問題的敦煌小冰。
下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學(xué)曾做過一個比較有名的實驗,就是使用維基百科的文章提出 5 個問題,由人把答案做出來,然后把數(shù)據(jù)分成訓(xùn)練集和測試集,訓(xùn)練集是公開的,用來訓(xùn)練閱讀理解系統(tǒng),而測試集不公開,個人把訓(xùn)練結(jié)果上傳給斯坦福,斯坦福在其云端運行,再把結(jié)果報在網(wǎng)站上,這也避免了一些人對測試集做手腳。閱讀理解技術(shù),自 2016 年 9 月前后發(fā)布,就引起了很多研究單位的關(guān)注,大概有二三十家單位都在做這樣的研究,一開始的水平都不是很高,以 100 分為例,人的水平是 82.3 左右,機器的水平只有 74 分,相差甚遠(yuǎn),后來通過類似于開源社區(qū)模式的不斷改進(jìn),它的性能就得以逐步地提高了。
最近在閱讀理解領(lǐng)域出現(xiàn)的一個備受關(guān)注的問題,就是如何才能做到超越人的標(biāo)注水平?,F(xiàn)在微軟、阿里巴巴、科大訊飛和哈工大的系統(tǒng),都超越了人工的標(biāo)注水平,這標(biāo)志著閱讀理解技術(shù)進(jìn)入了一個新的階段。這幾個系統(tǒng)都來自中國,也體現(xiàn)中國在自然語言處理的進(jìn)步。
一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 來實現(xiàn),然后用特定路徑來找出潛在答案,基于這個答案再篩選出最優(yōu)的答案,最后確定這個答案的邊界。在做閱讀理解的時候,是用到了外部的知識,可以用大規(guī)模的語料來訓(xùn)練外部的知識,通過外部知識訓(xùn)練的 RNN 模型,加入到原來端到端的訓(xùn)練結(jié)果中,以此來大幅度地提高閱讀理解的能力。
最后介紹機器創(chuàng)作,機器可以做很多理性的東西,那么它可以做一些創(chuàng)造性的東西嗎?10 年以前,我們就開始做微軟對聯(lián),在此基礎(chǔ)上,創(chuàng)作絕句、律詩、唐詩宋詞等等,現(xiàn)在進(jìn)行寫歌譜曲。在微軟對聯(lián)里,用戶輸入上聯(lián),系統(tǒng)就可以對出下聯(lián),也可以給出橫批;在字謎游戲里,用戶給出謎面,讓系統(tǒng)猜出字;或系統(tǒng)給出謎面讓用戶猜出字。
我們的編碼解碼技術(shù)已經(jīng)成功用于神經(jīng)網(wǎng)絡(luò)機器翻譯、小冰機器人和詞曲創(chuàng)作中。中央電視臺《機智過人》節(jié)目就曾播過我們的小冰與人類選手進(jìn)行詞曲創(chuàng)作比拼的環(huán)節(jié),結(jié)果是小冰險勝人類。這件事說明如果有大數(shù)據(jù),那么機器學(xué)習(xí)或者深度學(xué)習(xí)就可以模擬人類的創(chuàng)造智能,創(chuàng)造出一些作品來,也可以與專家合作,幫助專家產(chǎn)生更好的想法,然后兩者配合,產(chǎn)生出美妙的音樂。
這個在以前是難以想象的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實音樂也是一種語言,自然語言的所有技術(shù)就可以應(yīng)用到音樂上去,這需要大家的想象力。
今天我快速介紹了自然語言處理在神經(jīng)機器翻譯、閱讀理解、聊天機器人以及機器創(chuàng)作領(lǐng)域的進(jìn)展。隨著未來大數(shù)據(jù)、云計算和深度學(xué)習(xí)的發(fā)展,模型還會進(jìn)一步地提升,再加上合適的場景,技術(shù)就可以落地,就可以服務(wù)于成千上萬的用戶??梢灶A(yù)料,隨著自然語言處理技術(shù)的提高與普及,它將會與其他的人工智能技術(shù)一起提升人類的生活水平。
雷鋒網(wǎng)延伸閱讀:
微軟副院長周明:NLP目前存在的問題、以及未來的發(fā)展方向
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。