丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

MSRA副院長(zhǎng)周明博士:四大研究領(lǐng)域揭示自然語言技術(shù)的奧秘

本文作者: 奕欣 2018-02-04 10:50
導(dǎo)語:自然語言技術(shù)是通過對(duì)語言的理解,實(shí)現(xiàn)人跟電腦的直接交流,從而實(shí)現(xiàn)人跟人更加有效地交流。

MSRA副院長(zhǎng)周明博士:四大研究領(lǐng)域揭示自然語言技術(shù)的奧秘

雷鋒網(wǎng) AI 科技評(píng)論按:在 EmTech China 峰會(huì)上,微軟亞洲研究院副院長(zhǎng)周明博士圍繞自然語言四個(gè)方面的進(jìn)展,結(jié)合 MSRA 在自然語言上的一系列研究成果做了介紹,雷鋒網(wǎng) AI 科技評(píng)論根據(jù)速記整理如下:

人工智能最重要的分支就是自然語言的理解與處理,即語言智能,通過對(duì)詞、句子、篇章進(jìn)行分析,對(duì)內(nèi)容里面的人物、時(shí)間、地點(diǎn)等進(jìn)行理解,然后在此基礎(chǔ)上,去支持一系列核心技術(shù),比如跨語言的翻譯、問答系統(tǒng)、閱讀理解、知識(shí)圖譜等技術(shù),基于這些技術(shù),又可以把它應(yīng)用到其它應(yīng)用領(lǐng)域,比如說搜索引擎、客服、金融、新聞等等領(lǐng)域??傊褪峭ㄟ^對(duì)語言的理解,實(shí)現(xiàn)人跟電腦的直接交流,從而實(shí)現(xiàn)人跟人更加有效地交流。自然語言技術(shù)不是一個(gè)獨(dú)立的技術(shù),其受云計(jì)算、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、知識(shí)圖譜等等各個(gè)方面的支撐。

接下來將從四個(gè)方面介紹自然語言的進(jìn)展,即神經(jīng)機(jī)器翻譯、聊天機(jī)器人、閱讀理解及機(jī)器創(chuàng)作。

神經(jīng)機(jī)器翻譯

神經(jīng)機(jī)器翻譯就是模擬人腦的翻譯過程,人在翻譯的時(shí)候,首先是理解這句話,然后在腦海里形成對(duì)這句話的語義表示,最后再把這個(gè)語義表示轉(zhuǎn)化到另一種語言。

神經(jīng)機(jī)器翻譯有兩個(gè)模塊,一個(gè)是編碼模塊,把輸入的源語言變成一個(gè)中間的語義表示,用一系列的機(jī)器的內(nèi)部狀態(tài)來代表,另一個(gè)模塊是解碼模塊,根據(jù)語義分析的結(jié)果,逐詞生成目標(biāo)語言。

神經(jīng)機(jī)器翻譯在這幾年發(fā)展非常迅速,2017 年的研究熱度更是一發(fā)不可收拾,現(xiàn)在神經(jīng)機(jī)器翻譯已經(jīng)取代了統(tǒng)計(jì)機(jī)器翻譯,成為機(jī)器翻譯的主流技術(shù)。目前有統(tǒng)計(jì)數(shù)據(jù)表明,在一些傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯難以完成的任務(wù)上,神經(jīng)機(jī)器翻譯的性能遠(yuǎn)遠(yuǎn)超過了統(tǒng)計(jì)機(jī)器翻譯,而且跟人的標(biāo)準(zhǔn)答案非常接近,甚至說是相仿的水平。圍繞著神經(jīng)機(jī)器翻譯,研究者們已做了很多的工作,比如如何提升訓(xùn)練的效率,如何提升編碼和解碼的能力。還有一個(gè)重要的研究問題就是數(shù)據(jù)問題,神經(jīng)機(jī)器翻譯依賴于雙語對(duì)照的大規(guī)模的數(shù)據(jù)集來訓(xùn)練,端到端地訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),這涉及很多語音段和很多的垂直領(lǐng)域,但我們實(shí)際上并沒有那么多的數(shù)據(jù),我們只有小量的雙語數(shù)據(jù)和大量的單語數(shù)據(jù)。

所以,我們就提出了半監(jiān)督的聯(lián)合垂直模型,已知一個(gè)雙語推導(dǎo)語料,分別對(duì)之訓(xùn)練,從而達(dá)到中英翻譯系統(tǒng)與英中翻譯系統(tǒng)的相互促進(jìn),比如拿中英翻譯系統(tǒng)去翻中文的語料,形成很多偽的中英對(duì)照語料,然后把這個(gè)語料去加到英中翻譯里面去。同樣,用英中翻譯系統(tǒng)去翻譯大量的英文語料,然后把這個(gè)語料加到中英翻譯里面,這樣經(jīng)過多次迭代之后,翻譯水平大幅度提升。

微軟現(xiàn)在已經(jīng)全面采用神經(jīng)機(jī)器翻譯,最近還跟華為的 Mate10 手機(jī)合作,得到了神經(jīng)機(jī)器翻譯類似于在云上的效果。

聊天機(jī)器人

第二個(gè)話題是聊天機(jī)器人。聊天機(jī)器人就是人和機(jī)器對(duì)聊,在聊天的時(shí)候機(jī)器要理解人的意圖,產(chǎn)生比較符合人的想法,以及符合當(dāng)前上下文的回復(fù),再根據(jù)人與機(jī)器各自的回復(fù)將話題進(jìn)行下去。微軟小冰就是這樣的一個(gè)聊天機(jī)器人。基于當(dāng)前的輸入信息,再加上對(duì)話的情感,以及用戶的畫像,經(jīng)過一個(gè)類似于神經(jīng)機(jī)器翻譯的解碼模型生成回復(fù),可以達(dá)到上下文相關(guān)、領(lǐng)域相關(guān)、話題有關(guān),而且是針對(duì)用戶特點(diǎn)的個(gè)性化的回復(fù)。

這樣的技術(shù)已經(jīng)應(yīng)用到微軟的很多產(chǎn)品里,比如會(huì) 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進(jìn)行自然人機(jī)交互的 Cortana、可以在敦煌回答游客問題的敦煌小冰。

MSRA副院長(zhǎng)周明博士:四大研究領(lǐng)域揭示自然語言技術(shù)的奧秘

via http://www.msxiaoice.com/

閱讀理解

下一個(gè)話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對(duì)這些文章問一些問題,看電腦能不能回答出來。斯坦福大學(xué)曾做過一個(gè)比較有名的實(shí)驗(yàn),就是使用維基百科的文章提出 5 個(gè)問題,由人把答案做出來,然后把數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,訓(xùn)練集是公開的,用來訓(xùn)練閱讀理解系統(tǒng),而測(cè)試集不公開,個(gè)人把訓(xùn)練結(jié)果上傳給斯坦福,斯坦福在其云端運(yùn)行,再把結(jié)果報(bào)在網(wǎng)站上,這也避免了一些人對(duì)測(cè)試集做手腳。閱讀理解技術(shù),自 2016 年 9 月前后發(fā)布,就引起了很多研究單位的關(guān)注,大概有二三十家單位都在做這樣的研究,一開始的水平都不是很高,以 100 分為例,人的水平是 82.3 左右,機(jī)器的水平只有 74 分,相差甚遠(yuǎn),后來通過類似于開源社區(qū)模式的不斷改進(jìn),它的性能就得以逐步地提高了。

最近在閱讀理解領(lǐng)域出現(xiàn)的一個(gè)備受關(guān)注的問題,就是如何才能做到超越人的標(biāo)注水平。現(xiàn)在微軟、阿里巴巴、科大訊飛和哈工大的系統(tǒng),都超越了人工的標(biāo)注水平,這標(biāo)志著閱讀理解技術(shù)進(jìn)入了一個(gè)新的階段。這幾個(gè)系統(tǒng)都來自中國,也體現(xiàn)中國在自然語言處理的進(jìn)步。

一個(gè)閱讀理解的框架首先要得到每個(gè)詞的語義表示,再得到每個(gè)句子的語義表示,這可以用循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 來實(shí)現(xiàn),然后用特定路徑來找出潛在答案,基于這個(gè)答案再篩選出最優(yōu)的答案,最后確定這個(gè)答案的邊界。在做閱讀理解的時(shí)候,是用到了外部的知識(shí),可以用大規(guī)模的語料來訓(xùn)練外部的知識(shí),通過外部知識(shí)訓(xùn)練的 RNN 模型,加入到原來端到端的訓(xùn)練結(jié)果中,以此來大幅度地提高閱讀理解的能力。

機(jī)器創(chuàng)作

最后介紹機(jī)器創(chuàng)作,機(jī)器可以做很多理性的東西,那么它可以做一些創(chuàng)造性的東西嗎?10 年以前,我們就開始做微軟對(duì)聯(lián),在此基礎(chǔ)上,創(chuàng)作絕句、律詩、唐詩宋詞等等,現(xiàn)在進(jìn)行寫歌譜曲。在微軟對(duì)聯(lián)里,用戶輸入上聯(lián),系統(tǒng)就可以對(duì)出下聯(lián),也可以給出橫批;在字謎游戲里,用戶給出謎面,讓系統(tǒng)猜出字;或系統(tǒng)給出謎面讓用戶猜出字。

我們的編碼解碼技術(shù)已經(jīng)成功用于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、小冰機(jī)器人和詞曲創(chuàng)作中。中央電視臺(tái)《機(jī)智過人》節(jié)目就曾播過我們的小冰與人類選手進(jìn)行詞曲創(chuàng)作比拼的環(huán)節(jié),結(jié)果是小冰險(xiǎn)勝人類。這件事說明如果有大數(shù)據(jù),那么機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)就可以模擬人類的創(chuàng)造智能,創(chuàng)造出一些作品來,也可以與專家合作,幫助專家產(chǎn)生更好的想法,然后兩者配合,產(chǎn)生出美妙的音樂。

這個(gè)在以前是難以想象的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實(shí)音樂也是一種語言,自然語言的所有技術(shù)就可以應(yīng)用到音樂上去,這需要大家的想象力。

今天我快速介紹了自然語言處理在神經(jīng)機(jī)器翻譯、閱讀理解、聊天機(jī)器人以及機(jī)器創(chuàng)作領(lǐng)域的進(jìn)展。隨著未來大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)的發(fā)展,模型還會(huì)進(jìn)一步地提升,再加上合適的場(chǎng)景,技術(shù)就可以落地,就可以服務(wù)于成千上萬的用戶??梢灶A(yù)料,隨著自然語言處理技術(shù)的提高與普及,它將會(huì)與其他的人工智能技術(shù)一起提升人類的生活水平。

雷鋒網(wǎng)延伸閱讀:

專訪MSRA副院長(zhǎng)周明:中國NLP如何躋身世界頂尖水平?

微軟副院長(zhǎng)周明:NLP目前存在的問題、以及未來的發(fā)展方向

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

MSRA副院長(zhǎng)周明博士:四大研究領(lǐng)域揭示自然語言技術(shù)的奧秘

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說