丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

本文作者: 汪思穎 編輯:楊曉凡 2017-07-28 09:49
導(dǎo)語:SynNet模型能在一個(gè)新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。

雷鋒網(wǎng) AI科技評論按:微軟研究院對MRC領(lǐng)域遷移進(jìn)行了首次嘗試。他們最新提出的SynNet模型能在一個(gè)新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。

雷鋒網(wǎng) AI科技評論將其編譯如下:

對人類來說,閱讀理解是每天都在進(jìn)行的基本任務(wù)。早在小學(xué)的時(shí)候,我們就能在閱讀文章后,回答與文章的中心思想和細(xì)節(jié)相關(guān)的問題。

但對AI來說,完美的進(jìn)行閱讀理解仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo),但如果我們要評估和實(shí)現(xiàn)通用人工智能,就必須讓AI達(dá)成這個(gè)目標(biāo)。

實(shí)際上,許多現(xiàn)實(shí)生活中的場景,包括客戶服務(wù)、建議、問答、對話和客戶關(guān)系管理,都需要用到閱讀理解。如果AI能完美的進(jìn)行閱讀理解,它將在一些情況下有驚人的潛能,比如在成千上萬的文件中,迅速幫助醫(yī)生找到重要的信息,讓他們把時(shí)間用在更有價(jià)值的、可能會(huì)挽救生命的工作上。

因此,構(gòu)建出能夠進(jìn)行機(jī)器閱讀理解(MRC)的機(jī)器很有意義。比如在執(zhí)行搜索請求時(shí),機(jī)器理解將給出一個(gè)準(zhǔn)確的答案,而不是拋給你一個(gè)網(wǎng)址,你需要點(diǎn)開之后在冗長的網(wǎng)頁中找到答案。此外,機(jī)器理解模型能夠理解狹窄和特定領(lǐng)域的文章中的知識,在那些領(lǐng)域中,支撐算法的搜索數(shù)據(jù)很少。

微軟專注于機(jī)器閱讀,目前正引領(lǐng)著該領(lǐng)域的競爭。微軟的多個(gè)項(xiàng)目,包括用于機(jī)器理解的深度學(xué)習(xí)項(xiàng)目,也把目光投向了MRC。盡管取得了很大的進(jìn)展,但微軟還是忽視了一個(gè)關(guān)鍵問題,這個(gè)問題直到最近才被注意:怎樣針對一個(gè)新的領(lǐng)域構(gòu)建MRC系統(tǒng)?

最近,微軟AI研究院的Po-Sen Huang、Xiaodong He等多名研究員和來自斯坦福大學(xué)的實(shí)習(xí)生David Golub針對這個(gè)問題開發(fā)了一種遷移學(xué)習(xí)算法。他們將在2017年的頂尖自然語言處理會(huì)議——EMNLP上介紹這種算法。這是開發(fā)出可擴(kuò)展解決方案的關(guān)鍵步驟,可以將MRC擴(kuò)展到更廣泛的領(lǐng)域。

微軟在朝著更大的目標(biāo)在邁進(jìn),這種算法是他們?nèi)〉眠M(jìn)步的一個(gè)例子。他們想要用更復(fù)雜和微妙的能力來創(chuàng)造技術(shù)。

Rangan Majumder 在機(jī)器閱讀博客上說過:“我們的目的不是建立一堆解決理論問題的算法,我們正在用這些算法解決實(shí)際問題,在實(shí)際的數(shù)據(jù)上測試他們?!?/p>

目前,大多數(shù)最先進(jìn)的機(jī)器閱讀系統(tǒng)都是建立在監(jiān)督訓(xùn)練數(shù)據(jù)的基礎(chǔ)之上,這些模型已經(jīng)在樣例上進(jìn)行過端到端的訓(xùn)練。訓(xùn)練樣例不僅包括文章,還包括與文章相關(guān)的手動(dòng)標(biāo)簽的問題和問題相應(yīng)的答案。

通過這些示例,基于深度學(xué)習(xí)的MRC模型學(xué)會(huì)理解問題并從文章中推斷出答案,這包括多個(gè)論證和推理步驟。

然而,對于許多領(lǐng)域或行業(yè)而言,這種監(jiān)督訓(xùn)練數(shù)據(jù)并不存在。例如,如果要建立一個(gè)新的機(jī)器閱讀系統(tǒng),來幫助醫(yī)生找到與新疾病相關(guān)的重要信息,問題是:可能會(huì)有很多可用的文檔,但是我們?nèi)鄙倥c文檔相關(guān)的手動(dòng)標(biāo)簽的問題以及問題相應(yīng)的答案。

這一挑戰(zhàn)正在變大,因?yàn)槲覀冃枰獮槊糠N疾病建立一個(gè)獨(dú)立的MRC系統(tǒng),此外文獻(xiàn)的數(shù)量正在急劇增加。因此,至關(guān)重要的是,要弄清楚如何讓一個(gè)領(lǐng)域的MRC系統(tǒng)在另一個(gè)領(lǐng)域也能適用。在后面那個(gè)新的領(lǐng)域中,沒有手動(dòng)標(biāo)簽的問題,也沒有問題相應(yīng)的答案,但是有大量的文檔。

微軟的研究人員開發(fā)了一種新的模型——兩級綜合網(wǎng)絡(luò)(SynNet),可以用來解決上面的問題。在這種方法中,基于一個(gè)領(lǐng)域中的監(jiān)督數(shù)據(jù),SynNet首先學(xué)會(huì)一種通用模式,這種通用模式能識別文章中可能的關(guān)注點(diǎn)。這些關(guān)注點(diǎn)指的是關(guān)鍵知識點(diǎn)、命名實(shí)體或語義概念,通常是人們可能會(huì)問到的問題的答案。然后,在第二級,模型會(huì)學(xué)著根據(jù)文章內(nèi)容,圍繞可能的答案,形成自然語言問題。

訓(xùn)練好的SynNet可以應(yīng)用于新的領(lǐng)域。它可以在新的領(lǐng)域中閱讀文檔,針對這些文檔生成偽問題和答案。然后,針對那個(gè)新的領(lǐng)域,生成必要的訓(xùn)練數(shù)據(jù)來訓(xùn)練MRC系統(tǒng)。這個(gè)新的領(lǐng)域可能是一種新的疾病,一本新公司的員工手冊,或是一份新的產(chǎn)品手冊。

產(chǎn)生合成數(shù)據(jù)來對不足的訓(xùn)練數(shù)據(jù)進(jìn)行補(bǔ)充,這種想法在以前就有過研究。例如,針對于翻譯任務(wù),Rico Sennrich和他的同事們在一篇論文中提出了一種方法:根據(jù)真實(shí)的句子生成新的句子,用來完善已有的機(jī)器翻譯系統(tǒng)。然而,與機(jī)器翻譯不同的是,對于像MRC這樣的任務(wù),一篇文章需要既生成問題,又生成答案。此外,即使問題在語法上是流利的自然語句,答案通常是段落中某個(gè)突出的語義概念,例如一個(gè)命名實(shí)體、一段情節(jié)或是一個(gè)數(shù)字。由于答案與問題有不同的語言結(jié)構(gòu),因此將他們視為兩種不同類型的數(shù)據(jù)可能更合適。

微軟的新方法將產(chǎn)生問題-答案對的過程分成兩步:先通過段落來生成答案,再通過段落和生成的答案,來生成問題。因?yàn)榇鸢竿ǔJ顷P(guān)鍵的語義概念,所以會(huì)先生成答案。問題可以被看作組合起來的完整句子,用來詢問前面的概念。 微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

圖:訓(xùn)練好的SynNet可以用于合成關(guān)于給定段落的答案和問題。模型的第一級是回答合成模塊,使用雙向長短時(shí)記憶網(wǎng)絡(luò)(LSTM)來預(yù)測關(guān)于輸入段落的輸入、輸出和開始(IOB)標(biāo)簽,這些標(biāo)簽標(biāo)記出可能為答案的關(guān)鍵語義概念。第二級是問題合成模塊,使用單向長短時(shí)記憶網(wǎng)絡(luò)(LSTM)來生成問題,也生成段落中的嵌入詞和IOB ID。段落中的多個(gè)span標(biāo)簽會(huì)被識別為可能的答案,但在生成問題時(shí),他們只選擇一個(gè)span標(biāo)簽。

兩個(gè)從文章中生成問題和答案的例子,如下圖所示:

微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

使用SynNet后,能在一個(gè)新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。

微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

SynNet就像一名教師,根據(jù)她在以前的領(lǐng)域中學(xué)到的經(jīng)驗(yàn),從新的領(lǐng)域的文章中創(chuàng)造出問題和答案,并利用她的這些創(chuàng)造來教學(xué)生在新的領(lǐng)域中進(jìn)行閱讀理解。相應(yīng)的,微軟的研究人員也開發(fā)了一組神經(jīng)機(jī)器閱讀模型,包括最近開發(fā)的很有潛力的ReasoNet模型,這些模型就像是從教學(xué)資料中學(xué)習(xí)的學(xué)生,可以根據(jù)文章來回答問題。

據(jù)微軟所知,這是進(jìn)行MRC領(lǐng)域遷移的首次嘗試。他們期待著開發(fā)可擴(kuò)展的解決方案,快速擴(kuò)展MRC的能力,進(jìn)而釋放出機(jī)器閱讀顛覆性的潛力!

雷鋒網(wǎng) AI科技評論編譯。

via:Microsoft Research Blog

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機(jī)器閱讀

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說