0
雷鋒網(wǎng) AI科技評(píng)論按:微軟研究院對(duì)MRC領(lǐng)域遷移進(jìn)行了首次嘗試。他們最新提出的SynNet模型能在一個(gè)新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。
雷鋒網(wǎng) AI科技評(píng)論將其編譯如下:
對(duì)人類來(lái)說(shuō),閱讀理解是每天都在進(jìn)行的基本任務(wù)。早在小學(xué)的時(shí)候,我們就能在閱讀文章后,回答與文章的中心思想和細(xì)節(jié)相關(guān)的問(wèn)題。
但對(duì)AI來(lái)說(shuō),完美的進(jìn)行閱讀理解仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo),但如果我們要評(píng)估和實(shí)現(xiàn)通用人工智能,就必須讓AI達(dá)成這個(gè)目標(biāo)。
實(shí)際上,許多現(xiàn)實(shí)生活中的場(chǎng)景,包括客戶服務(wù)、建議、問(wèn)答、對(duì)話和客戶關(guān)系管理,都需要用到閱讀理解。如果AI能完美的進(jìn)行閱讀理解,它將在一些情況下有驚人的潛能,比如在成千上萬(wàn)的文件中,迅速幫助醫(yī)生找到重要的信息,讓他們把時(shí)間用在更有價(jià)值的、可能會(huì)挽救生命的工作上。
因此,構(gòu)建出能夠進(jìn)行機(jī)器閱讀理解(MRC)的機(jī)器很有意義。比如在執(zhí)行搜索請(qǐng)求時(shí),機(jī)器理解將給出一個(gè)準(zhǔn)確的答案,而不是拋給你一個(gè)網(wǎng)址,你需要點(diǎn)開(kāi)之后在冗長(zhǎng)的網(wǎng)頁(yè)中找到答案。此外,機(jī)器理解模型能夠理解狹窄和特定領(lǐng)域的文章中的知識(shí),在那些領(lǐng)域中,支撐算法的搜索數(shù)據(jù)很少。
微軟專注于機(jī)器閱讀,目前正引領(lǐng)著該領(lǐng)域的競(jìng)爭(zhēng)。微軟的多個(gè)項(xiàng)目,包括用于機(jī)器理解的深度學(xué)習(xí)項(xiàng)目,也把目光投向了MRC。盡管取得了很大的進(jìn)展,但微軟還是忽視了一個(gè)關(guān)鍵問(wèn)題,這個(gè)問(wèn)題直到最近才被注意:怎樣針對(duì)一個(gè)新的領(lǐng)域構(gòu)建MRC系統(tǒng)?
最近,微軟AI研究院的Po-Sen Huang、Xiaodong He等多名研究員和來(lái)自斯坦福大學(xué)的實(shí)習(xí)生David Golub針對(duì)這個(gè)問(wèn)題開(kāi)發(fā)了一種遷移學(xué)習(xí)算法。他們將在2017年的頂尖自然語(yǔ)言處理會(huì)議——EMNLP上介紹這種算法。這是開(kāi)發(fā)出可擴(kuò)展解決方案的關(guān)鍵步驟,可以將MRC擴(kuò)展到更廣泛的領(lǐng)域。
微軟在朝著更大的目標(biāo)在邁進(jìn),這種算法是他們?nèi)〉眠M(jìn)步的一個(gè)例子。他們想要用更復(fù)雜和微妙的能力來(lái)創(chuàng)造技術(shù)。
Rangan Majumder 在機(jī)器閱讀博客上說(shuō)過(guò):“我們的目的不是建立一堆解決理論問(wèn)題的算法,我們正在用這些算法解決實(shí)際問(wèn)題,在實(shí)際的數(shù)據(jù)上測(cè)試他們。”
目前,大多數(shù)最先進(jìn)的機(jī)器閱讀系統(tǒng)都是建立在監(jiān)督訓(xùn)練數(shù)據(jù)的基礎(chǔ)之上,這些模型已經(jīng)在樣例上進(jìn)行過(guò)端到端的訓(xùn)練。訓(xùn)練樣例不僅包括文章,還包括與文章相關(guān)的手動(dòng)標(biāo)簽的問(wèn)題和問(wèn)題相應(yīng)的答案。
通過(guò)這些示例,基于深度學(xué)習(xí)的MRC模型學(xué)會(huì)理解問(wèn)題并從文章中推斷出答案,這包括多個(gè)論證和推理步驟。
然而,對(duì)于許多領(lǐng)域或行業(yè)而言,這種監(jiān)督訓(xùn)練數(shù)據(jù)并不存在。例如,如果要建立一個(gè)新的機(jī)器閱讀系統(tǒng),來(lái)幫助醫(yī)生找到與新疾病相關(guān)的重要信息,問(wèn)題是:可能會(huì)有很多可用的文檔,但是我們?nèi)鄙倥c文檔相關(guān)的手動(dòng)標(biāo)簽的問(wèn)題以及問(wèn)題相應(yīng)的答案。
這一挑戰(zhàn)正在變大,因?yàn)槲覀冃枰獮槊糠N疾病建立一個(gè)獨(dú)立的MRC系統(tǒng),此外文獻(xiàn)的數(shù)量正在急劇增加。因此,至關(guān)重要的是,要弄清楚如何讓一個(gè)領(lǐng)域的MRC系統(tǒng)在另一個(gè)領(lǐng)域也能適用。在后面那個(gè)新的領(lǐng)域中,沒(méi)有手動(dòng)標(biāo)簽的問(wèn)題,也沒(méi)有問(wèn)題相應(yīng)的答案,但是有大量的文檔。
微軟的研究人員開(kāi)發(fā)了一種新的模型——兩級(jí)綜合網(wǎng)絡(luò)(SynNet),可以用來(lái)解決上面的問(wèn)題。在這種方法中,基于一個(gè)領(lǐng)域中的監(jiān)督數(shù)據(jù),SynNet首先學(xué)會(huì)一種通用模式,這種通用模式能識(shí)別文章中可能的關(guān)注點(diǎn)。這些關(guān)注點(diǎn)指的是關(guān)鍵知識(shí)點(diǎn)、命名實(shí)體或語(yǔ)義概念,通常是人們可能會(huì)問(wèn)到的問(wèn)題的答案。然后,在第二級(jí),模型會(huì)學(xué)著根據(jù)文章內(nèi)容,圍繞可能的答案,形成自然語(yǔ)言問(wèn)題。
訓(xùn)練好的SynNet可以應(yīng)用于新的領(lǐng)域。它可以在新的領(lǐng)域中閱讀文檔,針對(duì)這些文檔生成偽問(wèn)題和答案。然后,針對(duì)那個(gè)新的領(lǐng)域,生成必要的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練MRC系統(tǒng)。這個(gè)新的領(lǐng)域可能是一種新的疾病,一本新公司的員工手冊(cè),或是一份新的產(chǎn)品手冊(cè)。
產(chǎn)生合成數(shù)據(jù)來(lái)對(duì)不足的訓(xùn)練數(shù)據(jù)進(jìn)行補(bǔ)充,這種想法在以前就有過(guò)研究。例如,針對(duì)于翻譯任務(wù),Rico Sennrich和他的同事們?cè)谝黄撐闹刑岢隽艘环N方法:根據(jù)真實(shí)的句子生成新的句子,用來(lái)完善已有的機(jī)器翻譯系統(tǒng)。然而,與機(jī)器翻譯不同的是,對(duì)于像MRC這樣的任務(wù),一篇文章需要既生成問(wèn)題,又生成答案。此外,即使問(wèn)題在語(yǔ)法上是流利的自然語(yǔ)句,答案通常是段落中某個(gè)突出的語(yǔ)義概念,例如一個(gè)命名實(shí)體、一段情節(jié)或是一個(gè)數(shù)字。由于答案與問(wèn)題有不同的語(yǔ)言結(jié)構(gòu),因此將他們視為兩種不同類型的數(shù)據(jù)可能更合適。
微軟的新方法將產(chǎn)生問(wèn)題-答案對(duì)的過(guò)程分成兩步:先通過(guò)段落來(lái)生成答案,再通過(guò)段落和生成的答案,來(lái)生成問(wèn)題。因?yàn)榇鸢竿ǔJ顷P(guān)鍵的語(yǔ)義概念,所以會(huì)先生成答案。問(wèn)題可以被看作組合起來(lái)的完整句子,用來(lái)詢問(wèn)前面的概念。
圖:訓(xùn)練好的SynNet可以用于合成關(guān)于給定段落的答案和問(wèn)題。模型的第一級(jí)是回答合成模塊,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)來(lái)預(yù)測(cè)關(guān)于輸入段落的輸入、輸出和開(kāi)始(IOB)標(biāo)簽,這些標(biāo)簽標(biāo)記出可能為答案的關(guān)鍵語(yǔ)義概念。第二級(jí)是問(wèn)題合成模塊,使用單向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)來(lái)生成問(wèn)題,也生成段落中的嵌入詞和IOB ID。段落中的多個(gè)span標(biāo)簽會(huì)被識(shí)別為可能的答案,但在生成問(wèn)題時(shí),他們只選擇一個(gè)span標(biāo)簽。
兩個(gè)從文章中生成問(wèn)題和答案的例子,如下圖所示:
使用SynNet后,能在一個(gè)新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。
SynNet就像一名教師,根據(jù)她在以前的領(lǐng)域中學(xué)到的經(jīng)驗(yàn),從新的領(lǐng)域的文章中創(chuàng)造出問(wèn)題和答案,并利用她的這些創(chuàng)造來(lái)教學(xué)生在新的領(lǐng)域中進(jìn)行閱讀理解。相應(yīng)的,微軟的研究人員也開(kāi)發(fā)了一組神經(jīng)機(jī)器閱讀模型,包括最近開(kāi)發(fā)的很有潛力的ReasoNet模型,這些模型就像是從教學(xué)資料中學(xué)習(xí)的學(xué)生,可以根據(jù)文章來(lái)回答問(wèn)題。
據(jù)微軟所知,這是進(jìn)行MRC領(lǐng)域遷移的首次嘗試。他們期待著開(kāi)發(fā)可擴(kuò)展的解決方案,快速擴(kuò)展MRC的能力,進(jìn)而釋放出機(jī)器閱讀顛覆性的潛力!
雷鋒網(wǎng) AI科技評(píng)論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。