微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀

本文作者：汪思穎

編輯：楊曉凡

2017-07-28 09:49

導語：SynNet模型能在一個新的領域獲得更準確的結(jié)果，而不需要額外的訓練數(shù)據(jù)，并且網(wǎng)絡性能接近全監(jiān)督MRC系統(tǒng)。

雷鋒網(wǎng) AI科技評論按：微軟研究院對MRC領域遷移進行了首次嘗試。他們最新提出的SynNet模型能在一個新的領域獲得更準確的結(jié)果，而不需要額外的訓練數(shù)據(jù)，并且網(wǎng)絡性能接近全監(jiān)督MRC系統(tǒng)。

雷鋒網(wǎng) AI科技評論將其編譯如下：

對人類來說，閱讀理解是每天都在進行的基本任務。早在小學的時候，我們就能在閱讀文章后，回答與文章的中心思想和細節(jié)相關的問題。

但對AI來說，完美的進行閱讀理解仍然是一個難以實現(xiàn)的目標，但如果我們要評估和實現(xiàn)通用人工智能，就必須讓AI達成這個目標。

實際上，許多現(xiàn)實生活中的場景，包括客戶服務、建議、問答、對話和客戶關系管理，都需要用到閱讀理解。如果AI能完美的進行閱讀理解，它將在一些情況下有驚人的潛能，比如在成千上萬的文件中，迅速幫助醫(yī)生找到重要的信息，讓他們把時間用在更有價值的、可能會挽救生命的工作上。

因此，構(gòu)建出能夠進行機器閱讀理解(MRC)的機器很有意義。比如在執(zhí)行搜索請求時，機器理解將給出一個準確的答案，而不是拋給你一個網(wǎng)址，你需要點開之后在冗長的網(wǎng)頁中找到答案。此外，機器理解模型能夠理解狹窄和特定領域的文章中的知識，在那些領域中，支撐算法的搜索數(shù)據(jù)很少。

微軟專注于機器閱讀，目前正引領著該領域的競爭。微軟的多個項目，包括用于機器理解的深度學習項目，也把目光投向了MRC。盡管取得了很大的進展，但微軟還是忽視了一個關鍵問題，這個問題直到最近才被注意：怎樣針對一個新的領域構(gòu)建MRC系統(tǒng)？

最近，微軟AI研究院的Po-Sen Huang、Xiaodong He等多名研究員和來自斯坦福大學的實習生David Golub針對這個問題開發(fā)了一種遷移學習算法。他們將在2017年的頂尖自然語言處理會議——EMNLP上介紹這種算法。這是開發(fā)出可擴展解決方案的關鍵步驟，可以將MRC擴展到更廣泛的領域。

微軟在朝著更大的目標在邁進，這種算法是他們?nèi)〉眠M步的一個例子。他們想要用更復雜和微妙的能力來創(chuàng)造技術(shù)。

Rangan Majumder 在機器閱讀博客上說過：“我們的目的不是建立一堆解決理論問題的算法，我們正在用這些算法解決實際問題，在實際的數(shù)據(jù)上測試他們?！?/p>

目前，大多數(shù)最先進的機器閱讀系統(tǒng)都是建立在監(jiān)督訓練數(shù)據(jù)的基礎之上，這些模型已經(jīng)在樣例上進行過端到端的訓練。訓練樣例不僅包括文章，還包括與文章相關的手動標簽的問題和問題相應的答案。

通過這些示例，基于深度學習的MRC模型學會理解問題并從文章中推斷出答案，這包括多個論證和推理步驟。

然而，對于許多領域或行業(yè)而言，這種監(jiān)督訓練數(shù)據(jù)并不存在。例如，如果要建立一個新的機器閱讀系統(tǒng)，來幫助醫(yī)生找到與新疾病相關的重要信息，問題是：可能會有很多可用的文檔，但是我們?nèi)鄙倥c文檔相關的手動標簽的問題以及問題相應的答案。

這一挑戰(zhàn)正在變大，因為我們需要為每種疾病建立一個獨立的MRC系統(tǒng)，此外文獻的數(shù)量正在急劇增加。因此，至關重要的是，要弄清楚如何讓一個領域的MRC系統(tǒng)在另一個領域也能適用。在后面那個新的領域中，沒有手動標簽的問題，也沒有問題相應的答案，但是有大量的文檔。

微軟的研究人員開發(fā)了一種新的模型——兩級綜合網(wǎng)絡（SynNet），可以用來解決上面的問題。在這種方法中，基于一個領域中的監(jiān)督數(shù)據(jù)，SynNet首先學會一種通用模式，這種通用模式能識別文章中可能的關注點。這些關注點指的是關鍵知識點、命名實體或語義概念，通常是人們可能會問到的問題的答案。然后，在第二級，模型會學著根據(jù)文章內(nèi)容，圍繞可能的答案，形成自然語言問題。

訓練好的SynNet可以應用于新的領域。它可以在新的領域中閱讀文檔，針對這些文檔生成偽問題和答案。然后，針對那個新的領域，生成必要的訓練數(shù)據(jù)來訓練MRC系統(tǒng)。這個新的領域可能是一種新的疾病，一本新公司的員工手冊，或是一份新的產(chǎn)品手冊。

產(chǎn)生合成數(shù)據(jù)來對不足的訓練數(shù)據(jù)進行補充，這種想法在以前就有過研究。例如，針對于翻譯任務，Rico Sennrich和他的同事們在一篇論文中提出了一種方法：根據(jù)真實的句子生成新的句子，用來完善已有的機器翻譯系統(tǒng)。然而，與機器翻譯不同的是，對于像MRC這樣的任務，一篇文章需要既生成問題，又生成答案。此外，即使問題在語法上是流利的自然語句，答案通常是段落中某個突出的語義概念，例如一個命名實體、一段情節(jié)或是一個數(shù)字。由于答案與問題有不同的語言結(jié)構(gòu)，因此將他們視為兩種不同類型的數(shù)據(jù)可能更合適。

微軟的新方法將產(chǎn)生問題-答案對的過程分成兩步:先通過段落來生成答案，再通過段落和生成的答案，來生成問題。因為答案通常是關鍵的語義概念，所以會先生成答案。問題可以被看作組合起來的完整句子，用來詢問前面的概念。微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀

圖：訓練好的SynNet可以用于合成關于給定段落的答案和問題。模型的第一級是回答合成模塊，使用雙向長短時記憶網(wǎng)絡(LSTM)來預測關于輸入段落的輸入、輸出和開始(IOB)標簽，這些標簽標記出可能為答案的關鍵語義概念。第二級是問題合成模塊，使用單向長短時記憶網(wǎng)絡（LSTM）來生成問題，也生成段落中的嵌入詞和IOB ID。段落中的多個span標簽會被識別為可能的答案，但在生成問題時，他們只選擇一個span標簽。

兩個從文章中生成問題和答案的例子，如下圖所示：

微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀

使用SynNet后，能在一個新的領域獲得更準確的結(jié)果，而不需要額外的訓練數(shù)據(jù)，并且網(wǎng)絡性能接近全監(jiān)督MRC系統(tǒng)。

微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀

SynNet就像一名教師，根據(jù)她在以前的領域中學到的經(jīng)驗，從新的領域的文章中創(chuàng)造出問題和答案，并利用她的這些創(chuàng)造來教學生在新的領域中進行閱讀理解。相應的，微軟的研究人員也開發(fā)了一組神經(jīng)機器閱讀模型，包括最近開發(fā)的很有潛力的ReasoNet模型，這些模型就像是從教學資料中學習的學生，可以根據(jù)文章來回答問題。

據(jù)微軟所知，這是進行MRC領域遷移的首次嘗試。他們期待著開發(fā)可擴展的解決方案，快速擴展MRC的能力，進而釋放出機器閱讀顛覆性的潛力！

雷鋒網(wǎng) AI科技評論編譯。

via：Microsoft Research Blog

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

汪思穎

編輯

關注AI學術(shù)，例如論文

發(fā)私信

當月熱門文章

微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀

微軟發(fā)布SynNet，遷移學習&無監(jiān)督學習，完美應用于機器閱讀