0
本文作者: 楊曉凡 | 2019-05-12 18:40 |
雷鋒網(wǎng) AI 科技評(píng)論按:近年來(lái),隨著機(jī)器閱讀理解技術(shù)的發(fā)展,越來(lái)越多的開放域問(wèn)答方法采用了機(jī)器閱讀理解技術(shù)生成答案。然而,傳統(tǒng)基于機(jī)器閱讀理解的開放域問(wèn)答技術(shù)存在數(shù)據(jù)噪聲大、答案概率偏置等問(wèn)題,使得最后產(chǎn)生的答案效果欠佳。
搜狗公司 & 中科院自動(dòng)化所在信息檢索領(lǐng)域頂級(jí)會(huì)議 SIGIR 2019 (CCF A 類會(huì)議)中聯(lián)合提出了一個(gè)基于文檔門控機(jī)制的閱讀算法,并將其用在開放域問(wèn)答中,在很多開放域問(wèn)答應(yīng)用中取得了最好的效果。搜狗公司為這篇論文《Document Gated Reader for Open-Domain Question Answering》撰寫了中文解讀文章,雷鋒網(wǎng) AI 科技評(píng)論摘錄如下。
基于機(jī)器閱讀理解的開放域問(wèn)答
開放域問(wèn)答(open-domain question answering)技術(shù)旨在給定任意類型的問(wèn)題后,從任意資源中取得答案。傳統(tǒng)的開放域問(wèn)答大多采用 pipeline 的方式,即先通過(guò)檢索系統(tǒng)找到跟問(wèn)題相關(guān)的文檔,再通過(guò)問(wèn)答技術(shù)從文檔中產(chǎn)生答案。最近幾年,隨著機(jī)器閱讀理解技術(shù)的發(fā)展,越來(lái)越多開放域問(wèn)答的方法引入機(jī)器閱讀理解技術(shù)來(lái)抽取答案。例如,在 ACL2017 上斯坦福大學(xué)提出了一種神經(jīng)開放域問(wèn)答框架,如下圖:
以往的基于機(jī)器閱讀理解的技術(shù)往往存在兩個(gè)問(wèn)題:首先,以往的方法大多是弱監(jiān)督地根據(jù)問(wèn)題找到的相關(guān)文檔,然后將包含有正確答案的文檔當(dāng)做真正的文檔來(lái)訓(xùn)練,而通過(guò)這種弱監(jiān)督獲取到的數(shù)據(jù)往往包含有錯(cuò)誤的文檔(false positive),例如下面這個(gè)例子:
其中文檔一包含了正確答案(Lebron James),但是卻和問(wèn)題不相關(guān)。文檔二雖然包含了多個(gè)正確答案的,但是其中很多都不能用來(lái)回答問(wèn)題。
其次,很多以前的方法都沒(méi)有考慮到答案概率的歸一化:每一篇文檔單獨(dú)抽出來(lái)一個(gè)答案,以及這個(gè)答案的概率,最后各個(gè)文章的中的答案直接比較概率得到最終的答案,然而,這種過(guò)程會(huì)存在嚴(yán)重的答案概率偏置問(wèn)題,如下面這個(gè)例子:
這兩篇文章中,雖然文檔 1 是真正可以回答問(wèn)題的。而且,文檔選擇模型給出的文檔 1 的概率也大于文檔 2 的概率(0.7>0.3)。但是,由于文檔 1 相對(duì)較長(zhǎng),所以其中的最佳答案概率在經(jīng)過(guò)文檔歸一化之后變得相對(duì)較低,而由于文檔 2 比較短,并且其中的候選答案很少,所以答案 2 的概率在歸一化后相對(duì)較高。這樣,在經(jīng)過(guò)了文檔檢索和閱讀理解兩個(gè)步驟之后,答案 2 的概率會(huì)大于答案 1 的概率。這種現(xiàn)象稱為答案概率的偏置。
基于文檔門控機(jī)制的閱讀器
首先,針對(duì)答案概率偏置問(wèn)題,本文設(shè)計(jì)了一種專門針對(duì)開放域問(wèn)答對(duì)文檔門控機(jī)制的閱讀器。這個(gè)模型建立在傳統(tǒng)機(jī)器閱讀理解模型上,引入了文檔控制器來(lái)控制最終答案的輸出,整體模型如下圖:
其中,文檔和問(wèn)題的建模過(guò)程和傳統(tǒng)的機(jī)器閱讀理解模型類似,是基于注意力機(jī)制的雙向 LSTM。包含有詞表示層,低級(jí)表示層,問(wèn)題關(guān)注層,高級(jí)表示層以及答案輸出層。
和以往的模型不同,在表示的過(guò)程中, 我們加入了一個(gè)文檔控制門(Document Gate),用以將文檔選擇信息引入到最終的結(jié)果中去。這個(gè)文檔控制門會(huì)輸出一個(gè) 0-1 的分?jǐn)?shù),用以影響最后生成的答案的概率。
其中的文檔控制器作用在問(wèn)題的低級(jí)表示和文檔的高級(jí)表示之上,如下圖:
其中K為候選文檔的個(gè)數(shù)??梢钥吹剑ㄟ^(guò)最上層的雙向LSTM,各個(gè)文檔之間的信息也聯(lián)系了起來(lái)。最后的文檔分?jǐn)?shù)g是包含有上下文文檔的得分,因而表示相關(guān)性能力更強(qiáng)。
最后,在訓(xùn)練的時(shí)候,為了避免答案概率的偏置問(wèn)題,本文采用了一種全局歸一化的目標(biāo)函數(shù):
可以看到正確答案的得分和所有答案的得分進(jìn)行了比較,所以這種優(yōu)化目標(biāo)會(huì)使最終正確答案的分?jǐn)?shù)是全局最高的。
基于自舉法的弱監(jiān)督數(shù)據(jù)生成
為了解決傳統(tǒng)弱監(jiān)督數(shù)據(jù)中存在的噪聲較大的問(wèn)題,我們使用了一種基于自舉法(bootstrapping)的數(shù)據(jù)生成方法。具體來(lái)說(shuō),我們首先根據(jù)一些置信度較高的數(shù)據(jù)當(dāng)成種子數(shù)據(jù),例如,在 SQuAD 中種子數(shù)據(jù)可以是提供的最佳答案,在一些其他類型數(shù)據(jù)中可以是經(jīng)過(guò)檢索模型打分最高的。然后,在這個(gè)種子模型中我們預(yù)訓(xùn)練我們的模型,然后依靠上述的文檔控制器的得分可以從未標(biāo)注的弱監(jiān)督數(shù)據(jù)中選擇出分?jǐn)?shù)較高的文檔,加入到訓(xùn)練集里面繼續(xù)訓(xùn)練。整個(gè)過(guò)程如下:
本文采用了四個(gè)被經(jīng)常使用的數(shù)據(jù)用以評(píng)估所提出的模型,分別是 SQuAD, SearchQA, WebQuestions, WikiMovies。關(guān)于這幾個(gè)數(shù)據(jù)集的一些信息如下表:
本文提出的模型和以往的一些模型的效果對(duì)比如下圖:
可以看出來(lái),本文提出的模型的在所有數(shù)據(jù)上都取得了較以往模型顯著的提升。
為了評(píng)估引入的文檔控制門對(duì)文檔選擇的作用,我們?cè)?SQuAD 數(shù)據(jù)上來(lái)評(píng)估我們模型的效果。通過(guò)兩個(gè)指標(biāo)可以判斷出文檔選擇的效果:P@N:即通過(guò)文檔選擇的前 N 個(gè)文檔中是否包含最佳文檔。AR:在返回的文檔中最佳文檔的平均位置。各種模型的文檔選擇結(jié)果如下圖:
可以看到,對(duì)于文檔選擇來(lái)說(shuō),我們提出的文檔控制器能夠有效地選擇出正確文檔,選擇的效果大大優(yōu)于以往的方法。
本文的一個(gè)貢獻(xiàn)是在訓(xùn)練目標(biāo)中使用了全局歸一化因子,因此,我們對(duì)這個(gè)全局歸一化因子進(jìn)行衡量,我們?cè)u(píng)估不同的模型在加入不同數(shù)目的噪聲后的表現(xiàn),其結(jié)果如下圖:
可以看到,不同的模型在加入噪聲文檔之后,沒(méi)有用全局歸一化的模型效果顯著地降低,這個(gè)現(xiàn)象也被很多以前的多文檔問(wèn)答工作所證實(shí)。而由于我們使用了全局歸一化進(jìn)行訓(xùn)練,因此模型受噪聲影響較小。
最后,為了評(píng)估本文所提出的自舉法的數(shù)據(jù)效果,我們?cè)u(píng)估在自舉法不斷進(jìn)行的過(guò)程中模型的表現(xiàn),其結(jié)果如下圖:
可以看到,在新數(shù)據(jù)不斷加入之后,模型的效果不斷提升,這也從另一方面說(shuō)明了當(dāng)模型效果很好的時(shí)候,基于模型選擇出的數(shù)據(jù)包含有更豐富的模式,使在其上訓(xùn)練的模型表現(xiàn)更好。
本文提出了一種基于文檔門控選擇的開放域問(wèn)答模型。針對(duì)以往方法中存在的答案偏置問(wèn)題本文提出了一種文檔門控選擇器用以確定文檔分?jǐn)?shù),并且使用全局歸一化目標(biāo)進(jìn)行優(yōu)化。針對(duì)傳統(tǒng)方法中存在弱監(jiān)督數(shù)據(jù)噪聲過(guò)多的問(wèn)題,我們使用了一種基于自舉法的數(shù)據(jù)增強(qiáng)方法用以改進(jìn)擴(kuò)展訓(xùn)練數(shù)據(jù),在實(shí)驗(yàn)中我們發(fā)現(xiàn)本文提出的方法能夠有效地選擇出相應(yīng)文檔,并且對(duì)噪聲文檔的地抗能力更強(qiáng),在很多開放域問(wèn)答數(shù)據(jù)中本文提出的方法都取得了最好的效果。
更多人工智能相關(guān)報(bào)道請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。