神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

本文作者： MrBear

編輯：楊曉凡

2018-09-10 15:00

導(dǎo)語：如何拯救「脆弱」而「虛假」的 NLP 模型

雷鋒網(wǎng) AI 科技評論按：前段時(shí)間的文章《頂會見聞系列：ACL 2018，在更具挑戰(zhàn)的環(huán)境下理解數(shù)據(jù)表征及方法評價(jià)》中，我們介紹了 ACL 大會上展現(xiàn)出的 NLP 領(lǐng)域的最新研究風(fēng)向和值得關(guān)注的新進(jìn)展。從這些新動(dòng)向上我們似乎應(yīng)該對深度學(xué)習(xí) NLP 解決方案的表現(xiàn)充滿信心，但是當(dāng)我們真的仔細(xì)討論 NLP 模型的泛化能力時(shí)候，狀況其實(shí)并不樂觀。

The Gradient 博客近期的一篇文章就仔細(xì)討論了 NLP 領(lǐng)域的深度學(xué)習(xí)模型的泛化性問題，展現(xiàn)了對學(xué)習(xí)、語言、深度學(xué)習(xí)方法等方面的諸多深入思考。不得不潑一盆冷水，即便端到端的深度學(xué)習(xí)方法相比以往的方法在測試任務(wù)、測試數(shù)據(jù)集上的表現(xiàn)有了長足的改進(jìn)，我們距離「解決 NLP 問題」仍然有遙遠(yuǎn)的距離。雷鋒網(wǎng) AI 科技評論全文編譯如下。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

「泛化」是一個(gè)NLP 領(lǐng)域中正在被深入討論和研究的課題。

最近，我們經(jīng)?？梢钥吹揭恍┬侣劽襟w報(bào)道機(jī)器能夠在一些自然語言處理任務(wù)中取得與人相當(dāng)?shù)谋憩F(xiàn)，甚至超過人類。例如，閱讀一份文檔并回答關(guān)于該文檔的問題（阿里、微軟、訊飛與哈工大等等輪番刷榜 SQuAD）、確定某個(gè)給定的文本在語義上是否蘊(yùn)含另一個(gè)文本（http://www.aclweb.org/anthology/N18-1132）、以及機(jī)器翻譯。「如果機(jī)器能夠完成所有這些任務(wù)，那么它們當(dāng)然擁有真正的語言理解和推理能力」這種說法聽起來似乎是很合理的。

然而，事實(shí)并非如此。最近許多的研究表名，事實(shí)上最先進(jìn)的自然語言處理系統(tǒng)既「脆弱」（魯棒性差）又「虛假」（并未學(xué)到真正的語言規(guī)律）。

最先進(jìn)的自然語言模型是「脆弱」的

當(dāng)文本被修改時(shí)，即使它的意義被保留了下來，自然語言處理模型也會失效，例如：

Jia 和 Liang 等人攻破了閱讀理解模型 BiDAF（https://arxiv.org/abs/1611.01603）。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

Jia 和 Liang 等人論文中給出的例子。

Belinkov 和 Bisk 等人（https://arxiv.org/abs/1711.02173）攻破了基于字符的神經(jīng)網(wǎng)絡(luò)翻譯模型。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

Belinkov 和 Bisk 等人論文中給出的例子。BLEU是一個(gè)常用的將候選的文本翻譯結(jié)果和一個(gè)或多個(gè)參考譯文對比的評測算法。

Iyyer 與其合作者攻破了樹結(jié)構(gòu)雙向 LSTM（http://www.aclweb.org/anthology/P15-1150）的情感分類模型。

Iyyer 與其合作者論文中給出的例子。

最先進(jìn)的自然語言處理模型是「虛假」的

這些模型經(jīng)常會記住的是人為影響和偏置，而不是真正學(xué)到語言規(guī)律，例如：

Gururangan 與其合作者（http://aclweb.org/anthology/N18-2017）提出了一個(gè)對比基線，它能夠?qū)Ρ然鶞?zhǔn)數(shù)據(jù)集中 50 %以上的自然語言推理樣本正確分類，而不需要事先觀察前提文本（premise）。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

Gururangan 等人論文中給出的例子。這些樣本都是從論文的海報(bào)展示中截取的。

Moosavi 和 Strube（http://aclweb.org/anthology/P17-2003）表明，為共指解析任務(wù)構(gòu)建的深度學(xué)習(xí)模型（http://www.aclweb.org/anthology/P16-1061）總是將以包含「country」的專有名詞或普通名詞與訓(xùn)練數(shù)據(jù)中出現(xiàn)的某個(gè)國家聯(lián)系在一起。因此，該模型在有關(guān)訓(xùn)練數(shù)據(jù)中未提及的國家的文本上的表現(xiàn)很差。同時(shí)，Levy 與其合作者研究用用于識別兩個(gè)單詞之間的詞匯推理關(guān)系（例如，上位詞，概括性較強(qiáng)的單詞叫做特定性較強(qiáng)的單詞的上位詞）的模型。他們發(fā)現(xiàn)，這些模型并沒有學(xué)習(xí)到單詞之間關(guān)系的特征，而是僅僅學(xué)習(xí)到了一對單詞中某一單詞的獨(dú)立屬性：某個(gè)單詞是否是一個(gè)「典型上位詞」（例如，「動(dòng)物」一詞）。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

左圖：Moosavi 和Strube 論文中的例子。右圖：Levy 與其合作者論文中的例子

Agrawal 與其合作者指出，卷積神經(jīng)網(wǎng)絡(luò)（CNN）+長短期記憶網(wǎng)絡(luò)（LSTM）的可視化問答模型通常在「聽」了一半問題后，就會收斂到預(yù)測出的答案上。也就是說，該模型在很大程度上受到訓(xùn)練數(shù)據(jù)中淺層相關(guān)性的驅(qū)動(dòng)并且缺乏組合性（回答關(guān)于可見概念的不可見的組合問題的能力）。

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

Agrawal 等人論文中給出的例子

一個(gè)改進(jìn)最先進(jìn)的自然語言處理模型的 workshop

因此，盡管在對比基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好，現(xiàn)代的自然語言處理技術(shù)在面對新穎的自然語言輸入時(shí)，在語言理解和推理方面還遠(yuǎn)遠(yuǎn)達(dá)不到人類的水平。這些思考促使 Yonatan Bisk、Omer Levy、Mark Yatskar 組織了一個(gè) NAACL workshop，深度學(xué)習(xí)和自然語言處理新泛化方法 workshop（https://newgeneralization.github.io/）來討論泛化問題，這是機(jī)器學(xué)習(xí)領(lǐng)域面臨的最核心的挑戰(zhàn)。該 workshop 針對兩個(gè)問題展開了討論：

我們?nèi)绾尾拍艹浞衷u估我們的系統(tǒng)在新的、從前沒有遇見過的輸入上運(yùn)行的性能？或者換句話說，我們?nèi)绾纬浞衷u估我們系統(tǒng)的泛化能力？
我們應(yīng)該如何修改我們的模型，使它們的泛化能力更好？

這兩個(gè)問題都很困難，為期一天的 workshop 顯然不足以解決它們。然而，自然語言處理領(lǐng)域最聰明的研究者們在這個(gè)工作坊上對許多方法和構(gòu)想進(jìn)行了概述，它們值得引起你的注意。特別是，當(dāng)我們對這些討論進(jìn)行總結(jié)，它們是圍繞著三個(gè)主題展開的：使用更多的歸納偏置（但需要技巧），致力于賦予自然語言處理模型人類的常識、處理從未見過的分布和任務(wù)。

方向 1：使用更多的歸納偏置（但需要技巧）

目前，人們正在討論是否應(yīng)該減少或增加歸納偏置（即用于學(xué)習(xí)從輸入到輸出的映射函數(shù)的一些假設(shè)）。

例如，就在去年，Yann LeCun 和 Christopher Manning 進(jìn)行了一場引人注意的辯論（詳見雷鋒網(wǎng) AI 科技評論文章 AI領(lǐng)域的蝙蝠俠大戰(zhàn)超人：LeCun 與 Manning 如何看待神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)設(shè)計(jì)），討論我們在深度學(xué)習(xí)框架中應(yīng)該引入怎樣的固有先驗(yàn)知識。Manning 認(rèn)為，對于高階推理，以及利用較少的數(shù)據(jù)進(jìn)行學(xué)習(xí)的任務(wù)，結(jié)構(gòu)化偏置是十分必要的。相反，LeCun 將這種結(jié)構(gòu)描述成「必要的惡」，這迫使我們作出某些可能限制神經(jīng)網(wǎng)絡(luò)的假設(shè)。

LeCun 的觀點(diǎn)（減少歸納偏置）之所以令人信服的一個(gè)論據(jù)是，事實(shí)上使用基于語言學(xué)的偏置的現(xiàn)代模型最終并不能在許多對比基準(zhǔn)測試中獲得最佳性能（甚至有一個(gè)段子說，「每當(dāng)我從團(tuán)隊(duì)里開除一個(gè)語言學(xué)家，我的語言模型的準(zhǔn)確率就會提升一些」）。盡管如此，NLP 社區(qū)還是廣泛支持 Manning 的觀點(diǎn)。在神經(jīng)網(wǎng)絡(luò)架構(gòu)匯中引入語言結(jié)構(gòu)是ACL 2017 的一個(gè)顯著趨勢。然而，由于這種引入的結(jié)構(gòu)似乎在實(shí)踐中并沒有達(dá)到預(yù)期的效果，我們也許可以得出如下結(jié)論：探索引入歸納偏置的新方法應(yīng)該是一個(gè)好的工作方式，或者用 Manning 的話來說：

我們應(yīng)該使用更多的歸納偏置。我們對如何添加歸納偏置一無所知，所以我們會通過數(shù)據(jù)增強(qiáng)、創(chuàng)建偽訓(xùn)練數(shù)據(jù)來對這些偏置進(jìn)行編碼。這看起來是一種很奇怪的實(shí)現(xiàn)方法。

事實(shí)上，Yejin Choi 已經(jīng)在自然語言生成（NLG）的課題下對這個(gè)問題提出了自己的解決方法。她給出了一個(gè)通過能夠最大化下一個(gè)單詞的概率的通用語言模型（一個(gè)帶有集束搜索（beam search）的門控循環(huán)神經(jīng)網(wǎng)絡(luò)（gated RNN），https://guillaumegenthial.github.io/sequence-to-sequence.html）生成的評論的示例。

自然的語言輸入為：

總而言之，我會將這個(gè)酒店強(qiáng)烈推薦給想要住在中心地區(qū)的人。

而不自然的、重負(fù)性的、矛盾的、乏味的輸出是：

總而言之，我會將這個(gè)酒店推薦給想要住在中心地區(qū)的人，并且想要居住在中心地區(qū)。如果你想要住在中心地區(qū)，這里不是適合你的地方。然而，如果你想要住在這個(gè)地區(qū)的正中心，這里就是你應(yīng)該去的地方。

在她看來，當(dāng)前的語言模型生成的語言之所以如此不自然，這是因?yàn)樗鼈兪牵?/p>

被動(dòng)的學(xué)習(xí)器。盡管它們會閱讀輸入然后生成輸出，但是它們并不能像人類學(xué)習(xí)者一樣工作，它們不會根據(jù)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含這樣的合適的語言標(biāo)準(zhǔn)來反思自己生成的結(jié)果。換句話說，它們并不會「練習(xí)」寫作。
膚淺的學(xué)習(xí)器。它們并沒有捕獲到事實(shí)、實(shí)體、事件或者活動(dòng)之間的高階關(guān)系，而這些元素對于人類來說都可能是理解語言的關(guān)鍵線索。也就是說，這些模型并不了解我們?nèi)祟惖氖澜?/strong>。

如果我們鼓勵(lì)語言模型以一種使用特定的損失函數(shù)的數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)諸如有意義、風(fēng)格、重復(fù)和蘊(yùn)含等語言學(xué)特征，那么語言模型就可以「練習(xí)」寫作了。這種做法優(yōu)于依賴于顯式使用自然語言理解（NLU）工具輸出的方法。這是因?yàn)?，傳統(tǒng)上的 NLU 只處理自然的語言，因此無法理解可能并不自然的機(jī)器語言。比如上面的例子中那樣重復(fù)的、矛盾的、乏味的文本。由于NLU 并不理解機(jī)器語言，所以將NLU 工具應(yīng)用到生成的文本上、從而指導(dǎo)自然語言生成（NLG）模型理解生成的模型為什么如此不自然并由此采取相應(yīng)的行動(dòng)是毫無意義的?？偠灾?，我們不應(yīng)該開發(fā)引入了結(jié)構(gòu)化偏置的新神經(jīng)網(wǎng)絡(luò)架構(gòu)，而應(yīng)該改進(jìn)學(xué)習(xí)這些偏置的數(shù)據(jù)驅(qū)動(dòng)的方法。

自然語言生成（NLG）并不是唯一的我們應(yīng)該尋找更好的學(xué)習(xí)器優(yōu)化方法的 NLP 任務(wù)。在機(jī)器翻譯中，我們的優(yōu)化方法存在的一個(gè)嚴(yán)重的問題是，我們正通過像交叉熵或語句級別 BLEU 的期望這樣的損失函數(shù)來訓(xùn)練機(jī)器翻譯模型，這種模型已經(jīng)被證實(shí)是有偏的，并且與人類理解的相關(guān)性不足。事實(shí)上，只要我們使用如此簡單的指標(biāo)來訓(xùn)練我們的模型，它們就可能和人類對于文本的理解不匹配。由于目標(biāo)過于復(fù)雜，使用強(qiáng)化學(xué)習(xí)對于 NLP 來說似乎是一個(gè)完美的選項(xiàng)，因?yàn)樗试S模型在仿真環(huán)境下通過試錯(cuò)學(xué)習(xí)一個(gè)與人類理解類似的信號（即強(qiáng)化學(xué)習(xí)的「獎(jiǎng)勵(lì)」）。

Wang 與其合作者（http://www.aclweb.org/anthology/P18-1083）為「看圖說話」（描述一幅圖片或一段視頻的內(nèi)容）提出一種訓(xùn)練方法。首先，他們研究了目前使用強(qiáng)化學(xué)習(xí)直接在我們在測試時(shí)使用的「METEOR」、「BLEU」、「CIDEr」等不可微的指標(biāo)上訓(xùn)練圖像字幕系統(tǒng)的訓(xùn)練方法。Wang 與其合作者指出，如果我們使用 METEOR 分?jǐn)?shù)作為強(qiáng)化決策的獎(jiǎng)勵(lì)，METEOR分?jǐn)?shù)會顯著提高，但是其它的得分將顯著降低。他們舉出了一個(gè)平均的 METEOR 得分高達(dá)40.2 的例子：

We had a great time to have a lot of the. They were to be a of the. They were to be in the. The and it were to be the. The, and it were to be the.（該文本并不自然，缺乏必要的語言成分，不連貫）

相反，當(dāng)使用其它的指標(biāo)時(shí)（BLEU 或CIDEr）來評估生成的故事時(shí)，相反的情況發(fā)生了：許多有意義的、連貫的故事得分很低（幾乎為零）。這樣看來，機(jī)器似乎并不能根據(jù)這些指標(biāo)正常工作。

因此，作者提出了一種新的訓(xùn)練方法，旨在從人類標(biāo)注過的故事和抽樣得到的預(yù)測結(jié)果中得到與人類的理解類似的獎(jiǎng)勵(lì)。盡管如此，深度強(qiáng)化學(xué)習(xí)仍然是「脆弱」的，并且比有監(jiān)督的深度學(xué)習(xí)有更高的抽樣復(fù)雜度。一個(gè)真正的解決方案可能是讓人類參與到學(xué)習(xí)過程中的「人機(jī)循環(huán)」機(jī)器學(xué)習(xí)算法（主動(dòng)學(xué)習(xí)）。

方向 2：引入人類的常識

盡管「常識」對于人類來說可能能夠被普遍地理解，但是它卻很難被教授給機(jī)器。那么，為什么像對話、回復(fù)郵件、或者總結(jié)一個(gè)文件這樣的任務(wù)很困難呢？

這些任務(wù)都缺乏輸入和輸出之間的「一對一映射」，需要關(guān)于人類世界的抽象、認(rèn)知、推理和最廣泛的知識。換句話說，只要模式匹配（現(xiàn)在大多數(shù)自然語言處理模型采取的方法）不能由于某些與人類理解類似的「常識」而得到提升，那么我們就不可能解決這些問題。

Choi 通過一個(gè)簡單而有效的例子說明了這一點(diǎn)：一個(gè)新聞標(biāo)題上寫著「芝士漢堡對人有害」（cheeseburger stabbing）

【圖片來源：https://newgeneralization.github.io 所有者：Yejin Choi 】

僅僅知道在定語修飾關(guān)系中「stabbing」被依賴的名詞「cheeseburger」修飾，還不足以理解「cheeseburger stabbing」究竟是什么意思。上圖來自 Choi 的演講。

對于這個(gè)標(biāo)題，一臺機(jī)器可能提出從下面這些問題：

有人因?yàn)橐粋€(gè)芝士漢堡刺傷了別人？
有人刺傷了一個(gè)芝士漢堡？
一個(gè)芝士漢堡刺傷了人？
一個(gè)芝士漢堡刺傷了另一個(gè)芝士漢堡？

如果機(jī)器擁有社會和物理常識的話，它們就可以排除掉那些你永遠(yuǎn)不會問的荒謬問題。社會常識（http://aclweb.org/anthology/P18-1043）可以提醒機(jī)器，第一種選項(xiàng)似乎是合理的，因?yàn)閭θ耸遣缓玫?，并且因此具有新聞價(jià)值。而傷害一個(gè)芝士漢堡則沒有新聞價(jià)值。物理常識（http://aclweb.org/anthology/P17-1025）則說明第三和第四個(gè)選項(xiàng)是不可能的，因?yàn)橹ナ繚h堡不能被用來傷害任何東西。

除了引入常識知識，Choi 還推崇「通過語義標(biāo)注進(jìn)行理解」，這里的重點(diǎn)是應(yīng)該把「說了什么」改為「通過仿真進(jìn)行理解」。這模擬了文本所暗示的因果效應(yīng)，不僅側(cè)重于「文本說了什么」，還側(cè)重于「文本沒有說什么，但暗示了什么」。Bosselut 與其同事（https://arxiv.org/abs/1711.05313）展示了一個(gè)例子，用以說明為什么預(yù)測對于文本中的實(shí)體采取的動(dòng)作所隱含的因果效應(yīng)是十分重要的：

如果我們給出「在松餅混合物中加入藍(lán)莓，然后烘焙一個(gè)半小時(shí)」這樣的說明，一個(gè)智能體必須要能夠預(yù)測一些蘊(yùn)含的事實(shí)，例如：藍(lán)莓現(xiàn)在正在烤箱里，它們的「溫度」會升高。

Mihaylov 和 Frank（http://aclweb.org/anthology/P18-1076）也認(rèn)識到我們必須通過仿真來進(jìn)行理解。與其他更復(fù)雜的閱讀理解模型不同，他們的完形填空式的閱讀理解模型可以處理「大部分用來推理答案的信息在一個(gè)故事中被給出」的情況，但是也需要一些額外的常識來預(yù)測答案：馬（horse）是一種動(dòng)物，動(dòng)物（animal）是用來騎的，而乘騎（mount）與動(dòng)物有關(guān)。

一個(gè)需要常識的完形填空式的閱讀理解案例。該例子來自 Mihaylov 和Frank 的論文。

很不幸，我們必須承認(rèn)，現(xiàn)代的 NLP 就像「只有嘴巴沒有腦子」一樣地運(yùn)行，為了改變這種現(xiàn)狀，我們必須向它們提供常識知識，教它們推測出有什么東西是沒有直接說，但是暗示出來了。

「循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是無腦的嘴巴嗎？」幻燈片取自 Choi 的演講。

方向 3：評估從未見到過的分布和任務(wù)

使用監(jiān)督學(xué)習(xí)解決問題的標(biāo)準(zhǔn)方法包含以下步驟：

確定如何標(biāo)注數(shù)據(jù)
手動(dòng)給數(shù)據(jù)打標(biāo)簽
將標(biāo)注過的數(shù)據(jù)分割成訓(xùn)練集、測試集和驗(yàn)證集。通常，如果可能的話，我們建議確保訓(xùn)練集、開發(fā)集（驗(yàn)證集）和測試集的數(shù)據(jù)擁有同樣的概率分布。
確定如何表征輸入
學(xué)習(xí)從輸入到輸出的映射函數(shù)
使用一種恰當(dāng)?shù)姆绞皆跍y試集上評估提出的學(xué)習(xí)方法

按照這種方法解出下面的謎題，需要對數(shù)據(jù)進(jìn)行標(biāo)注從而訓(xùn)練一個(gè)識別各單位的模型，還要考慮多種表征和解釋（圖片、文本、布局、拼寫、發(fā)音），并且將它們放在一起考慮。該模型確定了「最佳」的全局解釋，并且與人類對這一謎題的解釋相符。

一個(gè)難以標(biāo)注的輸入的示例。圖片由Dan Roth 提供。

在 Dan Roth 看來：

這種標(biāo)準(zhǔn)方法不具有可擴(kuò)展性。我們將永遠(yuǎn)不可能擁有足夠的標(biāo)注數(shù)據(jù)為我們需要的所有任務(wù)訓(xùn)練所有的模型。為了解出上面的謎題，我們需要標(biāo)注過的訓(xùn)練數(shù)據(jù)去解決至少五個(gè)不同的任務(wù)，或者大量的數(shù)據(jù)來訓(xùn)練一個(gè)端到端的模型。雖然可以利用 ImageNet 這樣現(xiàn)有的資源來完成「單位識別」這樣的組建，但是 ImageNet 并不足以領(lǐng)悟到「世界（world）」一詞在這種語境下比「地球（globe）」要好。即使有人做出了巨大的努力進(jìn)行標(biāo)注，這些數(shù)據(jù)還是需要不斷地被更新，因?yàn)槊刻於夹枰紤]新的流行文化。

Roth 提醒我們注意一個(gè)事實(shí)，即大量的數(shù)據(jù)獨(dú)立于特定的任務(wù)存在，并且有足夠多的暗示信息來為一系列任務(wù)推斷出監(jiān)督信號。這就是「伴隨監(jiān)督（incidental supervision）」這一想法的由來。用他自己的話說（http://cogcomp.org/papers/Roth-AAAI17-incidental-supervision.pdf）：

「伴隨」信號指的是在數(shù)據(jù)和環(huán)境中存在的一系列若信號，它們獨(dú)立于有待解決的任務(wù)。這些信號與目標(biāo)任務(wù)是相互關(guān)聯(lián)的，可以通過適當(dāng)?shù)乃惴ㄖС旨右岳?，用來提供足夠的監(jiān)督信號、有利于機(jī)器進(jìn)行學(xué)習(xí)。例如，我們不妨想一想命名實(shí)體（NE）音譯任務(wù)，基于各個(gè)實(shí)體間發(fā)音的相似性，將命名實(shí)體從源語言改寫成目標(biāo)語言的過程（例如，確定如何用希伯來語寫奧巴馬的名字）。我們擁有現(xiàn)成的時(shí)序信號，它獨(dú)立于有待解決的音譯任務(wù)存在。這種時(shí)序信號是與我們面對的任務(wù)相互關(guān)聯(lián)的，它和其他的信號和一些推理結(jié)果可以被用來為任務(wù)提供監(jiān)督信息，而不需要任何繁瑣的標(biāo)注工作。

Percy Liang 則認(rèn)為，如果訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布是相似的，「任何一個(gè)有表示能力的模型，只要給了足夠數(shù)據(jù)都能夠完成這個(gè)任務(wù)?！谷欢?，對于外推任務(wù)（當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布不同時(shí)），我們必須真正設(shè)計(jì)一個(gè)更加「正確」的模型。

在訓(xùn)練和測試時(shí)對同樣的任務(wù)進(jìn)行外推的做法被稱為領(lǐng)域自適應(yīng)。近年來，這一課題引起了廣泛的關(guān)注。

但是「伴隨監(jiān)督」，或者對訓(xùn)練時(shí)任務(wù)和測試時(shí)任務(wù)不同的外推并不是常見的做法。Li 與其合作者（http://aclweb.org/anthology/N18-1169）訓(xùn)練了一個(gè)用于文本定語遷移的模型，它僅有對與給定的句子的定語標(biāo)簽，而不需要一個(gè)平行的語料庫把具有相同內(nèi)容、但是定語不同的句子對應(yīng)起來。換句話說，他們訓(xùn)練了一個(gè)模型用來預(yù)測一個(gè)給定的句子的定語，它只需要被作為一個(gè)分類器進(jìn)行訓(xùn)練。類似地，Selsam 與其合作者（https://arxiv.org/abs/1802.03685）訓(xùn)練了一個(gè)學(xué)著解決SAT（可滿足性）問題的模型，它只需要被作為一個(gè)預(yù)測可滿足性的分類器進(jìn)行訓(xùn)練。值得注意的是，這兩種模型都有很強(qiáng)的歸納偏置。前者使用的假設(shè)是，定語往往在局部的判別短語中較為明顯。后者則捕獲了調(diào)查傳播算法（Survey propagation）的歸納偏置。

Percy 對研究社區(qū)提出了挑戰(zhàn)，他呼吁道：

每篇論文，以及它們對所使用的數(shù)據(jù)集的評估，都應(yīng)該在一個(gè)新的分布或一個(gè)新的任務(wù)上進(jìn)行評估，因?yàn)槲覀兊哪繕?biāo)是解決任務(wù)，而不是解決數(shù)據(jù)集。
當(dāng)我們使用機(jī)器學(xué)習(xí)技術(shù)時(shí)，我們需要像機(jī)器學(xué)習(xí)一樣思考，至少在評估的時(shí)候是這樣的。這是因?yàn)椋瑱C(jī)器學(xué)習(xí)就像一場龍卷風(fēng)，它把一切東西都吸收進(jìn)去了，而不在乎常識、邏輯推理、語言現(xiàn)象或物理直覺。

幻燈片取自 Liang 的報(bào)告

參加 workshop 的研究人員們想知道，我們是否想要構(gòu)建用于壓力測試的數(shù)據(jù)集，為了觀測我們的模型真正的泛化能力，該測試超出了正常操作的能力，達(dá)到了一個(gè)臨界點(diǎn)（條件十分苛刻）。

我們有理由相信，只有在解決了較為簡單的問題后，一個(gè)模型才能有可能解決更困難的案例。為了知道較為簡單的問題是否得到了解決，Liang 建議我們可以根據(jù)案例的難度對它們進(jìn)行分類。Devi Parikh 強(qiáng)調(diào)，對于解決了簡單的問題就能夠確定更難的問題有沒有可能解決的這樣的設(shè)想，只有一小部分任務(wù)和數(shù)據(jù)集能滿足。而那些不包括在這一小部分中的任務(wù)，例如可視化問答系統(tǒng)，則不適合這個(gè)框架。目前還不清楚模型能夠處理哪些「圖像-問題」對，從而處理其它可能更困難的「圖像=問題」對。因此，如果我們把模型無法給出答案的例子定義為「更困難」的案例，那么情況可能會變的很糟。

參加 workshop 的研究人員們擔(dān)心，壓力測試可能會放緩這一領(lǐng)域的進(jìn)步。什么樣的壓力能讓我們對真正的泛化能力有更好的理解？能夠促使研究人員構(gòu)建泛化能力更強(qiáng)的系統(tǒng)？但是不會導(dǎo)致資金的削減以及研究人員由于產(chǎn)出較少而倍感壓力？workshop 沒有就此問題給出答案。

結(jié)論

「NAACL 深度學(xué)習(xí)和自然語言處理新泛化方法 workshop」是人們開始認(rèn)真重新思考現(xiàn)代自然語言處理技術(shù)的語言理解和推理能力的契機(jī)。這個(gè)重要的討論在 ACL 大會上繼續(xù)進(jìn)行，Denis Newman-Griffis 報(bào)告說，ACL 參會者多次建議我們需要重新思考更廣泛的泛化和測試的情景，這些情景并不能反映訓(xùn)練數(shù)據(jù)的分布。Sebastian Ruder 說，這個(gè) NAACL workshop 的主題在 RepLNLP（最受歡迎的關(guān)于自然語言處理的表征學(xué)習(xí)的 ACL workshop）上也被提及。

以上的事實(shí)表明，我們并不是完全不知道如何修改我們的模型來提高他們的泛化能力。但是，仍然有很大的空間提出新的更好的解決方案。

我們應(yīng)該使用更多的歸納偏置，但是需要找出最恰當(dāng)?shù)姆椒▽⑺鼈冋系缴窠?jīng)網(wǎng)絡(luò)架構(gòu)中，這樣它們才能夠?yàn)榫W(wǎng)絡(luò)架構(gòu)帶來我們期望得到的提升。

我們必須通過一些與人類理解類似的常識概念來提升最先進(jìn)的模式匹配模型，從而使它們能夠捕獲到事實(shí)、實(shí)體、事件和活動(dòng)之間的高階關(guān)系。但是挖掘出常識通常是極具挑戰(zhàn)性的，因此我們需要新的、有創(chuàng)造性的方法來抽取出常識。

最后，我們應(yīng)該處理從未見過的分布和任務(wù)。否則，「任何具有足夠足夠數(shù)據(jù)的表示模型都能夠完成這個(gè)任務(wù)」。顯然，訓(xùn)練這樣的模型更加困難，并且不會馬上取得很好的結(jié)果。作為研究人員，我們必須勇于開發(fā)這種模型；而作為審稿人，我們不應(yīng)該批評試圖這樣做的工作。

這些討論雖然都是 NLP 領(lǐng)域的話題，但這也反映了整個(gè) AI 研究領(lǐng)域內(nèi)的更大的趨勢：從深度學(xué)習(xí)的缺點(diǎn)和優(yōu)勢中反思學(xué)習(xí)。Yuille and Liu 寫了一篇觀點(diǎn)文章《深度神經(jīng)網(wǎng)絡(luò)到底對計(jì)算機(jī)視覺做了什么》，Gary Marcus 更是一直宣揚(yáng)，對于整個(gè) AI 領(lǐng)域的問題來說，我們需要多多考慮深度學(xué)習(xí)之外的方法。這是一個(gè)很健康的信號，AI 研究人員們越來越清楚深度學(xué)習(xí)的局限性在哪里，并且在努力改善這些局限。

via gradient.pub，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

分享：

相關(guān)文章

自然語言處理泛化能力 NAACL ACL 人工智能機(jī)器學(xué)習(xí) 深度學(xué)習(xí) Percy Liang Christopher Manning

阿里與上交大提出 LLM 長文本計(jì)算新解法：可處理文本 ...

原京東 AI 開山者周伯文受聘為清華大學(xué)電子系長聘教 ...

AI交互成行業(yè)發(fā)展核心，科沃斯再次引領(lǐng)服務(wù)機(jī)器人行 ...

捷報(bào)！清華孫茂松領(lǐng)導(dǎo)的NLP團(tuán)隊(duì)榮獲ACL 2022「最佳演 ...

MrBear

知情人士

發(fā)私信

當(dāng)月熱門文章

最新文章

高性能計(jì)算群星閃耀時(shí)

綠動(dòng)算力超智融合

WRC 觀察丨VLA 能帶來融資，但不能帶來收入

騰訊Q2財(cái)報(bào)：營銷服務(wù)358億！再創(chuàng)新高

DeepMind 沒舍得開源的 Genie 3，被昆侖萬維放出來了

上海AI Lab龐江淼：開放平臺是具身智能“ChatGPT時(shí)刻”的前提丨具身先鋒十人談

熱門搜索

深度學(xué)習(xí) 物聯(lián)網(wǎng) 美團(tuán) OpenAI 微博監(jiān)管 Pinterest tiktok 自動(dòng)駕駛汽車商湯科技 iOS 8

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題

最先進(jìn)的自然語言模型是「脆弱」的

最先進(jìn)的自然語言處理模型是「虛假」的

一個(gè)改進(jìn)最先進(jìn)的自然語言處理模型的 workshop

方向 1：使用更多的歸納偏置（但需要技巧）

方向 2：引入人類的常識

方向 3：評估從未見到過的分布和任務(wù)

結(jié)論

神經(jīng)網(wǎng)絡(luò)并不是尚方寶劍，我們需要正視深度 NLP 模型的泛化問題