0
本文作者: skura | 2019-02-23 20:13 | 專題:ACL 2018 |
雷鋒網(wǎng) AI 科技評論按,近日,斯坦福自然語言處理小組發(fā)布了一篇博文,重點討論了由 Ribeiro、Marco Tulio、Sameer Singh 和 Carlos Guestrin 寫的論文「Semantically equivalent adversarial rules for debugging nlp models」(用于調(diào)試 NLP 模型的語義等價對立規(guī)則)。該論文是 2018 年 ACL 論文,被發(fā)表在《計算語言學(xué)協(xié)會第 56 屆年度會議論文集》2018 年第 1 卷:長篇論文中。雷鋒網(wǎng) AI 科技評論將這片博文編譯整理如下。
魯棒性是工程中的一個核心問題。正如吊橋一樣,它需要抵御強風(fēng),這樣它就不會像塔科馬窄橋那樣倒塌。它也需要像核反應(yīng)堆一樣可以容錯,這樣福島第一核電站事件就不會發(fā)生。
當我們越來越依賴一種技術(shù)——吊橋、核電,或者是 NLP 模型時,我們必須提高對這項技術(shù)的信任水平。魯棒性正是我們在這些系統(tǒng)上所需要的。
Jia&Liang 在 2017 年的早期研究表明,NLP 模型很容易受到文本中人類微小干擾的影響——簡單的添加或刪除可以打破模型,迫使其產(chǎn)生無意義的答案。其他研究,如 belinkov&bisk 的研究、ebrahimi 等人的研究,顯示了系統(tǒng)的不穩(wěn)定,即刪除或替換一個字符就足以破壞模型。在序列數(shù)據(jù)中引入噪聲并不總是壞事:Xie 等人 4 的早期工作表明,使用單詞或者字符級擾動(噪聲)訓(xùn)練機器翻譯或語言模型實際上提高了性能。
然而,在 Ian Goodfellow 的最初概念中,很難將這些受干擾的例子稱為「對抗性的例子」。本文提出了一種用兩個性質(zhì)來描述文本中一個對立的例子的方法:
兩個句子的語義等價性:SemEq(x,x′)
擾動標簽預(yù)測:f(x)≠f(x′)
在我們的討論中,人們指出,從語言學(xué)的角度來看,很難定義「語義等價」,因為我們對「意義」沒有一個精確而客觀的定義。也就是說,即使兩個句子對某個特定任務(wù)能產(chǎn)生相同的效果,它們也不需要是同義詞。在「What Is a Paraphrase」中可以找到對英語釋義的更細微的討論?這是 Bhagat & Hovy 在 2012 年發(fā)表的一篇文章,在文中,語義等價被認為是人類判斷的「等價物」。
語義等價難點(SEAs)
Ribeiro 等人認為只有滿足這兩個條件的序列才是文本中真正的對立例子。它們使用指示函數(shù)將此條件轉(zhuǎn)換為連接形式:
「Pivoting」是 Bannard 和 Callison-Burch 在 2005 年提出的一種統(tǒng)計機器翻譯技術(shù)。本文以 Lapata 等人 2017 年發(fā)表的多語種釋義論文中定義的釋義可能性來衡量語義等價性。如果兩個英語字符串 e1 和 e2 可以翻譯成同一個法語字符串 f,那么可以假定這兩個字符串的意思是相同的。
圖 1
圖 2
pivot 方案由圖 1 的生成模型描述,假設(shè) e1 和 e2 之間存在條件獨立性,給定 f:p(e2 | e1,f)=p(e2 | f)。圖 2 的模型描述了 Multipivot:它將一個英語句子翻譯成多個法語句子,然后再重新翻譯成英語生成釋義。multipivoting 的反向翻譯可以是一個簡單的解碼器平均值——每個解碼器使用一個法語字符串,下一個英語標記的總輸出概率是每個解碼器概率的加權(quán)和。雷鋒網(wǎng)
釋義概率重新加權(quán)
假設(shè)釋義模型中的非規(guī)范化邏輯為 ?(x′|x),假設(shè) ∏x 是模型可以生成的給定 x 的一組釋義,那么特定釋義的概率表示如下:
注意在分母中,所有生成的句子(包括生成的原始句子)共享這個概率。如果一個句子有許多容易產(chǎn)生的釋義(用高?值表示),那么 p(x|x) 和所有其他 p(x′|x) 都會很小,用 p(x′|x) 除以 p(x|x) 將得到一個較大的值(接近 1)。對于一個難以釋義的句子,p(x|x) 應(yīng)該比 p(x′|x) 大得多,此時用 p(x′|x) 除以 p(x|x) 將得到一個較小的值(接近 0)。
基于這種直覺,Ribeiro 等人建議計算語義得分 S(x,x′) 作為釋義質(zhì)量的衡量標準:
生成滿足方程式 1 的對立句子的簡單方法是:要求釋義模型生成句子 x 的釋義??梢試L試這個式子,看是否會改變模型的預(yù)測結(jié)果:f(x′)≠f(x)。
語義等價對抗規(guī)則(SEARs)
SEAs 是為每一個示例獨立產(chǎn)生的對抗性示例。在這一步中,作者制定了將這些本地 SEAs 轉(zhuǎn)化為全局規(guī)則(SEARs)的步驟。本文定義的規(guī)則是一個簡單的離散變換 r=(a→c)。例如,r=(movie→film) 可以變成 r("Great movie!") = "Great film!"。
給定一對文本(x,x′),其中 SEA(x,x′)=1,Ribeiro 等人選擇將 x 轉(zhuǎn)換為 x′ 的文本的最小連續(xù)跨度,包括鄰近上下文(文本前后各一個單詞),并用 POS(語音的一部分)標簽對序列進行注釋。最后一步是生成生詞和它們的 POS 標簽組合的產(chǎn)物,下面的例子可以看到它是如何一步一步做到這點的:
"What color is the tray?" -> "Which color is the tray?"
步驟 1: (What -> Which)
步驟 2: (What color -> Which color)
步驟 3: (What color -> Which color), (What NOUN -> Which NOUN), (WP color -> Which color), (What color -> WP color)
因為這個過程適用于每對(x,x′),并且我們假設(shè)人們只愿意通過 B 規(guī)則,Ribeiro 等人建議通過篩選使|R|≤B,那么標準將會是:
產(chǎn)生語義等價句子的概率很高:這是通過式子 來衡量的。簡單地說,通過應(yīng)用這個規(guī)則,語料庫中的大多數(shù) x 可以翻譯成語義上等價的釋義。在論文中,δ=0.1。
釋義的數(shù)量多:規(guī)則 r 還必須生成可以更改模型預(yù)測結(jié)果的釋義。此外,釋義相互之間的語義相似性也應(yīng)該很高,這一點可以用來評估。
沒有冗余:規(guī)則應(yīng)多樣化,并覆蓋盡可能多的 x 。
為了滿足上面的第 2、3 條標準,Ribeiro 等人提出了一種子模型優(yōu)化目標,該目標可以用貪心算法來實現(xiàn),在理論上保證常數(shù)因子的最優(yōu)解。
算法的整體描述如下:
實驗與驗證
Ribeiro 等人關(guān)注的關(guān)鍵指標是翻轉(zhuǎn)的百分比,它的定義為,在驗證集中,有多少例子被正確地預(yù)測,但是在使用規(guī)則后預(yù)測是錯誤的。
在討論過程中,對這個度量標準的意見是,它并沒有指出有多少示例受到這個規(guī)則的影響。例如,在 VQA 數(shù)據(jù)集中,將"color" 更改為"colour" 的規(guī)則可能只有 2.2% 的翻轉(zhuǎn)率,但這可能是因為在 VQA 的驗證集中,只有 2.2% 的實例包含單詞「color」。因此,事實上,此規(guī)則在生成對抗性示例中有 100% 的成功率。
這篇論文展示了一些非常好的離散規(guī)則,這些規(guī)則可以生成對抗性的文本示例如下:
人參與實驗
Ribeiro 等人對人類進行了實驗。把人類帶到實驗中有兩個目的:人類可以判斷規(guī)則是否真的能產(chǎn)生意譯(超出了 Lapata 等人提供的語義評分模型);人類可以判斷規(guī)則引起的干擾是否真的有意義。
他們首先評估了 SEA 的質(zhì)量:對于驗證集中 100 個正確預(yù)測的示例,他們創(chuàng)建了三組比較:1)完全由人類創(chuàng)造;2)完全由 SEA 模型生成;3)通過算法生成 SEA,但是用人類相似性判斷的標準替換 S(x,x′)。
結(jié)果顯示,SEA 的成績勉強超過人類(18% VS 16%),但結(jié)合人類的判斷,HSEA 的表現(xiàn)遠超人類(24% VS 13%)。
隨后他們評估了全局規(guī)則 SEARs。這一次,他們邀請「專家」使用交互式 Web 界面創(chuàng)建全局規(guī)則。他們將專家定義為參加過一個研究生級別的 NLP 或 ML 課程的學(xué)生、教師。嚴格來說,專家應(yīng)該是語言學(xué)專業(yè)的學(xué)生。
專家可以看到關(guān)于規(guī)則創(chuàng)建的即時反饋:他們知道在 100 個示例中,有多少示例受到規(guī)則的干擾,有多少示例的預(yù)測標簽受到干擾。為了進行公平的比較,他們被要求創(chuàng)建盡可能多的規(guī)則,并從中選出最好的 10 個。此外,每個專家都有大約 15 分鐘的時間來創(chuàng)建規(guī)則。他們還被要求評估 SEARs 并選出 10 個對保持語義等價性最有意義的規(guī)則。
結(jié)果并不令人驚訝,SEARs 在達到一個高翻轉(zhuǎn)百分比方面表現(xiàn)得好得多。人與機器結(jié)合的結(jié)果優(yōu)于只有人或者只有機器。他們還比較了專家創(chuàng)建規(guī)則與評估機器創(chuàng)建的規(guī)則所需的平均時間(秒)。
最后,論文給出了一個簡單的解決這些 bug 的方法:他們可以簡單地使用這些人為接受的規(guī)則來干擾訓(xùn)練集,并且能夠在 VQA 上將錯誤率從 12.6% 降低到 1.4%,在情感分析上從 12.6% 降低到 3.4%。
總結(jié)
本文采用釋義模型來評估語義相似度,生成語義等價的句子。如文中所述,基于機器翻譯的釋義只會對句子造成局部干擾,而人類創(chuàng)造的語義等價句子會產(chǎn)生更顯著的干擾。
另一個局限是基于梯度的對抗性示例生成更具指導(dǎo)性,而本文提出的方法似乎是一種簡單的試錯方法(不斷生成釋義,直到一個釋義干擾模型預(yù)測)。另一方面,這種方法適用于沒有梯度訪問的黑盒模型,因此比基于梯度的方法更通用。
本文提供了一個清晰的框架,并明確地提出了對抗性文本示例應(yīng)遵循的特征。這個定義與計算機視覺中的對抗性例子非常兼容。然而,這個框架只涵蓋了一種特定類型的對抗性示例。這種方法沒有涉及到的一個明顯的對抗性例子是添加或刪除句子之類的操作,而這對于攻擊 QA 模型很重要。
參考文獻:
Jia, Robin, and Percy Liang. "Adversarial examples for evaluating reading comprehension systems." arXiv preprint arXiv:1707.07328 (2017).
Belinkov, Yonatan, and Yonatan Bisk. "Synthetic and natural noise both break neural machine translation." arXiv preprint arXiv:1711.02173(2017).
Ebrahimi, Javid, et al. "HotFlip: White-Box Adversarial Examples for Text Classification." arXiv preprint arXiv:1712.06751 (2017).
Xie, Ziang, et al. "Data noising as smoothing in neural network language models." arXiv preprint arXiv:1703.02573 (2017).
Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. "Explaining and harnessing adversarial examples (2014)." arXiv preprint arXiv:1412.6572.
Mallinson, Jonathan, Rico Sennrich, and Mirella Lapata. "Paraphrasing revisited with neural machine translation." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers. Vol. 1. 2017.
Colin Bannard and Chris Callison-Burch. 2005. Paraphrasing with bilingual parallel corpora. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pages 597–604, Ann Arbor, Michigan.
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章