丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

本文作者: 楊曉凡 2019-08-22 22:07
導(dǎo)語(yǔ):錯(cuò)誤分析就像指南針,我們需要它盡可能準(zhǔn)確

雷鋒網(wǎng) AI 科技評(píng)論按:嘗試分析機(jī)器學(xué)習(xí)模型在什么時(shí)候、以什么方式、由于什么原因失效,我們把這稱(chēng)為「誤差分析(error analysis)」。對(duì)科研人員來(lái)說(shuō),他們需要通過(guò)誤差分析選擇后續(xù)的改進(jìn)方向;模型的實(shí)際使用者們也需要根據(jù)誤差分析來(lái)確定模型部署的許多細(xì)節(jié)。由于誤差分析對(duì)后續(xù)的行動(dòng)方向有顯著的影響,如果誤差分析中出現(xiàn)了偏倚,或者誤差分析不完整,很可能會(huì)帶來(lái)我們不想看到的后果。

NLP 任務(wù)誤差分析的現(xiàn)狀

但是人們目前都是怎么做誤差分析的呢?如果你翻翻自然語(yǔ)言處理頂級(jí)學(xué)術(shù)會(huì)議 ACL 的接收論文,你基本上會(huì)看到這樣的敘述:

  • 我們針對(duì) 100 個(gè)樣本問(wèn)題進(jìn)行了誤差分析……

  • 我們隨機(jī)選擇了 50 個(gè)回答不正確的問(wèn)題并把它們分為了 6 類(lèi)……

  • 我們找出了 100 個(gè)不正確的預(yù)測(cè)結(jié)果并嘗試尋找共同的誤差類(lèi)別……

  • ……

顯然,這個(gè)領(lǐng)域內(nèi)的研究人員們都不約而同地采用了這種做法:「我們隨機(jī)選擇了 50 到 100 個(gè)回答不正確的問(wèn)題并把它們大致分為了 N 組」。(斯坦福大學(xué) NLP 組負(fù)責(zé)人 Christopher Manning 的畫(huà)外音:?jiǎn)柎鹑蝿?wù)的論文里選 100 個(gè)樣本做錯(cuò)誤分析的慣例恐怕出自我這里 —— 最初我們想做 200 個(gè)的,但我一直沒(méi)有做分給我的那一半)

選擇一部分錯(cuò)誤樣本做分析,看起來(lái)好像還有那么點(diǎn)道理對(duì)不對(duì)?但其實(shí)這種做法有很大問(wèn)題。比如,50 到 100 的樣本數(shù)量太小了,一般來(lái)說(shuō)只占到誤差總量的 5%。這么小的采樣數(shù)量很難代表真正的誤差分布。如果拿來(lái)做誤差分析的采樣樣本里剛好沒(méi)有體現(xiàn)出某個(gè)關(guān)鍵的模型問(wèn)題(比如聊天助理機(jī)器人會(huì)對(duì)某些特定的語(yǔ)句給出不當(dāng)?shù)幕卮穑缓缶瓦@么把沒(méi)有得到修復(fù)的模型實(shí)際部署了,結(jié)果肯定會(huì)非常可怕。

這還沒(méi)完,樣本數(shù)量小才僅僅是常見(jiàn)做法中出現(xiàn)的第一個(gè)問(wèn)題而已。在 ACL 2019 論文《Errudite: Scalable, Reproducible, and Testable Error Analysis》中,作者們?cè)敿?xì)列舉了 NLP 誤差分析中的許多個(gè)關(guān)鍵挑戰(zhàn),也提出了三個(gè)原則,希望大家能夠把誤差分析做得更準(zhǔn)確,也具備更好的可重復(fù)、可拓展、可測(cè)試性。作者們還設(shè)計(jì)了 Errudite,這是一個(gè)實(shí)踐了這些原則的交互式工具,它也可以逐個(gè)應(yīng)對(duì)發(fā)現(xiàn)的問(wèn)題。

論文作者們也撰寫(xiě)了一篇介紹博客,根據(jù)通過(guò)一個(gè)具體的錯(cuò)誤分析流程來(lái)說(shuō)明當(dāng)前基于一小批樣本的手工、主觀誤差分析為什么容易得出模棱兩可的、有偏倚的分析,并且可能弄錯(cuò)誤差原因,以及如何借助 Errudite 避免這些錯(cuò)誤。他們的論文中還有更多的例子。雷鋒網(wǎng) AI 科技評(píng)論對(duì)介紹博客做全文編譯。

從實(shí)際例子說(shuō)起

我們要對(duì)機(jī)器閱讀理解(Machine Comprehension)的一個(gè)知名基準(zhǔn)模型 BiDAF (https://allenai.github.io/bi-att-flow/)做錯(cuò)誤分析。在這項(xiàng)任務(wù)中,首先給定一個(gè)問(wèn)題和一段文本,機(jī)器閱讀理解模型需要找到能正確回答問(wèn)題的文本片段。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

在這個(gè)出自 SQuAD 數(shù)據(jù)集的例子中,加粗字體的 Murray Gold 創(chuàng)作了《Doctor Who(神秘博士)》的 2005 特別篇。

作為語(yǔ)言理解的最重要測(cè)試任務(wù)之一,機(jī)器閱讀理解中的誤差分析非常關(guān)鍵但也有不少困難:研究人員們都希望能夠找到先進(jìn)模型中的弱點(diǎn)并進(jìn)行改進(jìn),但是由于模型的輸入(問(wèn)題、文本段落)和輸出(答案)都是非結(jié)構(gòu)化的文本,能夠用來(lái)分析解讀數(shù)據(jù)集的特征就很少。BiDAF 是研究機(jī)器閱讀理解任務(wù)的學(xué)者們非常熟悉的一個(gè)模型了,下文中拿來(lái)舉例的誤差分析就都是出自研究人員們針對(duì) BiDAF 的真實(shí)分析。

在剛才這個(gè)例子中,BiDAF 做了錯(cuò)誤的預(yù)測(cè),給出的答案是 John Debney (下劃線)而不是 Murray Gold。我們希望能夠從這個(gè)錯(cuò)誤做一些推廣,更全面地理解模型的表現(xiàn)。

在分析這個(gè)錯(cuò)誤時(shí),我們首先會(huì)問(wèn)的問(wèn)題就是:模型為什么會(huì)出現(xiàn)這種錯(cuò)誤?一位專(zhuān)家給出了一個(gè)干擾詞猜想:BiDAF 擅長(zhǎng)把問(wèn)題匹配到各種命名實(shí)體類(lèi)別上,但是如果同時(shí)出現(xiàn)了同類(lèi)型的其它實(shí)體的話(huà),BiDAF 就很容易被干擾。以上面那個(gè)例子來(lái)說(shuō),我們問(wèn)的問(wèn)題是「誰(shuí)」,BiDAF 就知道我們需要一個(gè)人名,也確實(shí)回答了一個(gè)人名,只不過(guò)不是正確的那個(gè)人名。

帶著這個(gè)假說(shuō),我們下一個(gè)需要問(wèn)的問(wèn)題是,「這個(gè)模型經(jīng)常會(huì)犯這種錯(cuò)誤嗎?」探究猜想的普適性需要研究更多類(lèi)似的樣本。然而,如我們上文說(shuō)到的,如果想要探索整個(gè)數(shù)據(jù)集的話(huà),這些非結(jié)構(gòu)化文本中可供利用的特征太少了,所以研究人員們通常的做法是手工標(biāo)注一些錯(cuò)誤樣本,并把它們分為不同的組。

這種做法的問(wèn)題在于,不同分組的定義是主觀的,不同的人會(huì)提出不同的分組方式。比如在另一個(gè)例子中,一個(gè)問(wèn)「when」的問(wèn)題的標(biāo)準(zhǔn)答案是「在他讀大學(xué)期間」,而模型給出的回答是「1996」,是一個(gè)錯(cuò)誤的年份。有人會(huì)認(rèn)為這是一個(gè)符合干擾詞猜想的問(wèn)題,畢竟問(wèn)題問(wèn)的是時(shí)間,和模型給出的回答類(lèi)型(同樣也是時(shí)間)是匹配的。但是也有人會(huì)認(rèn)為它應(yīng)該屬于別的錯(cuò)誤類(lèi)別,畢竟標(biāo)準(zhǔn)答案「在他讀大學(xué)期間」不是一個(gè)可以被識(shí)別的命名實(shí)體。如果你只是翻看這個(gè)錯(cuò)誤例子的名稱(chēng)和文本描述的話(huà),很有可能你都意識(shí)不到會(huì)有這種差異。

實(shí)際上,論文作者們發(fā)現(xiàn)即便只是用簡(jiǎn)單的法則定義不同的錯(cuò)誤分組,這種差異性/人與人之間的不一致性也會(huì)出現(xiàn):作者們找來(lái)此前曾發(fā)表過(guò)的一份錯(cuò)誤分析中的一個(gè)錯(cuò)誤類(lèi)型及其描述,然后讓現(xiàn)在的專(zhuān)家們重復(fù)這個(gè)實(shí)驗(yàn),結(jié)果他們分到這一組的錯(cuò)誤數(shù)量大為不同,差異最小也有 13.8%,最大甚至有 45.2%;這更明顯地體現(xiàn)出了人工標(biāo)注的模糊性。

針對(duì)這種狀況,論文作者們提出了第一條原則:必須用明確的描述精確定義錯(cuò)誤猜想。

原則 1:準(zhǔn)確

為了規(guī)避人為主觀性、提高準(zhǔn)確性,Errudite 使用了一種任務(wù)專(zhuān)用語(yǔ)言(Domain-Specific Language)來(lái)量化描述不同的實(shí)例。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

簡(jiǎn)單來(lái)說(shuō),這種任務(wù)專(zhuān)用語(yǔ)言使用了一系列強(qiáng)有力的屬性提取器,在額外的輔助操作符的幫助下解析具體的錯(cuò)誤(屬性提取器、目標(biāo)、操作符三部分)。比如可以解析一個(gè)問(wèn)題的長(zhǎng)度,并要求長(zhǎng)度大于 20。這樣,研究人員們就可以根據(jù)特定的模式,客觀、系統(tǒng)地對(duì)大量錯(cuò)誤例子分組,得出某種錯(cuò)誤的準(zhǔn)確的出現(xiàn)頻率。比如下圖就是用這種語(yǔ)言對(duì)「干擾詞猜想」的準(zhǔn)確描述,也就可以把「在他讀大學(xué)期間」這個(gè)例子排除在這個(gè)分類(lèi)之外。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

原則 2:覆蓋所有的數(shù)據(jù)

在 BiDAF 的所有錯(cuò)誤中執(zhí)行了這個(gè)過(guò)濾器之后,一共找到了 192 個(gè)例子是符合「干擾詞猜想」的,也就是說(shuō)標(biāo)準(zhǔn)答案和錯(cuò)誤答案的命名實(shí)體類(lèi)型相同,然后模型給出了錯(cuò)誤的實(shí)體。值得注意的是,在達(dá)到了這種準(zhǔn)確性的基礎(chǔ)上,任務(wù)專(zhuān)用語(yǔ)言的運(yùn)用也可以極大地拓展誤差分析的規(guī)模:相比于常見(jiàn)做法里一共分析 50 到 100 個(gè)錯(cuò)誤樣本,現(xiàn)在單個(gè)錯(cuò)誤類(lèi)別的樣本量都達(dá)到了 192。這也就減小了采樣誤差。

總數(shù)量方面,這 192 個(gè)錯(cuò)誤樣本占到了所有錯(cuò)誤總數(shù)的 6%,這個(gè)干擾詞猜想看來(lái)是可以被證實(shí)的。有具體數(shù)據(jù)以后,錯(cuò)誤分析的說(shuō)服力也變強(qiáng)了很多對(duì)吧。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

不過(guò),當(dāng)我們執(zhí)行了所有步驟中的過(guò)濾器、構(gòu)建出了詳盡的分組以后,我們其實(shí)會(huì)發(fā)現(xiàn)全新的圖景:對(duì)于全部樣本,BiDAF 能給在 68% 的樣本中給出正確的實(shí)體;對(duì)于標(biāo)準(zhǔn)答案就是一個(gè)實(shí)體的樣本,模型的準(zhǔn)確率會(huì)提高到 80%;當(dāng)文本中有同一個(gè)類(lèi)型的其它實(shí)體的時(shí)候,BiDAF 的準(zhǔn)確率仍然有 79%;讓它預(yù)測(cè)一個(gè)類(lèi)型正確的實(shí)體的時(shí)候,它的準(zhǔn)確率高達(dá) 88%,要比全部樣本的正確率高得多。這意味著,對(duì)于實(shí)體類(lèi)型匹配、且有干擾詞出現(xiàn)的情況,模型的表現(xiàn)還是比整體表現(xiàn)要好,這種情況并不是模型表現(xiàn)的短板。所以,如果你只是發(fā)現(xiàn)了有某種錯(cuò)誤出現(xiàn),然后就決定要先解決這種錯(cuò)誤的話(huà),你可能需要重新考慮一下,因?yàn)槟愫芸赡芎鲆暳四P捅憩F(xiàn)非常糟糕的情境。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

所以,這個(gè)領(lǐng)域?qū)S谜Z(yǔ)言可以幫助分析整個(gè)數(shù)據(jù)集,包括檢驗(yàn)沒(méi)有出錯(cuò)的樣本。這樣的誤差分析更系統(tǒng)、可以支持更大的規(guī)模;相比于只看一小部分樣本,你得到的結(jié)論也可能完全不同。

那么,第二條原則可以正式地表述為:錯(cuò)誤出現(xiàn)頻率的分析應(yīng)該在整個(gè)數(shù)據(jù)集上進(jìn)行,其中需要包括正例(true positive)

原則 3:測(cè)試錯(cuò)誤猜想,驗(yàn)證因果性

現(xiàn)在我們已經(jīng)建立起關(guān)于干擾詞的分組了。但是,出現(xiàn)錯(cuò)誤的時(shí)候同時(shí)有一個(gè)干擾詞并不一定代表干擾詞是這個(gè)錯(cuò)誤出現(xiàn)的根本原因?;氐角懊娴睦樱覀兛梢院?jiǎn)單地認(rèn)為出錯(cuò)的根本原因是因?yàn)橛懈蓴_詞,但也可能是因?yàn)槲覀冃枰龆嗑渫评?,需要把「神秘博士」和「系列」?lián)系起來(lái),又或者還有別的原因。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

這就引出了我們當(dāng)前面對(duì)的現(xiàn)狀中的另一個(gè)問(wèn)題:我們很難有效地分離某個(gè)錯(cuò)誤的根本原因。想要弄清的話(huà),我們需要第三個(gè)原則

原則 3:錯(cuò)誤猜想要經(jīng)過(guò)顯式的測(cè)試驗(yàn)證

借助 Errudite,論文作者們想要回答這個(gè)問(wèn)題:這 192 個(gè)錯(cuò)誤都是因?yàn)橛懈蓴_詞才出錯(cuò)的嗎?驗(yàn)證方法是提出并驗(yàn)證一個(gè)相關(guān)的假想問(wèn)題:「如果沒(méi)有這個(gè)干擾詞,模型能不能給出正確的答案?」作者們利用重寫(xiě)規(guī)則,用反事實(shí)分析(counterfactual analysis)尋找答案。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

根據(jù)這個(gè)領(lǐng)域?qū)S谜Z(yǔ)言,Errudite 可以按一定的規(guī)則重寫(xiě)分組內(nèi)的所有實(shí)例。比如在這里,為了驗(yàn)證干擾詞是否是根本原因,根據(jù)重寫(xiě)規(guī)則把文本中的干擾詞都替換成無(wú)意義的占位符「#」,這樣就不會(huì)再被檢測(cè)為實(shí)體。

在重寫(xiě)完成以后讓模型重新進(jìn)行預(yù)測(cè)。在前面那個(gè)神秘博士的例子里,即便已經(jīng)用「#」替換了錯(cuò)誤答案 John Debney,模型仍然給出了另一個(gè)錯(cuò)誤答案 Ron Grainer。看來(lái)另一個(gè)干擾詞仍然迷惑了模型。

對(duì)于分組中的其它樣本,有 29% 的情況模型會(huì)給出另一個(gè)不正確的同類(lèi)型實(shí)體(另一個(gè)干擾詞);在 48% 的情況中,模型給出了正確的預(yù)測(cè),這部分樣本里確實(shí)是干擾詞帶來(lái)了錯(cuò)誤預(yù)測(cè);在剩下的 23% 中,模型給出了和之前相同的預(yù)測(cè) —— 只不過(guò)由于現(xiàn)在那些字符已經(jīng)被「#」替換,所以模型的預(yù)測(cè)結(jié)果就會(huì)包含這個(gè)沒(méi)有任何實(shí)際含義的「#」字符!可以猜測(cè)這可能是因?yàn)閱?wèn)題和預(yù)測(cè)答案高度重合,所以模型實(shí)際做的更接近于直白的字符匹配而不是尋找實(shí)體。從這種反事實(shí)分析中得到的結(jié)論就不是僅僅做一下分組就能得到的了。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

準(zhǔn)確 + 可重現(xiàn) + 可重復(fù)應(yīng)用

在上面這個(gè)誤差分析過(guò)程中,我們需要用準(zhǔn)確的查詢(xún)語(yǔ)句構(gòu)建屬性、分組,以及執(zhí)行重寫(xiě)規(guī)則。對(duì) BiDAF 進(jìn)行分析過(guò)后,我們發(fā)現(xiàn)有干擾詞的時(shí)候它的表現(xiàn)并不怎么差,而且一些以前我們以為是干擾詞引起的問(wèn)題其實(shí)有其它的根本原因。

此外,準(zhǔn)確的查詢(xún)語(yǔ)句有一個(gè)非常大的好處,就是可以輕松地分享給他人、重現(xiàn)實(shí)驗(yàn)結(jié)果,以及其它的模型乃至其它的任務(wù)中應(yīng)用。

最后,論文作者們還表示這個(gè) Errudite 工具有一個(gè)明了、易用、多功能的圖形化用戶(hù)界面,而且?guī)в姓Z(yǔ)句示范、屬性分布圖等實(shí)用功能。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

要點(diǎn)總結(jié)

常見(jiàn)(但有偏倚的)誤差分析來(lái)自于

  • 主觀的錯(cuò)誤分組 +  小樣本 + 只關(guān)注錯(cuò)誤情況 + 沒(méi)有針對(duì)根本原因的測(cè)試

Errudite(改進(jìn)的)誤差分析

  • 準(zhǔn)確、可重復(fù)的分組 + 分析整個(gè)數(shù)據(jù)集 + 包含了正例和負(fù)例 + 通過(guò)反事實(shí)分析測(cè)試驗(yàn)證

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

NLP 領(lǐng)域之外的誤差分析的啟示

目前的 Errudite 實(shí)現(xiàn)(尤其是其中的領(lǐng)域?qū)S谜Z(yǔ)言部分)只是針對(duì) NLP 任務(wù)的。然而,機(jī)器學(xué)習(xí)系統(tǒng)也經(jīng)常需要處理非文本數(shù)據(jù)。論文作者們相信,即便目前他們的實(shí)現(xiàn)難以拓展到其它的領(lǐng)域,但他們的三條原則,完全可以、也完全有必要在其他的領(lǐng)域中得到應(yīng)用,幫助大家部署正確的模型、向正確的研究方向深入挖掘。

想要?jiǎng)?chuàng)建一個(gè)新的基于這三條原則的工具并不難,只需要它可以支持對(duì)應(yīng)的這三個(gè)要點(diǎn):

  • 運(yùn)用領(lǐng)域?qū)S谜Z(yǔ)言,通過(guò)可編輯修改的基礎(chǔ)部件,完成準(zhǔn)確的樣本分組;

  • 拓展誤差分析規(guī)模,通過(guò)自動(dòng)的過(guò)濾語(yǔ)句分析包括正例和負(fù)例在內(nèi)的所有樣本,并提供可視化的統(tǒng)計(jì)數(shù)據(jù);

  • 能夠通過(guò)規(guī)則重寫(xiě)樣本,以便通過(guò)反事實(shí)分析驗(yàn)證錯(cuò)誤猜想。

作者們表示,Errudite 的軟件架構(gòu)可以支持拓展到其它的 NLP 任務(wù)中,他們歡迎更多 NLP 領(lǐng)域內(nèi)的研究和開(kāi)發(fā)人員加入 Errudite 的開(kāi)發(fā)和拓展中來(lái)。而且,如果其它領(lǐng)域也能出現(xiàn)類(lèi)似的工具那就更棒了。

論文原文地址:http://idl.cs.washington.edu/files/2019-Errudite-ACL.pdf

Errudite 開(kāi)源地址:https://github.com/uwdata/errudite

via https://medium.com/@uwdata/errudite-55d5fbf3232e,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

如何正確地做誤差分析,NLP研究人員們需要學(xué)習(xí)一下

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)