丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

本文作者: 我在思考中 2021-09-14 09:58
導(dǎo)語(yǔ):NLP 基準(zhǔn)測(cè)試所面臨的挑戰(zhàn)、機(jī)遇和一些改進(jìn)的建議。
DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)
編譯 | 王琪瑞
校對(duì) | 青暮
隨著時(shí)間流逝,NLP在遇到諸多挑戰(zhàn)的同時(shí),也被寄予更大期望。人們?cè)谑褂盟倪^(guò)程中收獲很多,也在一直不斷的改進(jìn)完善它。
在過(guò)去幾年的改進(jìn)下,NLP 模型的能力越來(lái)越強(qiáng)大。性能大幅提升導(dǎo)致之前的基準(zhǔn)測(cè)試已經(jīng)無(wú)法滿足當(dāng)下的需求。如AI Index Report 2021所言,最近的模型在SuperGLUE和SQuAD等測(cè)試的基準(zhǔn)上面達(dá)到了超越人類(lèi)的表現(xiàn)。這是否說(shuō)明,我們已經(jīng)掌握了處理自然語(yǔ)言的方法呢?答案是沒(méi)。
現(xiàn)在的模型具備強(qiáng)大的語(yǔ)言理解能力,我們很難再用準(zhǔn)確率、BLEU 這種單一指標(biāo)和靜態(tài)基準(zhǔn)、抽象任務(wù)公式的傳統(tǒng)做法評(píng)估 NLP 模型。所以,我們需要設(shè)計(jì)新的基準(zhǔn)來(lái)評(píng)估模型,并且讓它在今后發(fā)揮作用。
這篇文章的主要內(nèi)容是:NLP 基準(zhǔn)測(cè)試所面臨的挑戰(zhàn)、機(jī)遇和一些改進(jìn)的建議。我們希望這篇文章可以讓讀者了解這方面科研的最新進(jìn)展,也要讓初學(xué)者全面了解NLP。文中還涉及到最近的論文、ACL 2021 演講以及ACL 2021 基準(zhǔn)測(cè)試研討會(huì)的觀點(diǎn),其中許多觀點(diǎn)涉及到了過(guò)去、現(xiàn)在和未來(lái)。

DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

標(biāo)題圖片:隨著時(shí)間推移SQuAD 2.0的性能趨勢(shì)變化
目錄:
  • 什么是基準(zhǔn)?
  • 基準(zhǔn)測(cè)試簡(jiǎn)史
  • 指標(biāo)很重要
  • 考慮下游用例
  • 細(xì)粒度評(píng)估
  • 基準(zhǔn)性能的長(zhǎng)尾
  • 大規(guī)模持續(xù)評(píng)估

    1

    基準(zhǔn)是什么?
    “數(shù)據(jù)集是我們領(lǐng)域的望遠(yuǎn)鏡?!?/span>—阿拉文德·喬希
    基準(zhǔn)起初被定義為測(cè)量員在水泥結(jié)構(gòu)中幫助水平尺測(cè)量數(shù)據(jù)的水平標(biāo)記。后來(lái)基準(zhǔn)的定義漸漸變成對(duì)比事物的標(biāo)準(zhǔn)參考點(diǎn)。形象地說(shuō),基準(zhǔn)是一個(gè)可以相互比較的標(biāo)準(zhǔn)參考點(diǎn)?;鶞?zhǔn)在ML或NLP中通常由以下幾個(gè)部分組成:一個(gè)或多個(gè)數(shù)據(jù)集、一個(gè)或多個(gè)相關(guān)指標(biāo)以及聚合性能的方法。
    我們?yōu)榛鶞?zhǔn)設(shè)置了一個(gè)評(píng)估社區(qū)商定系統(tǒng)的標(biāo)準(zhǔn),確保基準(zhǔn)被社區(qū)接受。具體操作是要么給基準(zhǔn)選擇一組有代表性的標(biāo)準(zhǔn)任務(wù),如GLUE或XTREME;要么積極征求社區(qū)的任務(wù)提案,比如SuperGLUE、GEM或BIG-Bench等等。
    對(duì)于該領(lǐng)域的人來(lái)說(shuō),基準(zhǔn)是跟進(jìn)事件發(fā)展的重要工具,阿拉溫德·喬希說(shuō):沒(méi)有基準(zhǔn)評(píng)估我們的模型,我們就像“不造望遠(yuǎn)鏡的天文學(xué)家想看星星”。
    對(duì)于領(lǐng)域外的人來(lái)說(shuō),基準(zhǔn)為他們提供了客觀的視角,幫助他們認(rèn)識(shí)了有用的模型,還為他們提供了跟蹤一個(gè)領(lǐng)域進(jìn)展的服務(wù)。例如,《2021年人工智能指數(shù)報(bào)告》使用SuperGLUE和SQuAD作為自然語(yǔ)言處理總體進(jìn)展的代理。
    有些基準(zhǔn)在使用的過(guò)程中達(dá)到了和人類(lèi)近似的表現(xiàn),它們被記入這一領(lǐng)域發(fā)展的歷史中。例如 AlphaFold 2在CASP 14競(jìng)賽中達(dá)到與實(shí)驗(yàn)方法競(jìng)爭(zhēng)的性能就標(biāo)志著結(jié)構(gòu)生物學(xué)領(lǐng)域的重大科學(xué)進(jìn)步。

    2

    基準(zhǔn)測(cè)試的簡(jiǎn)史
    "創(chuàng)建好的基準(zhǔn)比大多數(shù)人想象的要難。"-約翰·馬西;系統(tǒng)基準(zhǔn)(2020)前言
    基準(zhǔn)很久之前就被用來(lái)測(cè)量計(jì)算機(jī)性能了。1988年成立的基準(zhǔn)性能評(píng)估公司SPEC)是最老的計(jì)算機(jī)硬件性能基準(zhǔn)測(cè)試的組織之一。每年SPEC都會(huì)發(fā)布不同的基準(zhǔn)集,每個(gè)基準(zhǔn)集由多個(gè)程序組成,性能以每秒數(shù)百萬(wàn)指令的幾何平均值來(lái)衡量。值得一提的是,SPEC 得到了該領(lǐng)域很多重要公司的支持。
    最近一個(gè)名為MLCommons的公司組織了一場(chǎng)MLPerf系列績(jī)效的基準(zhǔn)測(cè)試。測(cè)試重點(diǎn)是模型訓(xùn)練和推理。與SPEC相似,MLPerf得到了學(xué)術(shù)界和工業(yè)界的廣泛支持,這項(xiàng)基準(zhǔn)測(cè)試建立在以前衡量績(jī)效的個(gè)人努力的基礎(chǔ)上,如百度的DeepBench或斯坦福的DAWNBench。
    對(duì)于DARPA和NIST等美國(guó)機(jī)構(gòu)來(lái)說(shuō),基準(zhǔn)在衡量和跟蹤科學(xué)前沿方面發(fā)揮了至關(guān)重要的作用。早在1986年DARPA 就資助了,TIMIT和Switchboard等自動(dòng)語(yǔ)音識(shí)別的基準(zhǔn),并由NIST協(xié)調(diào)。后來(lái)在MNIST等ML其他領(lǐng)域有影響力的基準(zhǔn)也是依賴 NIST上的數(shù)據(jù)開(kāi)始改進(jìn)。
    在語(yǔ)言技術(shù)和信息檢索(IR)方面,NIST舉辦了DARPA資助TREC的系列研討會(huì),會(huì)議內(nèi)容涵蓋面很廣,如下圖所示。TREC曾經(jīng)組織了20世紀(jì)60年代克蘭菲爾德開(kāi)創(chuàng)的評(píng)估范式競(jìng)賽,在該范式中,模型基于一組測(cè)試集合進(jìn)行評(píng)估。由于不同主題的表現(xiàn)差異很大,許多主題的得分都是平均的。所以TREC的標(biāo)準(zhǔn)廣泛可用。TREC精心構(gòu)建的數(shù)據(jù)集也在IR奠定了進(jìn)一步創(chuàng)新的基礎(chǔ)。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    1992-2020年TREC研討會(huì)的任務(wù)和主題(信貸:艾倫·沃里斯)
    近期基準(zhǔn)的規(guī)模都很大,比如ImageNet、SQuAD或SNLI等。它們是由資金雄厚的大學(xué)學(xué)術(shù)團(tuán)體開(kāi)發(fā)的。在深度學(xué)習(xí)時(shí)代,大規(guī)模數(shù)據(jù)集被認(rèn)為是推動(dòng)科技進(jìn)步的支柱之一,自然語(yǔ)言處理或生物學(xué)等領(lǐng)域見(jiàn)證了它們的“ImageNet時(shí)刻”。
    隨著時(shí)間的變化,越來(lái)越多的基準(zhǔn)開(kāi)始面向應(yīng)用,它們從單任務(wù)轉(zhuǎn)向多任務(wù),從單域轉(zhuǎn)向多域基準(zhǔn)。例如,從關(guān)注核心語(yǔ)言任務(wù)(如詞性標(biāo)注和依賴解析)向更接近現(xiàn)實(shí)世界的任務(wù)(如面向目標(biāo)的對(duì)話和開(kāi)放域問(wèn)題回答)轉(zhuǎn)變(Kwiatkowski et al.,2019);多任務(wù)數(shù)據(jù)集(如GLUE)的出現(xiàn)以及多模態(tài)數(shù)據(jù)集(如WILDS)的出現(xiàn)。
    如下圖所示, MNIST和 Switchboard等經(jīng)典基準(zhǔn),實(shí)現(xiàn)超人性能花了15年。而GLUE和SQuAD 2.0等基準(zhǔn)在模型發(fā)布一年后就能實(shí)現(xiàn)超人性能,但是我們也知道這只是基準(zhǔn)的測(cè)試能力,它們的實(shí)際處理能力連一般問(wèn)答都沒(méi)辦法解決。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    隨著時(shí)間的推移,流行基準(zhǔn)的基準(zhǔn)飽和度。初始性能和人類(lèi)性能分別正?;癁?1和0(Kiela et al.,2021)。
    導(dǎo)致基準(zhǔn)容易飽和的另一個(gè)原因是,相比于早期,近期的數(shù)據(jù)集中的人工注釋痕會(huì)被模型快速學(xué)習(xí)并用于捷徑識(shí)別。我們?cè)赟NLI中得出,人工注釋依賴于啟發(fā)式,這樣模型就可以在不同情況下基于假設(shè)自動(dòng)預(yù)測(cè)出正確的結(jié)果,同時(shí)在 SQuAD上訓(xùn)練的模型會(huì)受到對(duì)抗性插入語(yǔ)句的影響。
    如今,行業(yè)的發(fā)展趨勢(shì)是對(duì)抗性數(shù)據(jù)集的崛起。這些數(shù)據(jù)集如對(duì)抗性NLI(Nie et al.,2020)、Beat the AI(Bartolo et al.,2020)等等。Dynabench 就是一個(gè)最近被設(shè)計(jì)出來(lái)促進(jìn)這類(lèi)數(shù)據(jù)集發(fā)展的開(kāi)源平臺(tái)。這類(lèi)基準(zhǔn)的好處是,隨著新模型的出現(xiàn),可以不斷自我更新,從而使基準(zhǔn)不會(huì)太快飽和。

    3

    指標(biāo)很重要
    “當(dāng)你能衡量你在說(shuō)什么并用數(shù)字表達(dá)時(shí),你就知道你在討論什么。但是當(dāng)你不能衡量它并用數(shù)字表達(dá)時(shí),你的知識(shí)是非常貧乏和令人不滿的?!?/span>-開(kāi)爾文勛爵
    指標(biāo)在衡量模型效果中很重要,但是它沒(méi)有受到應(yīng)有的重視。對(duì)于分類(lèi)任務(wù),準(zhǔn)確率和F-1分?jǐn)?shù)等一般都是默認(rèn)使用的指標(biāo),但實(shí)際上對(duì)于不同的任務(wù),不同類(lèi)型的錯(cuò)誤會(huì)產(chǎn)生不同的成本。比如對(duì)細(xì)粒度的情緒進(jìn)行分析,搞不清積極和很積極可能沒(méi)有問(wèn)題,但是搞不清非常積極和非常消極問(wèn)題就大了。Chris Potts還列舉了很多這種例子,其中包括指標(biāo)不足造成更大錯(cuò)誤的情況。
    想要設(shè)計(jì)好一個(gè)指標(biāo),就需要專(zhuān)業(yè)的領(lǐng)域知識(shí)。比如ASR(語(yǔ)音識(shí)別),最初只使用正確轉(zhuǎn)錄單詞的百分比(類(lèi)似于準(zhǔn)確率)作為指標(biāo)。后來(lái)社區(qū)使用了詞錯(cuò)率( word error rate),因?yàn)樗梢苑从吵黾m錯(cuò)成本。
    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)
    Mark Liberman曾表示:“研究設(shè)計(jì)可用幾十年的指標(biāo),與為實(shí)際應(yīng)用短期發(fā)展設(shè)計(jì)的指標(biāo)之間,存在很大的差異。若要開(kāi)發(fā)能用十年的技術(shù),我們就需要更高效的指標(biāo),哪怕細(xì)節(jié)上錯(cuò)點(diǎn)都行,但是大方向不能錯(cuò)?!?/span>
    Mark Liberman想要的指標(biāo)是像ASR中的詞錯(cuò)率(假設(shè)所有單詞都同等重要)和機(jī)器翻譯中的BLEU(假設(shè)詞序不重要)一類(lèi)的指標(biāo)。
    但是對(duì)于實(shí)際技術(shù)的評(píng)估,我們需要根據(jù)特定的應(yīng)用要求設(shè)計(jì)度量標(biāo)準(zhǔn),并研究不同類(lèi)型的錯(cuò)誤。
    近年來(lái),隨著模型性能的迅速提高,我們從十年的長(zhǎng)期應(yīng)用機(jī)制轉(zhuǎn)向許多短期的應(yīng)用機(jī)制。有意思的是,在這樣的環(huán)境下,我們?nèi)匀辉诖蠓秶褂煤饬块L(zhǎng)期研究進(jìn)展的指標(biāo)。Marie等人(2021)在最近的一項(xiàng)報(bào)告分析中發(fā)現(xiàn),2019-2020年間82%的機(jī)器翻譯(MT)論文僅使用BLEU進(jìn)行評(píng)估,雖然在過(guò)去十年中人們?yōu)镸T評(píng)估提出了108個(gè)替代指標(biāo),其中許多指標(biāo)與人類(lèi)判斷相差不大。但是隨著模型的變大,BLEU很難再成為表現(xiàn)最佳的模型了。
    雖然自然語(yǔ)言生成 (NLG) 模型的評(píng)估是出了名的困難,但標(biāo)準(zhǔn)的基于 n-gram 重疊的指標(biāo)(例如 ROUGE 或 BLEU)不太適合具有豐富詞法的語(yǔ)言,使得這些語(yǔ)言將被分配相對(duì)較低的分?jǐn)?shù)。
    NLG最近的發(fā)展趨勢(shì)是開(kāi)發(fā)自動(dòng)度量,比如 BERTScore會(huì)利用大型預(yù)訓(xùn)練模型(Zhang et al.,2020)。這種方法使其更適合短期MT評(píng)估,具體操作是將更大的權(quán)重分配給更困難的token,即少數(shù)MT系統(tǒng)才能正確翻譯的token。
    因此,我們需要不斷更新完善度量標(biāo)準(zhǔn),用特定應(yīng)用的度量標(biāo)準(zhǔn)替代簡(jiǎn)單的度量標(biāo)準(zhǔn),例如,最近的GEM基準(zhǔn)將度量指標(biāo)作為一個(gè)組件,其需要隨著時(shí)間的推移而不斷改進(jìn),如下圖所示。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    Opportunities (circle) and challenges of benchmark evaluation (Gehrmann et al., 2021).
    建議:
    1. 考慮更適合下游任務(wù)和語(yǔ)言的度量。

    2. 考慮強(qiáng)調(diào)下游設(shè)置權(quán)衡的指標(biāo)。

    3. 隨著時(shí)間的推移更新和完善指標(biāo)。

    4

    考慮下游用例
    “[...]基準(zhǔn)塑造了一個(gè)領(lǐng)域,無(wú)論是好是壞。好的基準(zhǔn)與實(shí)際應(yīng)用一致,但壞的基準(zhǔn)卻不一致,迫使工程師在幫助最終用戶的改變和只幫助營(yíng)銷(xiāo)的改變之間做出選擇?!?/span>-大衛(wèi)·帕特森;系統(tǒng)基準(zhǔn)(2020)前言
    NLP技術(shù)在現(xiàn)實(shí)世界里的應(yīng)用越來(lái)越廣泛,從創(chuàng)造性的個(gè)性化語(yǔ)言表達(dá)到欺詐檢測(cè)都可以看到NLP的身影。我覺(jué)得我們?cè)撘匾曀诂F(xiàn)實(shí)世界里的應(yīng)用機(jī)制了。
    所以基準(zhǔn)測(cè)試的數(shù)據(jù)和評(píng)估協(xié)議應(yīng)該反映現(xiàn)實(shí)世界的用例。例如,F(xiàn)ewRel數(shù)據(jù)集面對(duì)關(guān)系分類(lèi)缺乏現(xiàn)實(shí)屬性,這些屬性在 TACRED地址中很少見(jiàn)。IMDb數(shù)據(jù)集在二元情緒分類(lèi)的時(shí)候,只考慮高度兩極分化的正面和負(fù)面評(píng)論,標(biāo)簽是不變的。這種基準(zhǔn)測(cè)試在簡(jiǎn)單的信息檢索中是可行的,但在現(xiàn)實(shí)世界中就不太合理了。
    NLP社會(huì)責(zé)任的第一條規(guī)則是“完全按照你說(shuō)的去做”。這句話是由 Chris Potts提出的。作為該領(lǐng)域的研究人員,我們應(yīng)該得出基準(zhǔn)上的績(jī)效反映了什么,以及這與現(xiàn)實(shí)世界的環(huán)境是如何對(duì)應(yīng)的。同時(shí), Bowman 和 Dahl 認(rèn)為基準(zhǔn)上的良好績(jī)效應(yīng)該意味著任務(wù)領(lǐng)域內(nèi)的穩(wěn)健績(jī)效。
    因?yàn)槿蝿?wù)的實(shí)際應(yīng)用可能會(huì)產(chǎn)生與訓(xùn)練分布不同的數(shù)據(jù)。所以評(píng)估模型的穩(wěn)健性以及評(píng)估模型對(duì)此類(lèi)分布數(shù)據(jù)的泛化程度值得被關(guān)注。同理,具有時(shí)間偏移的數(shù)據(jù)和來(lái)自其他語(yǔ)言變體的數(shù)據(jù)也需要受到關(guān)注。
    另外,由于 NLP研究中的語(yǔ)言種類(lèi)很簡(jiǎn)單,而且要避免使用英語(yǔ)作為研究的單一語(yǔ)言。所以在設(shè)計(jì)基準(zhǔn)時(shí),我們要涉及到其他語(yǔ)言的測(cè)試數(shù)據(jù),這樣可以減少研究的片面性,為多語(yǔ)言交匯提供可能。同時(shí),也能在問(wèn)答和總結(jié)等任務(wù)中利用其他語(yǔ)言數(shù)據(jù)集為模型的多功能性能提供證據(jù)。
    我們知道,在接下來(lái)的道路上,語(yǔ)言技術(shù)會(huì)給我們帶來(lái)很多困難,但也會(huì)為我們的評(píng)估和基準(zhǔn)提供新的靈感?;鶞?zhǔn)是我們領(lǐng)域最自豪的成果,它通常會(huì)指引我們一個(gè)新的研究方向,同時(shí)基準(zhǔn)在反映我們現(xiàn)實(shí)世界的技術(shù)和野心時(shí)至關(guān)重要。
    建議:
    1. 設(shè)計(jì)基準(zhǔn)及其評(píng)估,使其反映真實(shí)世界的用例。

    2. 評(píng)估域內(nèi)和域外泛化。

    3. 收集數(shù)據(jù)并評(píng)估其他語(yǔ)言的模型。

    4. 從語(yǔ)言技術(shù)的現(xiàn)實(shí)應(yīng)用中獲得靈感。


    5

    細(xì)粒度評(píng)估
    “不管人們多么希望績(jī)效是一個(gè)單一的數(shù)字,但即使是沒(méi)有分布的正確均值也會(huì)誤導(dǎo)人,而錯(cuò)誤均值肯定也好不到哪里去。-約翰·馬西
    技術(shù)的下游用例可以為我們的評(píng)估提供指標(biāo)。尤其是,下游應(yīng)用程序需要考慮的不是單一指標(biāo),而是一系列約束。Rada Mihalcea希望我們不要只關(guān)注準(zhǔn)確率,還應(yīng)該關(guān)注實(shí)際應(yīng)用的其他方面,比如特定環(huán)境中什么最重要。簡(jiǎn)單的說(shuō),NLP的功能取決于用戶的需求。
    機(jī)器學(xué)習(xí)研究一般不會(huì)過(guò)分強(qiáng)調(diào)社會(huì)需求。但是在實(shí)際應(yīng)用中,模型不能表現(xiàn)出不利于社會(huì)的行為。所以在特定任務(wù)的測(cè)試中這種表現(xiàn)會(huì)成為評(píng)估模型的一部分標(biāo)準(zhǔn)。
    實(shí)際應(yīng)用最注重的是效率。效率的高低與樣本效率、FLOPS和內(nèi)存約束有關(guān)。就是說(shuō),如果內(nèi)存不夠或是其他資源有限,評(píng)估模型就只能轉(zhuǎn)向其他研究方向。比如,NeurIPS 2020的高效質(zhì)量保證競(jìng)賽(min等人,2020)展示了檢索增強(qiáng)和大量弱監(jiān)督問(wèn)答對(duì)集合的好處(Lewis等人,2021)。
    為了更了解模型的優(yōu)缺點(diǎn),我們會(huì)對(duì)單一指標(biāo)進(jìn)行細(xì)粒度評(píng)估,標(biāo)注模型擅長(zhǎng)和失敗的示例類(lèi)型。ExplainaBoard(Liu et al.,2021)在不同任務(wù)中實(shí)現(xiàn)了模型性能細(xì)粒度細(xì)分,如下所示。獲得模型性能更細(xì)粒度估計(jì)的另一種方法是為特定現(xiàn)象和模型行為創(chuàng)建測(cè)試用例,例如使用CheckList框架(Ribeiro et al.,2020)。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    用于三個(gè)最佳系統(tǒng)的CoNLL-2003 NER數(shù)據(jù)集的ExplainaBoard接口,包括最佳系統(tǒng)的單系統(tǒng)分析(A)、前2個(gè)系統(tǒng)的成對(duì)分析結(jié)果(B)、公共誤差表(C)和組合結(jié)果(D)(Liu et al.,2021)。
    As individual metrics can be flawed, it is key to evaluate across multiple metrics. When evaluating on multiple metrics, scores are typically averaged to obtain a single score. A single score is useful to compare models at a glance and provides people outside the community a clear way to assess model performance. However, using the arithmetic mean is not appropriate for all purposes. SPEC used the geometric mean, nx1x2…xnn, which is useful when aggregating values that are exponential in nature, such as runtimes.
    一般用單個(gè)指標(biāo)可能會(huì)出現(xiàn)缺陷,需要跨多個(gè)指標(biāo)評(píng)估,通常我們會(huì)將分?jǐn)?shù)平均,以獲得單個(gè)分?jǐn)?shù)。單個(gè)分?jǐn)?shù)有助于快速發(fā)現(xiàn)模型的區(qū)別,并為其他領(lǐng)域的人提供評(píng)估模型性能的方法。不過(guò)這種算數(shù)平均方法不適合所有模型。SPEC使用幾何平均值,在聚合指數(shù)性質(zhì)的值
    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)
    (如運(yùn)行時(shí))的時(shí)候也很有用。
    另一個(gè)減少缺陷的方法是使用加權(quán)總和,讓用戶能夠自己定義每個(gè)組件的權(quán)重。DynaBench使用這種方法來(lái)衡量模型的性能,同時(shí)也用這種方法評(píng)估模型吞吐量、內(nèi)存消耗、公平性和穩(wěn)健性。在下圖中,用戶可以定義自己的排行榜(Ethayarajh 和 Jurafsky,2020 年)。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    DyaBench自然語(yǔ)言推理任務(wù)排行榜中的動(dòng)態(tài)度量加權(quán)
    建議:
    1. 不再使用單一指標(biāo)進(jìn)行性能評(píng)估。

    2. 評(píng)估社會(huì)偏見(jiàn)和效率。

    3. 對(duì)模型執(zhí)行細(xì)粒度評(píng)估。

    4. 考慮如何聚合多個(gè)指標(biāo)。


    6

    基準(zhǔn)性能的長(zhǎng)尾
    因?yàn)楫?dāng)前模型在分布內(nèi)示例上的表現(xiàn)很好,所以我們開(kāi)始關(guān)注分布的尾部、異常值和非典型示例上。
    現(xiàn)在我們不但關(guān)注平均情況,也開(kāi)始關(guān)注模型表現(xiàn)最差的數(shù)據(jù)子集。
    As models become more powerful, the fraction of examples where the performance of models differs and that thus will be able to differentiate between strong and the best models will grow smaller. To ensure that evaluation on this long tail of examples is reliable, benchmarks need to be large enough so that small differences in performance can be detected. It is important to note that larger models are not uniformly better across all examples (Zhong et al., 2021).
    隨著時(shí)間的推進(jìn),模型越變?cè)綇?qiáng),模型性能也發(fā)生了變化。所以強(qiáng)模型和最佳模型的示例的比例將會(huì)變小。為了確保這個(gè)長(zhǎng)尾示例評(píng)估的可靠性,基準(zhǔn)測(cè)試需要足夠龐大才能檢測(cè)到性能的微小差異。值得一提的是,規(guī)模較大的模型不一定有較大的優(yōu)勢(shì)。
    除了擴(kuò)大模型規(guī)模,我們還可以開(kāi)發(fā)機(jī)制,僅用很少的例子就能辨別出最佳的系統(tǒng)。這種方法在昂貴的測(cè)試環(huán)境下有很大優(yōu)勢(shì)。比如,在自然語(yǔ)言生成的人類(lèi)評(píng)估中 Mendon?a et al.(2021)將此框定為MT背景下的在線學(xué)習(xí)問(wèn)題。
    最近對(duì)抗基準(zhǔn)采取的方向是解釋更難的例子,這種基準(zhǔn)如果不偏向特定模型就可以補(bǔ)充常規(guī)基準(zhǔn)。這些對(duì)抗基準(zhǔn)采取的方向在評(píng)估方法的幫助下,可以識(shí)別或者生成尖銳的例子來(lái)評(píng)估模型性能,也能幫助注釋者更好地理解模型的決策邊界。
    由于基準(zhǔn)的預(yù)算(以及規(guī)模)通常保持不變,統(tǒng)計(jì)顯著性測(cè)試會(huì)很重要,因?yàn)樗刮覀兛煽康貦z測(cè)系統(tǒng)之間的性能差異。
    基準(zhǔn)的注釋在正確的情況下才能進(jìn)行比較。但是有些看起來(lái)錯(cuò)誤的例子其實(shí)不是注釋的錯(cuò)誤,而是注釋產(chǎn)生的歧義。也是不久前Bowman and Dahl (2021)強(qiáng)調(diào)了模型如何利用這種歧義的線索在基準(zhǔn)上達(dá)到超人的性能。
    如果可以,基準(zhǔn)能收集多個(gè)注釋來(lái)識(shí)別例子。這些注釋會(huì)幫助基準(zhǔn)分析錯(cuò)誤。同時(shí)也會(huì)增加標(biāo)準(zhǔn)指標(biāo)的重要性,因?yàn)檫@種多注釋會(huì)給模型的基準(zhǔn)性能設(shè)置上限。
    建議:
    1. 在基準(zhǔn)中包括許多和/或困難樣本。

    2. 進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn)。

    3. 為不明確的示例收集多個(gè)注釋。

    4. 報(bào)告注釋者協(xié)議。


    7

    大規(guī)模連續(xù)評(píng)價(jià)
    "當(dāng)一個(gè)措施成為目標(biāo)時(shí),它就不再是一個(gè)好的措施."-古德哈特定律
    GLUE等多任務(wù)基準(zhǔn)已經(jīng)成為領(lǐng)域進(jìn)步的關(guān)鍵指標(biāo),但這種靜態(tài)基準(zhǔn)很快就過(guò)時(shí)了。模型的更新使跨任務(wù)的進(jìn)展無(wú)法統(tǒng)一。雖然模型在多數(shù)GLUE任務(wù)上都取得了超人的表現(xiàn),但在 CoLA 等一些任務(wù)上與人類(lèi)仍有差距(Nangia 和 Bowman,2019 年)。同時(shí)在XTREME 上,模型的跨語(yǔ)言檢索方面有了很大改進(jìn)。
    因?yàn)槟P透倪M(jìn)太快,我們需要更靈活的模型評(píng)估機(jī)制。具體來(lái)說(shuō),就是除了動(dòng)態(tài)單任務(wù)評(píng)估(例如DynaBench),還有就是定義基準(zhǔn)數(shù)據(jù)集的動(dòng)態(tài)集合。該集合由社區(qū)管理,等到模型達(dá)到人類(lèi)性能并定期添加新的數(shù)據(jù)集時(shí),社區(qū)會(huì)刪除或降低數(shù)據(jù)集的權(quán)重。這樣的集合需要進(jìn)行版本控制,以便能夠在學(xué)術(shù)審查周期之外進(jìn)行更新,并且與以前的方法進(jìn)行比較。
    現(xiàn)有的多任務(wù)基準(zhǔn)測(cè)試,例如GEM ( Gehrmann et al., 2021 ),旨在成為“活的”基準(zhǔn)測(cè)試,通常包括大約 10-15 個(gè)不同的任務(wù)。由于不斷發(fā)布的新數(shù)據(jù)集的數(shù)量,如果要將基準(zhǔn)測(cè)試限制為一小部分代表性任務(wù),還不如將包含更大的 NLP 任務(wù)得出的結(jié)果有用。同時(shí)NLP 中任務(wù)的多樣性,將為模型性能提供更穩(wěn)健和最新的評(píng)估。百度的LUGE是朝著如此龐大的中文自然語(yǔ)言處理任務(wù)集合邁出的一步,目前由28個(gè)數(shù)據(jù)集組成。
    任務(wù)的集合可以通過(guò)各種方式分解,分解后得到對(duì)模型能力的更細(xì)粒度的評(píng)估。如果任務(wù)根據(jù)模型正在測(cè)試的行為分類(lèi),則這種細(xì)分會(huì)非常有洞察力。BIG-Bench是最近的語(yǔ)言模型探測(cè)協(xié)作的基準(zhǔn),包括按關(guān)鍵字分類(lèi)。
    這種大規(guī)模多任務(wù)評(píng)估的一個(gè)重要挑戰(zhàn)是可訪問(wèn)性。就是說(shuō),任務(wù)需要以通用輸入格式導(dǎo)入,以便它們可以輕松運(yùn)行。此外,任務(wù)應(yīng)該高效運(yùn)行,即使沒(méi)有太多計(jì)算要求,基礎(chǔ)設(shè)施也要可用于運(yùn)行任務(wù)。
    另外,這樣的集合有利于大型通用模型,為財(cái)力雄厚的公司或機(jī)構(gòu)提供訓(xùn)練。而且,這些模型已經(jīng)被用作當(dāng)前大多數(shù)研究工作的起點(diǎn),一旦經(jīng)過(guò)訓(xùn)練,就可以通過(guò)微調(diào)或修剪使之更有效地使用。
    建議:
    1. 考慮收集和評(píng)估大型、多樣化、版本化的 NLP 任務(wù)集合。


    8

    結(jié)論
    為了追上建模發(fā)展的速度,我們需要重新審視很多默認(rèn)的基準(zhǔn)測(cè)試,比如F1分?jǐn)?shù)和BLEU等簡(jiǎn)單指標(biāo)。還需要從語(yǔ)言技術(shù)的現(xiàn)實(shí)應(yīng)用中思考現(xiàn)實(shí)設(shè)置給模型帶來(lái)的影響。另外也應(yīng)該關(guān)心分布的長(zhǎng)尾,因?yàn)檫@是許多應(yīng)用程序可以觀察的到的地方。最后,我希望我們可以通過(guò)多指標(biāo)和統(tǒng)計(jì)顯著性測(cè)試來(lái)嚴(yán)格的評(píng)估我們的模型,使之越來(lái)越完善。

    原文鏈接:https://ruder.io/nlp-benchmarking/

    作者簡(jiǎn)介:

    SEBASTIAN RUDER,是倫敦 DeepMind 語(yǔ)言團(tuán)隊(duì)的一名研究科學(xué)家。

    2015-2019年就讀于愛(ài)爾蘭國(guó)立高威大學(xué),工程與信息學(xué)院,自然語(yǔ)言處理博士畢業(yè)。

    2017.4-2017.6在哥本哈根大學(xué),自然語(yǔ)言處理組,計(jì)算機(jī)科學(xué)系研究訪問(wèn)。

    2014.09-2015.01愛(ài)爾蘭都柏林三一學(xué)院,海外學(xué)期,計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)院,計(jì)算機(jī)科學(xué)與語(yǔ)言

    2012.10-2015.09就讀于Ruprecht-Karls-Universit?t Heidelberg 德國(guó)海德堡計(jì)算語(yǔ)言學(xué)研究所,文學(xué)學(xué)士計(jì)算語(yǔ)言學(xué)、英語(yǔ)語(yǔ)言學(xué)。

    SEBASTIAN RUDER在學(xué)習(xí)期間,曾與Microsoft、IBM 的 Extreme Blue、Google Summer of Code和SAP等機(jī)構(gòu)合作。他對(duì) NLP 的遷移學(xué)習(xí)使 ML 和 NLP 被大眾所了解。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

    DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)