0
本文作者: 我在思考中 | 2022-01-04 11:12 |
作者丨琰琰
編輯丨青暮
人工智能領(lǐng)域有兩大權(quán)威基準(zhǔn),一是在CV圈引爆深度學(xué)習(xí)的ImageNet,二是見(jiàn)證BERT掀起預(yù)訓(xùn)練風(fēng)潮的GLUE。
作為自然語(yǔ)言理解的通用評(píng)估標(biāo)準(zhǔn),GLUE在一定程度上能夠反映NLP 模型性能的高低。2018年,BERT在GLUE基準(zhǔn)刷新了11項(xiàng)任務(wù)指標(biāo)。自那之后,預(yù)訓(xùn)練+微調(diào)的2-Stage模式在NLP領(lǐng)域蔚然成風(fēng),GLUE也因此一炮而紅,成為公認(rèn)最具權(quán)威性的機(jī)器語(yǔ)言能力評(píng)估基準(zhǔn)之一。
GLUE評(píng)估體系由紐約大學(xué)、華盛頓大學(xué)、DeepMind等機(jī)構(gòu)聯(lián)合推出。2019年,GLUE在預(yù)訓(xùn)練模型評(píng)估方面日漸乏力,隨后SuperGLUE應(yīng)運(yùn)而生,并憑借多樣化任務(wù),全方位的考察能力受到產(chǎn)學(xué)界的廣泛追捧。
無(wú)獨(dú)有偶,隨著超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的興起,也對(duì)SuperGLUE的評(píng)估能力提出更高要求,尤其是面對(duì)悟道、源1.0等滾滾而來(lái)的中文大模型。
12月30日,北京智源研究院在位于「宇宙中心」的智源大廈舉辦了首場(chǎng) BAAI—NLP Open Day 活動(dòng)。會(huì)上,中國(guó)工程院院士、清華大學(xué)教授、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)戴瓊海,北京語(yǔ)言大學(xué)教授、國(guó)家語(yǔ)言文字工作委員會(huì)原副主任李宇明,清華大學(xué)教授、智源研究院自然語(yǔ)言處理重大研究方向首席科學(xué)家孫茂松,智源研究院副院長(zhǎng)曹崗?fù)瑖?guó)內(nèi)NLP科學(xué)家和青年學(xué)者一起,重磅發(fā)布了機(jī)器中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)——智源指數(shù)CUGE。
CUGE,取自Chinese LanguageUnderstanding and Generation Evaluation的首字母縮寫(xiě),代表著兼顧自然語(yǔ)言理解(NLU)與自然語(yǔ)言生成(NLG)兩大任務(wù)體系的中文語(yǔ)言能力評(píng)測(cè)標(biāo)準(zhǔn)。它涵蓋7種重要語(yǔ)言能力、17個(gè)主流任務(wù)、19個(gè)代表性數(shù)據(jù)集。
孫茂松教授表示,我們希望站在已有相關(guān)工作的基礎(chǔ)上,構(gòu)建出更全面均衡的機(jī)器語(yǔ)言評(píng)測(cè)體系,在學(xué)術(shù)上指引中文大規(guī)模預(yù)訓(xùn)練模型的發(fā)展方向,同時(shí),也希望通過(guò)不斷提高評(píng)測(cè)體系的科學(xué)性和權(quán)威性,更好地幫助研究者把更多精力放在模型本身的改進(jìn)上,提升對(duì)模型發(fā)展的指導(dǎo)性。
如戴瓊海院士所言,如果說(shuō)NLP是人工智能皇冠上的一顆明珠,建立科學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)就需要尋找這顆明珠的指北針,如果方向錯(cuò)了,走的越遠(yuǎn)偏離越多,而且很有可能找不到。
所以,在NLP技術(shù)極速發(fā)展的過(guò)程中,其評(píng)價(jià)體系也需要亦步亦趨。
縱觀NLP發(fā)展歷程,預(yù)訓(xùn)練語(yǔ)言模型無(wú)疑是一個(gè)里程碑式的突破點(diǎn)。孫茂松教授表示,“自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型+任務(wù)相關(guān)的精微調(diào)整”的適配方案初步掌握了通用語(yǔ)言能力的密碼,是未來(lái)NLP領(lǐng)域最具前景的新范式。而面對(duì)試圖掌握通用語(yǔ)言能力的預(yù)訓(xùn)練模型,以英文為代表的GLUE,對(duì)中文并不能夠作出全面、科學(xué)的有效評(píng)測(cè)。這也是智源學(xué)者合力研發(fā)「智源指數(shù)」的一個(gè)重要原因。
預(yù)訓(xùn)練語(yǔ)言模型,其最大的價(jià)值是把深度學(xué)習(xí)推向了互聯(lián)網(wǎng)上近乎無(wú)窮無(wú)盡的大規(guī)模數(shù)據(jù)——互聯(lián)網(wǎng)上任何一個(gè)任何類型的文本,不需要人工標(biāo)注就可以直接學(xué)習(xí),而在此之前,深度學(xué)習(xí)訓(xùn)練僅限于特定任務(wù)的有標(biāo)注數(shù)據(jù)。有了充足的底層“燃料”,預(yù)訓(xùn)練模型的規(guī)模也隨之急劇膨脹,如今超大規(guī)模智能語(yǔ)言模型參數(shù)量達(dá)到了萬(wàn)億級(jí)。
計(jì)算機(jī)如何評(píng)判機(jī)器的語(yǔ)言能力,需要科學(xué)有效的評(píng)價(jià)體系。NLP模型的評(píng)價(jià)標(biāo)準(zhǔn)最早可以追溯到圖靈測(cè)試,后來(lái)逐漸演進(jìn)到更為具體的基準(zhǔn)任務(wù)和數(shù)據(jù)集。進(jìn)入預(yù)訓(xùn)練時(shí)代后,GLUE/SuperGLUE一直被視為NLP評(píng)測(cè)方面的事實(shí)性標(biāo)準(zhǔn),并在預(yù)訓(xùn)練發(fā)展歷程中發(fā)揮了重要的指引作用。
然而,隨著預(yù)訓(xùn)練模型逐漸向超大規(guī)模演進(jìn),GLUE仍停留在自然語(yǔ)言理解層面,不支持語(yǔ)言生成、多語(yǔ)言、數(shù)學(xué)推理等其他重要語(yǔ)言能力。
上個(gè)月,Google 在自然語(yǔ)言處理頂級(jí)會(huì)議NeurIPS 2021 投稿了一篇名為AI and the Everythingin the Whole Wide World Benchmark的文章,揭示了GLUE/SuperGLU等“通用”評(píng)估基準(zhǔn)的若干局限性,包括任務(wù)設(shè)計(jì)過(guò)于武斷、數(shù)據(jù)集/任務(wù)集組合太隨意,數(shù)據(jù)范圍受限等等。
論文地址:https://arxiv.org/abs/2111.15366
文章指出,數(shù)據(jù)基準(zhǔn)測(cè)試本就是封閉的、主觀的且基于有限數(shù)據(jù)構(gòu)造的。但由于大家長(zhǎng)期接受并強(qiáng)調(diào)用于“通用”能力評(píng)測(cè)的設(shè)定,“通用”反倒成為了掩護(hù),開(kāi)發(fā)基準(zhǔn)的人以此為借口,逃避報(bào)告基準(zhǔn)數(shù)據(jù)細(xì)節(jié)(如數(shù)據(jù)源、可能存在的偏向性)的責(zé)任。
與此同時(shí),正因?yàn)榛鶞?zhǔn)對(duì)“通用”能力的評(píng)估被夸大,直接導(dǎo)致研究者們不假思索地去追求算法在基準(zhǔn)評(píng)估中的性能指標(biāo)。盲目“刷榜”而來(lái)的算法,忽略了指標(biāo)與真實(shí)世界的匹配,也無(wú)法解決相關(guān)的現(xiàn)實(shí)問(wèn)題。
針對(duì)這篇質(zhì)疑 Benchmark 公平性的文章,劉知遠(yuǎn)教授表示,谷歌并沒(méi)有否認(rèn)Benchmark在模型發(fā)展中的價(jià)值,而是說(shuō),如今這些Benchmark與原本的指引作用出現(xiàn)了一些偏差,而這也是為什么智源指數(shù)強(qiáng)調(diào)未來(lái)需要持續(xù)改進(jìn)的原因。
對(duì)于傳統(tǒng)主流榜單基于機(jī)器在有限采樣上的強(qiáng)表達(dá)能力,給予“遠(yuǎn)超人類水平”的成績(jī),劉知遠(yuǎn)表示:“ 傳統(tǒng)主流榜單為行業(yè)發(fā)展做出了巨大貢獻(xiàn),我們期待在巨人的肩膀上繼續(xù)進(jìn)步。如果Benchmark包含的數(shù)據(jù)集,長(zhǎng)期一成不變,指引的作用必然會(huì)越來(lái)越小,因?yàn)槿魏问挛锇l(fā)展到最后都會(huì)形成內(nèi)卷。就像高考,分?jǐn)?shù)很重要,但能力的持續(xù)提升才是我們進(jìn)行所有指標(biāo)衡量的最終目的?!?/span>
在劉知遠(yuǎn)教授看來(lái),模型與基準(zhǔn)的發(fā)展是辯證統(tǒng)一的過(guò)程,我們不能站在某個(gè)結(jié)點(diǎn),否定其過(guò)去的效用。人工智能的自然語(yǔ)言處理評(píng)測(cè),本身是一個(gè)科學(xué)開(kāi)放的事情,只要我們持續(xù)思考和探索,一定會(huì)做的越來(lái)越好。未來(lái),智源指數(shù)每年會(huì)更新數(shù)據(jù)集,并以智源作為平臺(tái)發(fā)布機(jī)器語(yǔ)言能力發(fā)展報(bào)告,向?qū)W術(shù)共同體傳達(dá)未來(lái)需要一起改進(jìn)和努力的方向。
同時(shí),國(guó)內(nèi)大模型研究產(chǎn)業(yè)如火如荼,但目前用于中文語(yǔ)言能力評(píng)測(cè)的基準(zhǔn)卻少之又少,劉知遠(yuǎn)教授認(rèn)表示,他們希望智源指數(shù),通過(guò)更科學(xué)有效地的評(píng)測(cè)體系幫助產(chǎn)學(xué)界更好地指引中文預(yù)訓(xùn)練模型的發(fā)展方向。同時(shí),為國(guó)內(nèi)NLP發(fā)展構(gòu)建公正客觀的基準(zhǔn)生態(tài),促進(jìn)整個(gè)行業(yè)和領(lǐng)域的進(jìn)步。
為了使中文機(jī)器語(yǔ)言能力評(píng)測(cè)體系更全面、更系統(tǒng),智源指數(shù)包含高質(zhì)量中文自然語(yǔ)言處理(NLP)數(shù)據(jù)集、排行榜與在線評(píng)測(cè)平臺(tái),創(chuàng)造性的設(shè)計(jì)了多層次維度的評(píng)測(cè)方案。
報(bào)告地址:arxiv.org/pdf/2112.13610.pdf
網(wǎng)站地址:cuge.baai.ac.cn
針對(duì)傳統(tǒng)側(cè)重語(yǔ)言理解能力,評(píng)測(cè)框架體系扁平化,缺乏系統(tǒng)性多樣性,以及過(guò)于專注平均數(shù)據(jù)集性能,覆蓋的語(yǔ)言能力、任務(wù)和數(shù)據(jù)集偏少等普遍特點(diǎn)。
智源指數(shù)定位「中文語(yǔ)言」,覆蓋自然語(yǔ)言理解和生成兩大任務(wù)體系,按照「能力- 任務(wù)- 數(shù)據(jù)集」的層次結(jié)構(gòu)篩選和組織高質(zhì)量數(shù)據(jù)集,為機(jī)器語(yǔ)言能力提供更加全面系統(tǒng)和多層多維的評(píng)測(cè)標(biāo)準(zhǔn)。
在評(píng)分策略上,傳統(tǒng)評(píng)測(cè)基準(zhǔn)通常直接將不同數(shù)據(jù)集上的得分平均得到總體得分,評(píng)測(cè)維度較為單一。而智源指數(shù)基于層次結(jié)構(gòu),提供了模型在數(shù)據(jù)集、任務(wù)、能力、總體不同層次維度的得分,并通過(guò)語(yǔ)言能力雷達(dá)圖,直觀地展示模型語(yǔ)言能力。
一般而言,將不同數(shù)據(jù)集上的不同指標(biāo)直接平均,會(huì)受到不同數(shù)據(jù)集和指標(biāo)不同特性的影響,最終得分也容易被少數(shù)得分變化幅度較大的數(shù)據(jù)集和指標(biāo)主導(dǎo),難以有效地全面衡量模型的語(yǔ)言能力進(jìn)展。
智源指數(shù)采用歸一化方法計(jì)算得分,參考標(biāo)準(zhǔn)基線模型(mT5-small)的得分,計(jì)算參評(píng)模型的相對(duì)得分,最大程度消除不同數(shù)據(jù)集和指標(biāo)特性影響。目前智源發(fā)布的大規(guī)模預(yù)訓(xùn)練模型CPM-2,以及mT5-small/large/XXL的評(píng)測(cè)結(jié)果已經(jīng)在智源指數(shù)榜單上公布。
以上可以看出,預(yù)訓(xùn)練模型在不同的語(yǔ)言能力表現(xiàn)的差異較大,通用的語(yǔ)言智能仍然有非常大的提升空間。
我們知道,基準(zhǔn)任務(wù)和數(shù)據(jù)集支持著自然語(yǔ)言處理能力的開(kāi)發(fā)和評(píng)估,是NLP工具的驅(qū)動(dòng)力。智源指數(shù)覆蓋了7 種重要語(yǔ)言能力,17 個(gè)主流自然語(yǔ)言處理任務(wù),19個(gè)高質(zhì)量數(shù)據(jù)集,分別為:
語(yǔ)言理解-詞句級(jí):中文分詞、中文分詞和詞性標(biāo)注、古詩(shī)文識(shí)記、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽??;
語(yǔ)言理解-篇章級(jí):幽默檢測(cè)、故事情節(jié)完形填空、閱讀理解;
信息獲取及問(wèn)答:反向詞典、開(kāi)放域問(wèn)答、文檔檢索;
語(yǔ)言生成:摘要生成、數(shù)據(jù)到文本生成;
對(duì)話交互:知識(shí)驅(qū)動(dòng)的對(duì)話生成;
多語(yǔ)言:機(jī)器翻譯、跨語(yǔ)言摘要;
數(shù)學(xué)推理:數(shù)值計(jì)算。
為了讓研究人員方便快捷參與評(píng)測(cè),智源指數(shù)為每個(gè)語(yǔ)言能力選擇代表性任務(wù)和數(shù)據(jù)集,組成精簡(jiǎn)榜。相當(dāng)于在7種語(yǔ)言能力下,為每個(gè)語(yǔ)言能力提供一個(gè)數(shù)據(jù)集。包括:
「智源指數(shù)」的一個(gè)重要的核心點(diǎn)是如何構(gòu)建高質(zhì)量、大跨度的標(biāo)注語(yǔ)言資源庫(kù)。在發(fā)布會(huì)現(xiàn)場(chǎng),山西大學(xué)譚紅葉教授和北京語(yǔ)言大學(xué)楊爾弘教授介紹了兩個(gè)特色大規(guī)模數(shù)據(jù)集的標(biāo)注規(guī)則和數(shù)據(jù)質(zhì)量。
其中,面向可解釋評(píng)測(cè)的高考于都理解數(shù)據(jù)集GCRC,匯集近10年高考閱讀理解測(cè)試題包含5000多篇文本、8700多道選擇題(約1.5萬(wàn)個(gè)選項(xiàng))。標(biāo)注信息涉及信息句子級(jí)支持事實(shí)、干擾項(xiàng)(不正確選項(xiàng))錯(cuò)誤原因、回答問(wèn)題所需推理能力為三類,可從中間推理、模型能力兩方面進(jìn)行可解釋評(píng)價(jià)。
二是面向漢語(yǔ)學(xué)習(xí)者文本多維標(biāo)注數(shù)據(jù)集YACLC。該數(shù)據(jù)集由北京語(yǔ)言大學(xué)、清華大學(xué)、北京師范大學(xué)、云南師范大學(xué)、東北大學(xué)、上海財(cái)經(jīng)大學(xué)等機(jī)構(gòu)聯(lián)合構(gòu)建,其訓(xùn)練集規(guī)模高達(dá)8000條,每條數(shù)據(jù)包括原始句子及其多種糾偏標(biāo)注與流利標(biāo)注。驗(yàn)證集和測(cè)試集規(guī)模都為1000條,每條數(shù)據(jù)包括原始句子及其全部糾偏標(biāo)注與流利標(biāo)注。
基于單數(shù)據(jù)集的榜單能力,未來(lái)智源指數(shù)還將定期吸納最新優(yōu)秀數(shù)據(jù)集。劉知遠(yuǎn)表示說(shuō),他們還將結(jié)合現(xiàn)有的行業(yè)力量,建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制,構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動(dòng)中文自然語(yǔ)言處理的發(fā)展。
整個(gè)人工智能發(fā)展過(guò)程中,高質(zhì)量數(shù)據(jù)集,科學(xué)地評(píng)測(cè)體系都發(fā)揮了重要的作用。當(dāng)時(shí)深度學(xué)習(xí)在CV領(lǐng)域的崛起,是因?yàn)锳lexNet模型在ImageNet數(shù)據(jù)集上刷新SOTA,引發(fā)了整個(gè)學(xué)術(shù)界,產(chǎn)業(yè)界對(duì)深度學(xué)習(xí)的關(guān)注。
類似地,中文自然語(yǔ)言處理要想取得重大突破,至少要知道如何“量化”突破,所以科學(xué)標(biāo)準(zhǔn)很重要。此外,一個(gè)好的「智源指數(shù)」不僅要測(cè)計(jì)算機(jī)的語(yǔ)言能力,更重要的是能夠指出計(jì)算機(jī)的語(yǔ)言能力的發(fā)展方向。
劉知遠(yuǎn)表示,“期待CUGE的指引可以幫助更多中文大模型,尋找到新的突破方向。對(duì)于智源指數(shù)的發(fā)展,我們需要做好頂層設(shè)計(jì),放式地吸引更多的優(yōu)秀學(xué)者和機(jī)構(gòu),不斷構(gòu)建、發(fā)布、吸納更多高質(zhì)量的中文數(shù)據(jù)集,才有望建立權(quán)威的評(píng)測(cè)標(biāo)準(zhǔn)?!?/span>
為了更好地去支持智源指數(shù)的發(fā)展,智源研究院搭建了「智源指數(shù)工作委員會(huì)」,由孫茂松擔(dān)任主任,穗志方和楊爾弘擔(dān)任副主任。
目前,委員會(huì)單位已經(jīng)吸納了國(guó)內(nèi)在自然語(yǔ)言處理方面10余家優(yōu)勢(shì)單位,接近20個(gè)相關(guān)優(yōu)勢(shì)研究組,去針對(duì)智源指數(shù)不斷進(jìn)行改進(jìn),力求更加科學(xué)、規(guī)范、高質(zhì)量地推進(jìn)中文自然語(yǔ)言處理技術(shù)的標(biāo)準(zhǔn)評(píng)測(cè)。
智源研究院表示,未來(lái)將通過(guò)持續(xù)的機(jī)制創(chuàng)新和服務(wù)保障,以“功成不必在我”的理念,建立起更有效的系統(tǒng)化研究環(huán)境,促進(jìn)智源學(xué)者們不斷成就新發(fā)明、新突破,共同創(chuàng)造經(jīng)得起時(shí)間檢驗(yàn)的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。