中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

本文作者：我在思考中

2022-01-04 11:12

導(dǎo)語(yǔ)：「智源指數(shù)」不僅要測(cè)計(jì)算機(jī)的語(yǔ)言能力，更重要的是能夠指出計(jì)算機(jī)的語(yǔ)言能力的發(fā)展方向。

人工智能大模型時(shí)代，評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng)，從簡(jiǎn)化到多重維度，智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的新考卷。

作者丨琰琰

編輯丨青暮

人工智能領(lǐng)域有兩大權(quán)威基準(zhǔn)，一是在CV圈引爆深度學(xué)習(xí)的ImageNet，二是見(jiàn)證BERT掀起預(yù)訓(xùn)練風(fēng)潮的GLUE。

作為自然語(yǔ)言理解的通用評(píng)估標(biāo)準(zhǔn)，GLUE在一定程度上能夠反映NLP 模型性能的高低。2018年，BERT在GLUE基準(zhǔn)刷新了11項(xiàng)任務(wù)指標(biāo)。自那之后，預(yù)訓(xùn)練+微調(diào)的2-Stage模式在NLP領(lǐng)域蔚然成風(fēng)，GLUE也因此一炮而紅，成為公認(rèn)最具權(quán)威性的機(jī)器語(yǔ)言能力評(píng)估基準(zhǔn)之一。

GLUE評(píng)估體系由紐約大學(xué)、華盛頓大學(xué)、DeepMind等機(jī)構(gòu)聯(lián)合推出。2019年，GLUE在預(yù)訓(xùn)練模型評(píng)估方面日漸乏力，隨后SuperGLUE應(yīng)運(yùn)而生，并憑借多樣化任務(wù)，全方位的考察能力受到產(chǎn)學(xué)界的廣泛追捧。

無(wú)獨(dú)有偶，隨著超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的興起，也對(duì)SuperGLUE的評(píng)估能力提出更高要求，尤其是面對(duì)悟道、源1.0等滾滾而來(lái)的中文大模型。

12月30日，北京智源研究院在位于「宇宙中心」的智源大廈舉辦了首場(chǎng) BAAI—NLP Open Day 活動(dòng)。會(huì)上，中國(guó)工程院院士、清華大學(xué)教授、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)戴瓊海，北京語(yǔ)言大學(xué)教授、國(guó)家語(yǔ)言文字工作委員會(huì)原副主任李宇明，清華大學(xué)教授、智源研究院自然語(yǔ)言處理重大研究方向首席科學(xué)家孫茂松，智源研究院副院長(zhǎng)曹崗?fù)瑖?guó)內(nèi)NLP科學(xué)家和青年學(xué)者一起，重磅發(fā)布了機(jī)器中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)——智源指數(shù)CUGE。

CUGE，取自Chinese LanguageUnderstanding and Generation Evaluation的首字母縮寫(xiě)，代表著兼顧自然語(yǔ)言理解（NLU）與自然語(yǔ)言生成（NLG）兩大任務(wù)體系的中文語(yǔ)言能力評(píng)測(cè)標(biāo)準(zhǔn)。它涵蓋7種重要語(yǔ)言能力、17個(gè)主流任務(wù)、19個(gè)代表性數(shù)據(jù)集。

孫茂松教授表示，我們希望站在已有相關(guān)工作的基礎(chǔ)上，構(gòu)建出更全面均衡的機(jī)器語(yǔ)言評(píng)測(cè)體系，在學(xué)術(shù)上指引中文大規(guī)模預(yù)訓(xùn)練模型的發(fā)展方向，同時(shí)，也希望通過(guò)不斷提高評(píng)測(cè)體系的科學(xué)性和權(quán)威性，更好地幫助研究者把更多精力放在模型本身的改進(jìn)上，提升對(duì)模型發(fā)展的指導(dǎo)性。

為什么要做「智源指數(shù)」？

如戴瓊海院士所言，如果說(shuō)NLP是人工智能皇冠上的一顆明珠，建立科學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)就需要尋找這顆明珠的指北針，如果方向錯(cuò)了，走的越遠(yuǎn)偏離越多，而且很有可能找不到。

所以，在NLP技術(shù)極速發(fā)展的過(guò)程中，其評(píng)價(jià)體系也需要亦步亦趨。

縱觀NLP發(fā)展歷程，預(yù)訓(xùn)練語(yǔ)言模型無(wú)疑是一個(gè)里程碑式的突破點(diǎn)。孫茂松教授表示，“自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型+任務(wù)相關(guān)的精微調(diào)整”的適配方案初步掌握了通用語(yǔ)言能力的密碼，是未來(lái)NLP領(lǐng)域最具前景的新范式。而面對(duì)試圖掌握通用語(yǔ)言能力的預(yù)訓(xùn)練模型，以英文為代表的GLUE，對(duì)中文并不能夠作出全面、科學(xué)的有效評(píng)測(cè)。這也是智源學(xué)者合力研發(fā)「智源指數(shù)」的一個(gè)重要原因。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

預(yù)訓(xùn)練語(yǔ)言模型，其最大的價(jià)值是把深度學(xué)習(xí)推向了互聯(lián)網(wǎng)上近乎無(wú)窮無(wú)盡的大規(guī)模數(shù)據(jù)——互聯(lián)網(wǎng)上任何一個(gè)任何類型的文本，不需要人工標(biāo)注就可以直接學(xué)習(xí)，而在此之前，深度學(xué)習(xí)訓(xùn)練僅限于特定任務(wù)的有標(biāo)注數(shù)據(jù)。有了充足的底層“燃料”，預(yù)訓(xùn)練模型的規(guī)模也隨之急劇膨脹，如今超大規(guī)模智能語(yǔ)言模型參數(shù)量達(dá)到了萬(wàn)億級(jí)。

計(jì)算機(jī)如何評(píng)判機(jī)器的語(yǔ)言能力，需要科學(xué)有效的評(píng)價(jià)體系。NLP模型的評(píng)價(jià)標(biāo)準(zhǔn)最早可以追溯到圖靈測(cè)試，后來(lái)逐漸演進(jìn)到更為具體的基準(zhǔn)任務(wù)和數(shù)據(jù)集。進(jìn)入預(yù)訓(xùn)練時(shí)代后，GLUE/SuperGLUE一直被視為NLP評(píng)測(cè)方面的事實(shí)性標(biāo)準(zhǔn)，并在預(yù)訓(xùn)練發(fā)展歷程中發(fā)揮了重要的指引作用。

然而，隨著預(yù)訓(xùn)練模型逐漸向超大規(guī)模演進(jìn)，GLUE仍停留在自然語(yǔ)言理解層面，不支持語(yǔ)言生成、多語(yǔ)言、數(shù)學(xué)推理等其他重要語(yǔ)言能力。

上個(gè)月，Google 在自然語(yǔ)言處理頂級(jí)會(huì)議NeurIPS 2021 投稿了一篇名為AI and the Everythingin the Whole Wide World Benchmark的文章，揭示了GLUE/SuperGLU等“通用”評(píng)估基準(zhǔn)的若干局限性，包括任務(wù)設(shè)計(jì)過(guò)于武斷、數(shù)據(jù)集/任務(wù)集組合太隨意，數(shù)據(jù)范圍受限等等。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

論文地址：https://arxiv.org/abs/2111.15366

文章指出，數(shù)據(jù)基準(zhǔn)測(cè)試本就是封閉的、主觀的且基于有限數(shù)據(jù)構(gòu)造的。但由于大家長(zhǎng)期接受并強(qiáng)調(diào)用于“通用”能力評(píng)測(cè)的設(shè)定，“通用”反倒成為了掩護(hù)，開(kāi)發(fā)基準(zhǔn)的人以此為借口，逃避報(bào)告基準(zhǔn)數(shù)據(jù)細(xì)節(jié)（如數(shù)據(jù)源、可能存在的偏向性）的責(zé)任。

與此同時(shí)，正因?yàn)榛鶞?zhǔn)對(duì)“通用”能力的評(píng)估被夸大，直接導(dǎo)致研究者們不假思索地去追求算法在基準(zhǔn)評(píng)估中的性能指標(biāo)。盲目“刷榜”而來(lái)的算法，忽略了指標(biāo)與真實(shí)世界的匹配，也無(wú)法解決相關(guān)的現(xiàn)實(shí)問(wèn)題。

針對(duì)這篇質(zhì)疑 Benchmark 公平性的文章，劉知遠(yuǎn)教授表示，谷歌并沒(méi)有否認(rèn)Benchmark在模型發(fā)展中的價(jià)值，而是說(shuō)，如今這些Benchmark與原本的指引作用出現(xiàn)了一些偏差，而這也是為什么智源指數(shù)強(qiáng)調(diào)未來(lái)需要持續(xù)改進(jìn)的原因。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

對(duì)于傳統(tǒng)主流榜單基于機(jī)器在有限采樣上的強(qiáng)表達(dá)能力，給予“遠(yuǎn)超人類水平”的成績(jī)，劉知遠(yuǎn)表示：“ 傳統(tǒng)主流榜單為行業(yè)發(fā)展做出了巨大貢獻(xiàn)，我們期待在巨人的肩膀上繼續(xù)進(jìn)步。如果Benchmark包含的數(shù)據(jù)集，長(zhǎng)期一成不變，指引的作用必然會(huì)越來(lái)越小，因?yàn)槿魏问挛锇l(fā)展到最后都會(huì)形成內(nèi)卷。就像高考，分?jǐn)?shù)很重要，但能力的持續(xù)提升才是我們進(jìn)行所有指標(biāo)衡量的最終目的?！?/span>

在劉知遠(yuǎn)教授看來(lái)，模型與基準(zhǔn)的發(fā)展是辯證統(tǒng)一的過(guò)程，我們不能站在某個(gè)結(jié)點(diǎn)，否定其過(guò)去的效用。人工智能的自然語(yǔ)言處理評(píng)測(cè)，本身是一個(gè)科學(xué)開(kāi)放的事情，只要我們持續(xù)思考和探索，一定會(huì)做的越來(lái)越好。未來(lái)，智源指數(shù)每年會(huì)更新數(shù)據(jù)集，并以智源作為平臺(tái)發(fā)布機(jī)器語(yǔ)言能力發(fā)展報(bào)告，向?qū)W術(shù)共同體傳達(dá)未來(lái)需要一起改進(jìn)和努力的方向。

同時(shí)，國(guó)內(nèi)大模型研究產(chǎn)業(yè)如火如荼，但目前用于中文語(yǔ)言能力評(píng)測(cè)的基準(zhǔn)卻少之又少，劉知遠(yuǎn)教授認(rèn)表示，他們希望智源指數(shù)，通過(guò)更科學(xué)有效地的評(píng)測(cè)體系幫助產(chǎn)學(xué)界更好地指引中文預(yù)訓(xùn)練模型的發(fā)展方向。同時(shí)，為國(guó)內(nèi)NLP發(fā)展構(gòu)建公正客觀的基準(zhǔn)生態(tài)，促進(jìn)整個(gè)行業(yè)和領(lǐng)域的進(jìn)步。

「全面均衡」的語(yǔ)言評(píng)測(cè)基準(zhǔn)

為了使中文機(jī)器語(yǔ)言能力評(píng)測(cè)體系更全面、更系統(tǒng)，智源指數(shù)包含高質(zhì)量中文自然語(yǔ)言處理（NLP）數(shù)據(jù)集、排行榜與在線評(píng)測(cè)平臺(tái)，創(chuàng)造性的設(shè)計(jì)了多層次維度的評(píng)測(cè)方案。

報(bào)告地址：arxiv.org/pdf/2112.13610.pdf

網(wǎng)站地址：cuge.baai.ac.cn

針對(duì)傳統(tǒng)側(cè)重語(yǔ)言理解能力，評(píng)測(cè)框架體系扁平化，缺乏系統(tǒng)性多樣性，以及過(guò)于專注平均數(shù)據(jù)集性能，覆蓋的語(yǔ)言能力、任務(wù)和數(shù)據(jù)集偏少等普遍特點(diǎn)。

智源指數(shù)定位「中文語(yǔ)言」，覆蓋自然語(yǔ)言理解和生成兩大任務(wù)體系，按照「能力- 任務(wù)- 數(shù)據(jù)集」的層次結(jié)構(gòu)篩選和組織高質(zhì)量數(shù)據(jù)集，為機(jī)器語(yǔ)言能力提供更加全面系統(tǒng)和多層多維的評(píng)測(cè)標(biāo)準(zhǔn)。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

在評(píng)分策略上，傳統(tǒng)評(píng)測(cè)基準(zhǔn)通常直接將不同數(shù)據(jù)集上的得分平均得到總體得分，評(píng)測(cè)維度較為單一。而智源指數(shù)基于層次結(jié)構(gòu)，提供了模型在數(shù)據(jù)集、任務(wù)、能力、總體不同層次維度的得分，并通過(guò)語(yǔ)言能力雷達(dá)圖，直觀地展示模型語(yǔ)言能力。

一般而言，將不同數(shù)據(jù)集上的不同指標(biāo)直接平均，會(huì)受到不同數(shù)據(jù)集和指標(biāo)不同特性的影響，最終得分也容易被少數(shù)得分變化幅度較大的數(shù)據(jù)集和指標(biāo)主導(dǎo)，難以有效地全面衡量模型的語(yǔ)言能力進(jìn)展。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

智源指數(shù)采用歸一化方法計(jì)算得分，參考標(biāo)準(zhǔn)基線模型（mT5-small）的得分，計(jì)算參評(píng)模型的相對(duì)得分，最大程度消除不同數(shù)據(jù)集和指標(biāo)特性影響。目前智源發(fā)布的大規(guī)模預(yù)訓(xùn)練模型CPM-2，以及mT5-small/large/XXL的評(píng)測(cè)結(jié)果已經(jīng)在智源指數(shù)榜單上公布。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

以上可以看出，預(yù)訓(xùn)練模型在不同的語(yǔ)言能力表現(xiàn)的差異較大，通用的語(yǔ)言智能仍然有非常大的提升空間。

我們知道，基準(zhǔn)任務(wù)和數(shù)據(jù)集支持著自然語(yǔ)言處理能力的開(kāi)發(fā)和評(píng)估，是NLP工具的驅(qū)動(dòng)力。智源指數(shù)覆蓋了7 種重要語(yǔ)言能力，17 個(gè)主流自然語(yǔ)言處理任務(wù)，19個(gè)高質(zhì)量數(shù)據(jù)集，分別為：

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

語(yǔ)言理解-詞句級(jí)：中文分詞、中文分詞和詞性標(biāo)注、古詩(shī)文識(shí)記、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽??；
語(yǔ)言理解-篇章級(jí)：幽默檢測(cè)、故事情節(jié)完形填空、閱讀理解；
信息獲取及問(wèn)答：反向詞典、開(kāi)放域問(wèn)答、文檔檢索；
語(yǔ)言生成：摘要生成、數(shù)據(jù)到文本生成；
對(duì)話交互：知識(shí)驅(qū)動(dòng)的對(duì)話生成；
多語(yǔ)言：機(jī)器翻譯、跨語(yǔ)言摘要；
數(shù)學(xué)推理：數(shù)值計(jì)算。

為了讓研究人員方便快捷參與評(píng)測(cè)，智源指數(shù)為每個(gè)語(yǔ)言能力選擇代表性任務(wù)和數(shù)據(jù)集，組成精簡(jiǎn)榜。相當(dāng)于在7種語(yǔ)言能力下，為每個(gè)語(yǔ)言能力提供一個(gè)數(shù)據(jù)集。包括：

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

「智源指數(shù)」的一個(gè)重要的核心點(diǎn)是如何構(gòu)建高質(zhì)量、大跨度的標(biāo)注語(yǔ)言資源庫(kù)。在發(fā)布會(huì)現(xiàn)場(chǎng)，山西大學(xué)譚紅葉教授和北京語(yǔ)言大學(xué)楊爾弘教授介紹了兩個(gè)特色大規(guī)模數(shù)據(jù)集的標(biāo)注規(guī)則和數(shù)據(jù)質(zhì)量。

其中，面向可解釋評(píng)測(cè)的高考于都理解數(shù)據(jù)集GCRC，匯集近10年高考閱讀理解測(cè)試題包含5000多篇文本、8700多道選擇題（約1.5萬(wàn)個(gè)選項(xiàng)）。標(biāo)注信息涉及信息句子級(jí)支持事實(shí)、干擾項(xiàng)（不正確選項(xiàng)）錯(cuò)誤原因、回答問(wèn)題所需推理能力為三類，可從中間推理、模型能力兩方面進(jìn)行可解釋評(píng)價(jià)。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

二是面向漢語(yǔ)學(xué)習(xí)者文本多維標(biāo)注數(shù)據(jù)集YACLC。該數(shù)據(jù)集由北京語(yǔ)言大學(xué)、清華大學(xué)、北京師范大學(xué)、云南師范大學(xué)、東北大學(xué)、上海財(cái)經(jīng)大學(xué)等機(jī)構(gòu)聯(lián)合構(gòu)建，其訓(xùn)練集規(guī)模高達(dá)8000條，每條數(shù)據(jù)包括原始句子及其多種糾偏標(biāo)注與流利標(biāo)注。驗(yàn)證集和測(cè)試集規(guī)模都為1000條，每條數(shù)據(jù)包括原始句子及其全部糾偏標(biāo)注與流利標(biāo)注。

基于單數(shù)據(jù)集的榜單能力，未來(lái)智源指數(shù)還將定期吸納最新優(yōu)秀數(shù)據(jù)集。劉知遠(yuǎn)表示說(shuō)，他們還將結(jié)合現(xiàn)有的行業(yè)力量，建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制，構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū)，推動(dòng)中文自然語(yǔ)言處理的發(fā)展。

中文大模型的「風(fēng)向標(biāo)」

整個(gè)人工智能發(fā)展過(guò)程中，高質(zhì)量數(shù)據(jù)集，科學(xué)地評(píng)測(cè)體系都發(fā)揮了重要的作用。當(dāng)時(shí)深度學(xué)習(xí)在CV領(lǐng)域的崛起，是因?yàn)锳lexNet模型在ImageNet數(shù)據(jù)集上刷新SOTA，引發(fā)了整個(gè)學(xué)術(shù)界，產(chǎn)業(yè)界對(duì)深度學(xué)習(xí)的關(guān)注。

類似地，中文自然語(yǔ)言處理要想取得重大突破，至少要知道如何“量化”突破，所以科學(xué)標(biāo)準(zhǔn)很重要。此外，一個(gè)好的「智源指數(shù)」不僅要測(cè)計(jì)算機(jī)的語(yǔ)言能力，更重要的是能夠指出計(jì)算機(jī)的語(yǔ)言能力的發(fā)展方向。

劉知遠(yuǎn)表示，“期待CUGE的指引可以幫助更多中文大模型，尋找到新的突破方向。對(duì)于智源指數(shù)的發(fā)展，我們需要做好頂層設(shè)計(jì)，放式地吸引更多的優(yōu)秀學(xué)者和機(jī)構(gòu)，不斷構(gòu)建、發(fā)布、吸納更多高質(zhì)量的中文數(shù)據(jù)集，才有望建立權(quán)威的評(píng)測(cè)標(biāo)準(zhǔn)?！?/span>

為了更好地去支持智源指數(shù)的發(fā)展，智源研究院搭建了「智源指數(shù)工作委員會(huì)」，由孫茂松擔(dān)任主任，穗志方和楊爾弘擔(dān)任副主任。

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

目前，委員會(huì)單位已經(jīng)吸納了國(guó)內(nèi)在自然語(yǔ)言處理方面10余家優(yōu)勢(shì)單位，接近20個(gè)相關(guān)優(yōu)勢(shì)研究組，去針對(duì)智源指數(shù)不斷進(jìn)行改進(jìn)，力求更加科學(xué)、規(guī)范、高質(zhì)量地推進(jìn)中文自然語(yǔ)言處理技術(shù)的標(biāo)準(zhǔn)評(píng)測(cè)。

智源研究院表示，未來(lái)將通過(guò)持續(xù)的機(jī)制創(chuàng)新和服務(wù)保障，以“功成不必在我”的理念，建立起更有效的系統(tǒng)化研究環(huán)境，促進(jìn)智源學(xué)者們不斷成就新發(fā)明、新突破，共同創(chuàng)造經(jīng)得起時(shí)間檢驗(yàn)的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡

中文語(yǔ)言能力評(píng)測(cè)基準(zhǔn)「智源指數(shù)」問(wèn)世：覆蓋17種主流任務(wù)，19個(gè)代表性數(shù)據(jù)集，更全面、更均衡