丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

本文作者: 我在思考中 2022-01-04 11:12
導(dǎo)語:「智源指數(shù)」不僅要測計(jì)算機(jī)的語言能力,更重要的是能夠指出計(jì)算機(jī)的語言能力的發(fā)展方向。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

人工智能大模型時(shí)代,評測基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。從扁平到全面系統(tǒng),從簡化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評測設(shè)計(jì)一張全面評估綜合能力的新考卷。

作者丨琰琰

編輯丨青暮

人工智能領(lǐng)域有兩大權(quán)威基準(zhǔn),一是在CV圈引爆深度學(xué)習(xí)的ImageNet,二是見證BERT掀起預(yù)訓(xùn)練風(fēng)潮的GLUE。

作為自然語言理解的通用評估標(biāo)準(zhǔn),GLUE在一定程度上能夠反映NLP 模型性能的高低。2018年,BERT在GLUE基準(zhǔn)刷新了11項(xiàng)任務(wù)指標(biāo)。自那之后,預(yù)訓(xùn)練+微調(diào)的2-Stage模式在NLP領(lǐng)域蔚然成風(fēng),GLUE也因此一炮而紅,成為公認(rèn)最具權(quán)威性的機(jī)器語言能力評估基準(zhǔn)之一。

GLUE評估體系由紐約大學(xué)、華盛頓大學(xué)、DeepMind等機(jī)構(gòu)聯(lián)合推出。2019年,GLUE在預(yù)訓(xùn)練模型評估方面日漸乏力,隨后SuperGLUE應(yīng)運(yùn)而生,并憑借多樣化任務(wù),全方位的考察能力受到產(chǎn)學(xué)界的廣泛追捧。

無獨(dú)有偶,隨著超大規(guī)模預(yù)訓(xùn)練語言模型的興起,也對SuperGLUE的評估能力提出更高要求,尤其是面對悟道、源1.0等滾滾而來的中文大模型。

12月30日,北京智源研究院在位于「宇宙中心」的智源大廈舉辦了首場 BAAI—NLP Open Day 活動(dòng)。會(huì)上,中國工程院院士、清華大學(xué)教授、中國人工智能學(xué)會(huì)理事長戴瓊海,北京語言大學(xué)教授、國家語言文字工作委員會(huì)原副主任李宇明,清華大學(xué)教授、智源研究院自然語言處理重大研究方向首席科學(xué)家孫茂松,智源研究院副院長曹崗?fù)瑖鴥?nèi)NLP科學(xué)家和青年學(xué)者一起,重磅發(fā)布了機(jī)器中文語言能力評測基準(zhǔn)——智源指數(shù)CUGE。

CUGE,取自Chinese LanguageUnderstanding and Generation Evaluation的首字母縮寫,代表著兼顧自然語言理解(NLU)與自然語言生成(NLG)兩大任務(wù)體系的中文語言能力評測標(biāo)準(zhǔn)。它涵蓋7種重要語言能力、17個(gè)主流任務(wù)、19個(gè)代表性數(shù)據(jù)集。

孫茂松教授表示,我們希望站在已有相關(guān)工作的基礎(chǔ)上,構(gòu)建出更全面均衡的機(jī)器語言評測體系,在學(xué)術(shù)上指引中文大規(guī)模預(yù)訓(xùn)練模型的發(fā)展方向,同時(shí),也希望通過不斷提高評測體系的科學(xué)性和權(quán)威性,更好地幫助研究者把更多精力放在模型本身的改進(jìn)上,提升對模型發(fā)展的指導(dǎo)性。


1

為什么要做「智源指數(shù)」?

如戴瓊海院士所言,如果說NLP是人工智能皇冠上的一顆明珠,建立科學(xué)的評價(jià)標(biāo)準(zhǔn)就需要尋找這顆明珠的指北針,如果方向錯(cuò)了,走的越遠(yuǎn)偏離越多,而且很有可能找不到。

所以,在NLP技術(shù)極速發(fā)展的過程中,其評價(jià)體系也需要亦步亦趨。

縱觀NLP發(fā)展歷程,預(yù)訓(xùn)練語言模型無疑是一個(gè)里程碑式的突破點(diǎn)。孫茂松教授表示,“自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型+任務(wù)相關(guān)的精微調(diào)整”的適配方案初步掌握了通用語言能力的密碼,是未來NLP領(lǐng)域最具前景的新范式。而面對試圖掌握通用語言能力的預(yù)訓(xùn)練模型,以英文為代表的GLUE,對中文并不能夠作出全面、科學(xué)的有效評測。這也是智源學(xué)者合力研發(fā)「智源指數(shù)」的一個(gè)重要原因。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

預(yù)訓(xùn)練語言模型,其最大的價(jià)值是把深度學(xué)習(xí)推向了互聯(lián)網(wǎng)上近乎無窮無盡的大規(guī)模數(shù)據(jù)——互聯(lián)網(wǎng)上任何一個(gè)任何類型的文本,不需要人工標(biāo)注就可以直接學(xué)習(xí),而在此之前,深度學(xué)習(xí)訓(xùn)練僅限于特定任務(wù)的有標(biāo)注數(shù)據(jù)。有了充足的底層“燃料”,預(yù)訓(xùn)練模型的規(guī)模也隨之急劇膨脹,如今超大規(guī)模智能語言模型參數(shù)量達(dá)到了萬億級。

計(jì)算機(jī)如何評判機(jī)器的語言能力,需要科學(xué)有效的評價(jià)體系。NLP模型的評價(jià)標(biāo)準(zhǔn)最早可以追溯到圖靈測試,后來逐漸演進(jìn)到更為具體的基準(zhǔn)任務(wù)和數(shù)據(jù)集。進(jìn)入預(yù)訓(xùn)練時(shí)代后,GLUE/SuperGLUE一直被視為NLP評測方面的事實(shí)性標(biāo)準(zhǔn),并在預(yù)訓(xùn)練發(fā)展歷程中發(fā)揮了重要的指引作用。

然而,隨著預(yù)訓(xùn)練模型逐漸向超大規(guī)模演進(jìn),GLUE仍停留在自然語言理解層面,不支持語言生成、多語言、數(shù)學(xué)推理等其他重要語言能力。

上個(gè)月,Google 在自然語言處理頂級會(huì)議NeurIPS 2021 投稿了一篇名為AI and the Everythingin the Whole Wide World Benchmark的文章,揭示了GLUE/SuperGLU等“通用”評估基準(zhǔn)的若干局限性,包括任務(wù)設(shè)計(jì)過于武斷、數(shù)據(jù)集/任務(wù)集組合太隨意,數(shù)據(jù)范圍受限等等。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

論文地址:https://arxiv.org/abs/2111.15366

文章指出,數(shù)據(jù)基準(zhǔn)測試本就是封閉的、主觀的且基于有限數(shù)據(jù)構(gòu)造的。但由于大家長期接受并強(qiáng)調(diào)用于“通用”能力評測的設(shè)定,“通用”反倒成為了掩護(hù),開發(fā)基準(zhǔn)的人以此為借口,逃避報(bào)告基準(zhǔn)數(shù)據(jù)細(xì)節(jié)(如數(shù)據(jù)源、可能存在的偏向性)的責(zé)任。

與此同時(shí),正因?yàn)榛鶞?zhǔn)對“通用”能力的評估被夸大,直接導(dǎo)致研究者們不假思索地去追求算法在基準(zhǔn)評估中的性能指標(biāo)。盲目“刷榜”而來的算法,忽略了指標(biāo)與真實(shí)世界的匹配,也無法解決相關(guān)的現(xiàn)實(shí)問題。

針對這篇質(zhì)疑 Benchmark 公平性的文章,劉知遠(yuǎn)教授表示,谷歌并沒有否認(rèn)Benchmark在模型發(fā)展中的價(jià)值,而是說,如今這些Benchmark與原本的指引作用出現(xiàn)了一些偏差,而這也是為什么智源指數(shù)強(qiáng)調(diào)未來需要持續(xù)改進(jìn)的原因。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

對于傳統(tǒng)主流榜單基于機(jī)器在有限采樣上的強(qiáng)表達(dá)能力,給予“遠(yuǎn)超人類水平”的成績,劉知遠(yuǎn)表示:“ 傳統(tǒng)主流榜單為行業(yè)發(fā)展做出了巨大貢獻(xiàn),我們期待在巨人的肩膀上繼續(xù)進(jìn)步。如果Benchmark包含的數(shù)據(jù)集,長期一成不變,指引的作用必然會(huì)越來越小,因?yàn)槿魏问挛锇l(fā)展到最后都會(huì)形成內(nèi)卷。就像高考,分?jǐn)?shù)很重要,但能力的持續(xù)提升才是我們進(jìn)行所有指標(biāo)衡量的最終目的?!?/span>

在劉知遠(yuǎn)教授看來,模型與基準(zhǔn)的發(fā)展是辯證統(tǒng)一的過程,我們不能站在某個(gè)結(jié)點(diǎn),否定其過去的效用。人工智能的自然語言處理評測,本身是一個(gè)科學(xué)開放的事情,只要我們持續(xù)思考和探索,一定會(huì)做的越來越好。未來,智源指數(shù)每年會(huì)更新數(shù)據(jù)集,并以智源作為平臺(tái)發(fā)布機(jī)器語言能力發(fā)展報(bào)告,向?qū)W術(shù)共同體傳達(dá)未來需要一起改進(jìn)和努力的方向。

同時(shí),國內(nèi)大模型研究產(chǎn)業(yè)如火如荼,但目前用于中文語言能力評測的基準(zhǔn)卻少之又少,劉知遠(yuǎn)教授認(rèn)表示,他們希望智源指數(shù),通過更科學(xué)有效地的評測體系幫助產(chǎn)學(xué)界更好地指引中文預(yù)訓(xùn)練模型的發(fā)展方向。同時(shí),為國內(nèi)NLP發(fā)展構(gòu)建公正客觀的基準(zhǔn)生態(tài),促進(jìn)整個(gè)行業(yè)和領(lǐng)域的進(jìn)步。


2

「全面均衡」的語言評測基準(zhǔn)

為了使中文機(jī)器語言能力評測體系更全面、更系統(tǒng),智源指數(shù)包含高質(zhì)量中文自然語言處理(NLP)數(shù)據(jù)集、排行榜與在線評測平臺(tái),創(chuàng)造性的設(shè)計(jì)了多層次維度的評測方案。

報(bào)告地址:arxiv.org/pdf/2112.13610.pdf

網(wǎng)站地址:cuge.baai.ac.cn

針對傳統(tǒng)側(cè)重語言理解能力,評測框架體系扁平化,缺乏系統(tǒng)性多樣性,以及過于專注平均數(shù)據(jù)集性能,覆蓋的語言能力、任務(wù)和數(shù)據(jù)集偏少等普遍特點(diǎn)。

智源指數(shù)定位「中文語言」,覆蓋自然語言理解和生成兩大任務(wù)體系,按照「能力- 任務(wù)- 數(shù)據(jù)集」的層次結(jié)構(gòu)篩選和組織高質(zhì)量數(shù)據(jù)集,為機(jī)器語言能力提供更加全面系統(tǒng)和多層多維的評測標(biāo)準(zhǔn)。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

在評分策略上,傳統(tǒng)評測基準(zhǔn)通常直接將不同數(shù)據(jù)集上的得分平均得到總體得分,評測維度較為單一。而智源指數(shù)基于層次結(jié)構(gòu),提供了模型在數(shù)據(jù)集、任務(wù)、能力、總體不同層次維度的得分,并通過語言能力雷達(dá)圖,直觀地展示模型語言能力。

一般而言,將不同數(shù)據(jù)集上的不同指標(biāo)直接平均,會(huì)受到不同數(shù)據(jù)集和指標(biāo)不同特性的影響,最終得分也容易被少數(shù)得分變化幅度較大的數(shù)據(jù)集和指標(biāo)主導(dǎo),難以有效地全面衡量模型的語言能力進(jìn)展。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

智源指數(shù)采用歸一化方法計(jì)算得分,參考標(biāo)準(zhǔn)基線模型(mT5-small)的得分,計(jì)算參評模型的相對得分,最大程度消除不同數(shù)據(jù)集和指標(biāo)特性影響。目前智源發(fā)布的大規(guī)模預(yù)訓(xùn)練模型CPM-2,以及mT5-small/large/XXL的評測結(jié)果已經(jīng)在智源指數(shù)榜單上公布。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

以上可以看出,預(yù)訓(xùn)練模型在不同的語言能力表現(xiàn)的差異較大,通用的語言智能仍然有非常大的提升空間。

我們知道,基準(zhǔn)任務(wù)和數(shù)據(jù)集支持著自然語言處理能力的開發(fā)和評估,是NLP工具的驅(qū)動(dòng)力。智源指數(shù)覆蓋了7 種重要語言能力,17 個(gè)主流自然語言處理任務(wù),19個(gè)高質(zhì)量數(shù)據(jù)集,分別為:

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

  • 語言理解-詞句級:中文分詞、中文分詞和詞性標(biāo)注、古詩文識(shí)記、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽??;

  • 語言理解-篇章級:幽默檢測、故事情節(jié)完形填空、閱讀理解;

  • 信息獲取及問答:反向詞典、開放域問答、文檔檢索;

  • 語言生成:摘要生成、數(shù)據(jù)到文本生成;

  • 對話交互:知識(shí)驅(qū)動(dòng)的對話生成;

  • 多語言:機(jī)器翻譯、跨語言摘要;

  • 數(shù)學(xué)推理:數(shù)值計(jì)算。

為了讓研究人員方便快捷參與評測,智源指數(shù)為每個(gè)語言能力選擇代表性任務(wù)和數(shù)據(jù)集,組成精簡榜。相當(dāng)于在7種語言能力下,為每個(gè)語言能力提供一個(gè)數(shù)據(jù)集。包括:

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

 「智源指數(shù)」的一個(gè)重要的核心點(diǎn)是如何構(gòu)建高質(zhì)量、大跨度的標(biāo)注語言資源庫。在發(fā)布會(huì)現(xiàn)場,山西大學(xué)譚紅葉教授和北京語言大學(xué)楊爾弘教授介紹了兩個(gè)特色大規(guī)模數(shù)據(jù)集的標(biāo)注規(guī)則和數(shù)據(jù)質(zhì)量。

其中,面向可解釋評測的高考于都理解數(shù)據(jù)集GCRC,匯集近10年高考閱讀理解測試題包含5000多篇文本、8700多道選擇題(約1.5萬個(gè)選項(xiàng))。標(biāo)注信息涉及信息句子級支持事實(shí)、干擾項(xiàng)(不正確選項(xiàng))錯(cuò)誤原因、回答問題所需推理能力為三類,可從中間推理、模型能力兩方面進(jìn)行可解釋評價(jià)。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

二是面向漢語學(xué)習(xí)者文本多維標(biāo)注數(shù)據(jù)集YACLC。該數(shù)據(jù)集由北京語言大學(xué)、清華大學(xué)、北京師范大學(xué)、云南師范大學(xué)、東北大學(xué)、上海財(cái)經(jīng)大學(xué)等機(jī)構(gòu)聯(lián)合構(gòu)建,其訓(xùn)練集規(guī)模高達(dá)8000條,每條數(shù)據(jù)包括原始句子及其多種糾偏標(biāo)注與流利標(biāo)注。驗(yàn)證集和測試集規(guī)模都為1000條,每條數(shù)據(jù)包括原始句子及其全部糾偏標(biāo)注與流利標(biāo)注。 

基于單數(shù)據(jù)集的榜單能力,未來智源指數(shù)還將定期吸納最新優(yōu)秀數(shù)據(jù)集。劉知遠(yuǎn)表示說,他們還將結(jié)合現(xiàn)有的行業(yè)力量,建立用戶面向數(shù)據(jù)集和評測結(jié)果的反饋、討論機(jī)制,構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動(dòng)中文自然語言處理的發(fā)展。


3

中文大模型的「風(fēng)向標(biāo)」

整個(gè)人工智能發(fā)展過程中,高質(zhì)量數(shù)據(jù)集,科學(xué)地評測體系都發(fā)揮了重要的作用。當(dāng)時(shí)深度學(xué)習(xí)在CV領(lǐng)域的崛起,是因?yàn)锳lexNet模型在ImageNet數(shù)據(jù)集上刷新SOTA,引發(fā)了整個(gè)學(xué)術(shù)界,產(chǎn)業(yè)界對深度學(xué)習(xí)的關(guān)注。

類似地,中文自然語言處理要想取得重大突破,至少要知道如何“量化”突破,所以科學(xué)標(biāo)準(zhǔn)很重要。此外,一個(gè)好的「智源指數(shù)」不僅要測計(jì)算機(jī)的語言能力,更重要的是能夠指出計(jì)算機(jī)的語言能力的發(fā)展方向。

劉知遠(yuǎn)表示,“期待CUGE的指引可以幫助更多中文大模型,尋找到新的突破方向。對于智源指數(shù)的發(fā)展,我們需要做好頂層設(shè)計(jì),放式地吸引更多的優(yōu)秀學(xué)者和機(jī)構(gòu),不斷構(gòu)建、發(fā)布、吸納更多高質(zhì)量的中文數(shù)據(jù)集,才有望建立權(quán)威的評測標(biāo)準(zhǔn)。”

為了更好地去支持智源指數(shù)的發(fā)展,智源研究院搭建了「智源指數(shù)工作委員會(huì)」,由孫茂松擔(dān)任主任,穗志方和楊爾弘擔(dān)任副主任。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

目前,委員會(huì)單位已經(jīng)吸納了國內(nèi)在自然語言處理方面10余家優(yōu)勢單位,接近20個(gè)相關(guān)優(yōu)勢研究組,去針對智源指數(shù)不斷進(jìn)行改進(jìn),力求更加科學(xué)、規(guī)范、高質(zhì)量地推進(jìn)中文自然語言處理技術(shù)的標(biāo)準(zhǔn)評測。

智源研究院表示,未來將通過持續(xù)的機(jī)制創(chuàng)新和服務(wù)保障,以“功成不必在我”的理念,建立起更有效的系統(tǒng)化研究環(huán)境,促進(jìn)智源學(xué)者們不斷成就新發(fā)明、新突破,共同創(chuàng)造經(jīng)得起時(shí)間檢驗(yàn)的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中文語言能力評測基準(zhǔn)「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個(gè)代表性數(shù)據(jù)集,更全面、更均衡

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說