丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

本文作者: 我在思考中 2022-01-04 11:12
導(dǎo)語:「智源指數(shù)」不僅要測計算機的語言能力,更重要的是能夠指出計算機的語言能力的發(fā)展方向。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

人工智能大模型時代,評測基準成為大模型發(fā)展的風(fēng)向標。從扁平到全面系統(tǒng),從簡化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評測設(shè)計一張全面評估綜合能力的新考卷。

作者丨琰琰

編輯丨青暮

人工智能領(lǐng)域有兩大權(quán)威基準,一是在CV圈引爆深度學(xué)習(xí)的ImageNet,二是見證BERT掀起預(yù)訓(xùn)練風(fēng)潮的GLUE。

作為自然語言理解的通用評估標準,GLUE在一定程度上能夠反映NLP 模型性能的高低。2018年,BERT在GLUE基準刷新了11項任務(wù)指標。自那之后,預(yù)訓(xùn)練+微調(diào)的2-Stage模式在NLP領(lǐng)域蔚然成風(fēng),GLUE也因此一炮而紅,成為公認最具權(quán)威性的機器語言能力評估基準之一。

GLUE評估體系由紐約大學(xué)、華盛頓大學(xué)、DeepMind等機構(gòu)聯(lián)合推出。2019年,GLUE在預(yù)訓(xùn)練模型評估方面日漸乏力,隨后SuperGLUE應(yīng)運而生,并憑借多樣化任務(wù),全方位的考察能力受到產(chǎn)學(xué)界的廣泛追捧。

無獨有偶,隨著超大規(guī)模預(yù)訓(xùn)練語言模型的興起,也對SuperGLUE的評估能力提出更高要求,尤其是面對悟道、源1.0等滾滾而來的中文大模型。

12月30日,北京智源研究院在位于「宇宙中心」的智源大廈舉辦了首場 BAAI—NLP Open Day 活動。會上,中國工程院院士、清華大學(xué)教授、中國人工智能學(xué)會理事長戴瓊海,北京語言大學(xué)教授、國家語言文字工作委員會原副主任李宇明,清華大學(xué)教授、智源研究院自然語言處理重大研究方向首席科學(xué)家孫茂松,智源研究院副院長曹崗?fù)瑖鴥?nèi)NLP科學(xué)家和青年學(xué)者一起,重磅發(fā)布了機器中文語言能力評測基準——智源指數(shù)CUGE。

CUGE,取自Chinese LanguageUnderstanding and Generation Evaluation的首字母縮寫,代表著兼顧自然語言理解(NLU)與自然語言生成(NLG)兩大任務(wù)體系的中文語言能力評測標準。它涵蓋7種重要語言能力、17個主流任務(wù)、19個代表性數(shù)據(jù)集。

孫茂松教授表示,我們希望站在已有相關(guān)工作的基礎(chǔ)上,構(gòu)建出更全面均衡的機器語言評測體系,在學(xué)術(shù)上指引中文大規(guī)模預(yù)訓(xùn)練模型的發(fā)展方向,同時,也希望通過不斷提高評測體系的科學(xué)性和權(quán)威性,更好地幫助研究者把更多精力放在模型本身的改進上,提升對模型發(fā)展的指導(dǎo)性。


1

為什么要做「智源指數(shù)」?

如戴瓊海院士所言,如果說NLP是人工智能皇冠上的一顆明珠,建立科學(xué)的評價標準就需要尋找這顆明珠的指北針,如果方向錯了,走的越遠偏離越多,而且很有可能找不到。

所以,在NLP技術(shù)極速發(fā)展的過程中,其評價體系也需要亦步亦趨。

縱觀NLP發(fā)展歷程,預(yù)訓(xùn)練語言模型無疑是一個里程碑式的突破點。孫茂松教授表示,“自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型+任務(wù)相關(guān)的精微調(diào)整”的適配方案初步掌握了通用語言能力的密碼,是未來NLP領(lǐng)域最具前景的新范式。而面對試圖掌握通用語言能力的預(yù)訓(xùn)練模型,以英文為代表的GLUE,對中文并不能夠作出全面、科學(xué)的有效評測。這也是智源學(xué)者合力研發(fā)「智源指數(shù)」的一個重要原因。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

預(yù)訓(xùn)練語言模型,其最大的價值是把深度學(xué)習(xí)推向了互聯(lián)網(wǎng)上近乎無窮無盡的大規(guī)模數(shù)據(jù)——互聯(lián)網(wǎng)上任何一個任何類型的文本,不需要人工標注就可以直接學(xué)習(xí),而在此之前,深度學(xué)習(xí)訓(xùn)練僅限于特定任務(wù)的有標注數(shù)據(jù)。有了充足的底層“燃料”,預(yù)訓(xùn)練模型的規(guī)模也隨之急劇膨脹,如今超大規(guī)模智能語言模型參數(shù)量達到了萬億級。

計算機如何評判機器的語言能力,需要科學(xué)有效的評價體系。NLP模型的評價標準最早可以追溯到圖靈測試,后來逐漸演進到更為具體的基準任務(wù)和數(shù)據(jù)集。進入預(yù)訓(xùn)練時代后,GLUE/SuperGLUE一直被視為NLP評測方面的事實性標準,并在預(yù)訓(xùn)練發(fā)展歷程中發(fā)揮了重要的指引作用。

然而,隨著預(yù)訓(xùn)練模型逐漸向超大規(guī)模演進,GLUE仍停留在自然語言理解層面,不支持語言生成、多語言、數(shù)學(xué)推理等其他重要語言能力。

上個月,Google 在自然語言處理頂級會議NeurIPS 2021 投稿了一篇名為AI and the Everythingin the Whole Wide World Benchmark的文章,揭示了GLUE/SuperGLU等“通用”評估基準的若干局限性,包括任務(wù)設(shè)計過于武斷、數(shù)據(jù)集/任務(wù)集組合太隨意,數(shù)據(jù)范圍受限等等。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

論文地址:https://arxiv.org/abs/2111.15366

文章指出,數(shù)據(jù)基準測試本就是封閉的、主觀的且基于有限數(shù)據(jù)構(gòu)造的。但由于大家長期接受并強調(diào)用于“通用”能力評測的設(shè)定,“通用”反倒成為了掩護,開發(fā)基準的人以此為借口,逃避報告基準數(shù)據(jù)細節(jié)(如數(shù)據(jù)源、可能存在的偏向性)的責(zé)任。

與此同時,正因為基準對“通用”能力的評估被夸大,直接導(dǎo)致研究者們不假思索地去追求算法在基準評估中的性能指標。盲目“刷榜”而來的算法,忽略了指標與真實世界的匹配,也無法解決相關(guān)的現(xiàn)實問題。

針對這篇質(zhì)疑 Benchmark 公平性的文章,劉知遠教授表示,谷歌并沒有否認Benchmark在模型發(fā)展中的價值,而是說,如今這些Benchmark與原本的指引作用出現(xiàn)了一些偏差,而這也是為什么智源指數(shù)強調(diào)未來需要持續(xù)改進的原因。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

對于傳統(tǒng)主流榜單基于機器在有限采樣上的強表達能力,給予“遠超人類水平”的成績,劉知遠表示:“ 傳統(tǒng)主流榜單為行業(yè)發(fā)展做出了巨大貢獻,我們期待在巨人的肩膀上繼續(xù)進步。如果Benchmark包含的數(shù)據(jù)集,長期一成不變,指引的作用必然會越來越小,因為任何事物發(fā)展到最后都會形成內(nèi)卷。就像高考,分數(shù)很重要,但能力的持續(xù)提升才是我們進行所有指標衡量的最終目的?!?/span>

在劉知遠教授看來,模型與基準的發(fā)展是辯證統(tǒng)一的過程,我們不能站在某個結(jié)點,否定其過去的效用。人工智能的自然語言處理評測,本身是一個科學(xué)開放的事情,只要我們持續(xù)思考和探索,一定會做的越來越好。未來,智源指數(shù)每年會更新數(shù)據(jù)集,并以智源作為平臺發(fā)布機器語言能力發(fā)展報告,向?qū)W術(shù)共同體傳達未來需要一起改進和努力的方向。

同時,國內(nèi)大模型研究產(chǎn)業(yè)如火如荼,但目前用于中文語言能力評測的基準卻少之又少,劉知遠教授認表示,他們希望智源指數(shù),通過更科學(xué)有效地的評測體系幫助產(chǎn)學(xué)界更好地指引中文預(yù)訓(xùn)練模型的發(fā)展方向。同時,為國內(nèi)NLP發(fā)展構(gòu)建公正客觀的基準生態(tài),促進整個行業(yè)和領(lǐng)域的進步。


2

「全面均衡」的語言評測基準

為了使中文機器語言能力評測體系更全面、更系統(tǒng),智源指數(shù)包含高質(zhì)量中文自然語言處理(NLP)數(shù)據(jù)集、排行榜與在線評測平臺,創(chuàng)造性的設(shè)計了多層次維度的評測方案。

報告地址:arxiv.org/pdf/2112.13610.pdf

網(wǎng)站地址:cuge.baai.ac.cn

針對傳統(tǒng)側(cè)重語言理解能力,評測框架體系扁平化,缺乏系統(tǒng)性多樣性,以及過于專注平均數(shù)據(jù)集性能,覆蓋的語言能力、任務(wù)和數(shù)據(jù)集偏少等普遍特點。

智源指數(shù)定位「中文語言」,覆蓋自然語言理解和生成兩大任務(wù)體系,按照「能力- 任務(wù)- 數(shù)據(jù)集」的層次結(jié)構(gòu)篩選和組織高質(zhì)量數(shù)據(jù)集,為機器語言能力提供更加全面系統(tǒng)和多層多維的評測標準。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

在評分策略上,傳統(tǒng)評測基準通常直接將不同數(shù)據(jù)集上的得分平均得到總體得分,評測維度較為單一。而智源指數(shù)基于層次結(jié)構(gòu),提供了模型在數(shù)據(jù)集、任務(wù)、能力、總體不同層次維度的得分,并通過語言能力雷達圖,直觀地展示模型語言能力。

一般而言,將不同數(shù)據(jù)集上的不同指標直接平均,會受到不同數(shù)據(jù)集和指標不同特性的影響,最終得分也容易被少數(shù)得分變化幅度較大的數(shù)據(jù)集和指標主導(dǎo),難以有效地全面衡量模型的語言能力進展。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

智源指數(shù)采用歸一化方法計算得分,參考標準基線模型(mT5-small)的得分,計算參評模型的相對得分,最大程度消除不同數(shù)據(jù)集和指標特性影響。目前智源發(fā)布的大規(guī)模預(yù)訓(xùn)練模型CPM-2,以及mT5-small/large/XXL的評測結(jié)果已經(jīng)在智源指數(shù)榜單上公布。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

以上可以看出,預(yù)訓(xùn)練模型在不同的語言能力表現(xiàn)的差異較大,通用的語言智能仍然有非常大的提升空間。

我們知道,基準任務(wù)和數(shù)據(jù)集支持著自然語言處理能力的開發(fā)和評估,是NLP工具的驅(qū)動力。智源指數(shù)覆蓋了7 種重要語言能力,17 個主流自然語言處理任務(wù),19個高質(zhì)量數(shù)據(jù)集,分別為:

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

  • 語言理解-詞句級:中文分詞、中文分詞和詞性標注、古詩文識記、命名實體識別、實體關(guān)系抽??;

  • 語言理解-篇章級:幽默檢測、故事情節(jié)完形填空、閱讀理解;

  • 信息獲取及問答:反向詞典、開放域問答、文檔檢索;

  • 語言生成:摘要生成、數(shù)據(jù)到文本生成;

  • 對話交互:知識驅(qū)動的對話生成;

  • 多語言:機器翻譯、跨語言摘要;

  • 數(shù)學(xué)推理:數(shù)值計算。

為了讓研究人員方便快捷參與評測,智源指數(shù)為每個語言能力選擇代表性任務(wù)和數(shù)據(jù)集,組成精簡榜。相當(dāng)于在7種語言能力下,為每個語言能力提供一個數(shù)據(jù)集。包括:

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

 「智源指數(shù)」的一個重要的核心點是如何構(gòu)建高質(zhì)量、大跨度的標注語言資源庫。在發(fā)布會現(xiàn)場,山西大學(xué)譚紅葉教授和北京語言大學(xué)楊爾弘教授介紹了兩個特色大規(guī)模數(shù)據(jù)集的標注規(guī)則和數(shù)據(jù)質(zhì)量。

其中,面向可解釋評測的高考于都理解數(shù)據(jù)集GCRC,匯集近10年高考閱讀理解測試題包含5000多篇文本、8700多道選擇題(約1.5萬個選項)。標注信息涉及信息句子級支持事實、干擾項(不正確選項)錯誤原因、回答問題所需推理能力為三類,可從中間推理、模型能力兩方面進行可解釋評價。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

二是面向漢語學(xué)習(xí)者文本多維標注數(shù)據(jù)集YACLC。該數(shù)據(jù)集由北京語言大學(xué)、清華大學(xué)、北京師范大學(xué)、云南師范大學(xué)、東北大學(xué)、上海財經(jīng)大學(xué)等機構(gòu)聯(lián)合構(gòu)建,其訓(xùn)練集規(guī)模高達8000條,每條數(shù)據(jù)包括原始句子及其多種糾偏標注與流利標注。驗證集和測試集規(guī)模都為1000條,每條數(shù)據(jù)包括原始句子及其全部糾偏標注與流利標注。 

基于單數(shù)據(jù)集的榜單能力,未來智源指數(shù)還將定期吸納最新優(yōu)秀數(shù)據(jù)集。劉知遠表示說,他們還將結(jié)合現(xiàn)有的行業(yè)力量,建立用戶面向數(shù)據(jù)集和評測結(jié)果的反饋、討論機制,構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū),推動中文自然語言處理的發(fā)展。


3

中文大模型的「風(fēng)向標」

整個人工智能發(fā)展過程中,高質(zhì)量數(shù)據(jù)集,科學(xué)地評測體系都發(fā)揮了重要的作用。當(dāng)時深度學(xué)習(xí)在CV領(lǐng)域的崛起,是因為AlexNet模型在ImageNet數(shù)據(jù)集上刷新SOTA,引發(fā)了整個學(xué)術(shù)界,產(chǎn)業(yè)界對深度學(xué)習(xí)的關(guān)注。

類似地,中文自然語言處理要想取得重大突破,至少要知道如何“量化”突破,所以科學(xué)標準很重要。此外,一個好的「智源指數(shù)」不僅要測計算機的語言能力,更重要的是能夠指出計算機的語言能力的發(fā)展方向。

劉知遠表示,“期待CUGE的指引可以幫助更多中文大模型,尋找到新的突破方向。對于智源指數(shù)的發(fā)展,我們需要做好頂層設(shè)計,放式地吸引更多的優(yōu)秀學(xué)者和機構(gòu),不斷構(gòu)建、發(fā)布、吸納更多高質(zhì)量的中文數(shù)據(jù)集,才有望建立權(quán)威的評測標準。”

為了更好地去支持智源指數(shù)的發(fā)展,智源研究院搭建了「智源指數(shù)工作委員會」,由孫茂松擔(dān)任主任,穗志方和楊爾弘擔(dān)任副主任。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

目前,委員會單位已經(jīng)吸納了國內(nèi)在自然語言處理方面10余家優(yōu)勢單位,接近20個相關(guān)優(yōu)勢研究組,去針對智源指數(shù)不斷進行改進,力求更加科學(xué)、規(guī)范、高質(zhì)量地推進中文自然語言處理技術(shù)的標準評測。

智源研究院表示,未來將通過持續(xù)的機制創(chuàng)新和服務(wù)保障,以“功成不必在我”的理念,建立起更有效的系統(tǒng)化研究環(huán)境,促進智源學(xué)者們不斷成就新發(fā)明、新突破,共同創(chuàng)造經(jīng)得起時間檢驗的人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)“代表作”。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中文語言能力評測基準「智源指數(shù)」問世:覆蓋17種主流任務(wù),19個代表性數(shù)據(jù)集,更全面、更均衡

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說