巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

本文作者：貝爽

2021-10-01 17:12

導(dǎo)語：源1.0是業(yè)界首個(gè)挑戰(zhàn)“圖靈測試”并且使平均誤判率超過50%的巨量模型.

戰(zhàn)鼓催征千嶂寒，陰陽交會(huì)九皋盤。
飛軍萬里浮云外，鐵騎叢中明月邊。

看到這首詩歌，有超過50%的人誤以為是人類的杰作

但其實(shí)，它出自巨量模型源1.0

經(jīng)過圖靈測試認(rèn)證，源1.0 寫詩歌、寫對聯(lián)、生成新聞、續(xù)寫小說的能力已經(jīng)讓人類的平均誤判率達(dá)到了50.84%。（超過30%即具備人類智能）

9月28日，浪潮人工智能研究院正式發(fā)布全球最大中文預(yù)訓(xùn)練語言模型“源1.0”。歷時(shí)四個(gè)月研發(fā)，源1.0參數(shù)量已達(dá)2457億，約GPT-3的1.4倍。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

中國工程院院士、浪潮首席科學(xué)家王恩東表示，源1.0巨量模型旨在打造更“博學(xué)”的AI能力，未來將聚合AI最強(qiáng)算力平臺(tái)、最優(yōu)質(zhì)的算法開發(fā)能力，支撐和加速行業(yè)智能轉(zhuǎn)型升級(jí)，以更具備通用性的智能大模型成就行業(yè)AI大腦。

“源1.0”定位中文語言模型，由5000GB中文數(shù)據(jù)集訓(xùn)練而成。在國內(nèi)，以中文語言理解為核心的大模型不在少數(shù)，參數(shù)規(guī)模均在億級(jí)以上，如悟道· 文源 26 億，阿里PLUG 270 億；華為&循環(huán)智能「盤古」1100億。相比之下，2457億的源1.0 可以說是單體模型中絕對的王者。

更值得關(guān)注的是，源1.0是業(yè)界首個(gè)挑戰(zhàn)“圖靈測試”并且使平均誤判率超過50%的巨量模型。圖靈測試是判斷機(jī)器是否具有智能的最經(jīng)典的方法。通常認(rèn)為，進(jìn)行多次測試后，如果人工智能讓平均每個(gè)參與者做出超過30%的誤判，那么這臺(tái)機(jī)器就通過了測試，并被認(rèn)為具有人類智能。源1.0逼近通過圖靈測試，再次證明了大模型實(shí)現(xiàn)認(rèn)知智能的潛力。

為何加入這股“浪潮”？

近幾年，巨量模型在人工智能領(lǐng)域大行其道，BERT、GPT-3、Switch Transformer、悟道2.0相繼問世，出道即巔峰，在產(chǎn)學(xué)各界掀起一陣陣巨浪。如今“巨量模型”一詞已經(jīng)成功破圈，成為全民熱詞。那么，人工智能遭遇了哪些瓶頸，巨量模型又帶來了哪些可能性？

在會(huì)后采訪中，浪潮信息副總裁、AI&HPC產(chǎn)品線總經(jīng)理劉軍表示，人工智能模型目前存在諸多挑戰(zhàn)，當(dāng)前最首要的問題是模型的通用性不高，即某一個(gè)模型往往專用于特定領(lǐng)域，應(yīng)用于其他領(lǐng)域時(shí)效果不好。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

也就是說，面對眾多行業(yè)、諸多業(yè)務(wù)場景，人工智能需求正呈現(xiàn)出碎片化、多樣化的特點(diǎn)，而現(xiàn)階段的AI模型研發(fā)仍處于手工作坊式，從研發(fā)、調(diào)參、優(yōu)化、迭代到應(yīng)用，研發(fā)成本極高且難以滿足市場定制化需求。而訓(xùn)練超大規(guī)模模型在一定程度上解決通用性問題，它可以被應(yīng)用于翻譯，問答，文本生成等等，涵蓋自然語言理解的所有領(lǐng)域。

具體來說，從手工作坊式走向“工場模式”，大模型提供了一種可行方案：預(yù)訓(xùn)練+下游微調(diào)”，大規(guī)模預(yù)訓(xùn)練可以有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識(shí)，通過將知識(shí)存儲(chǔ)到大量的參數(shù)中并對特定任務(wù)進(jìn)行微調(diào)，極大地?cái)U(kuò)展了模型的泛化能力。同時(shí)大模型的自監(jiān)督學(xué)習(xí)方法，使數(shù)據(jù)無需標(biāo)注成為可能，在一定程度上解決了人工標(biāo)注成本高、周期長、準(zhǔn)確度不高的問題。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

劉軍解釋說，大模型最重要的優(yōu)勢是表明進(jìn)入了大規(guī)模可復(fù)制的產(chǎn)業(yè)落地階段，只需小樣本的學(xué)習(xí)也能達(dá)到比以前更好的能力，且模型參數(shù)規(guī)模越大這種優(yōu)勢越明顯，不需要開發(fā)使用者再進(jìn)行大規(guī)模的訓(xùn)練，使用小樣本就可以訓(xùn)練自己所需模型，能夠大大降低開發(fā)使用成本。

現(xiàn)階段，零樣本學(xué)習(xí)和小樣本學(xué)習(xí)是最能衡量巨量模型智能程度的兩項(xiàng)測試。而源1.0在CLUE基準(zhǔn)上刷新了多項(xiàng)任務(wù)的SOTA。

官方數(shù)據(jù)顯示：源1.0在零樣本榜單中，以超越第二名18.3%的絕對優(yōu)勢遙遙領(lǐng)先。

l 在文獻(xiàn)分類、TNEWS，商品分類、OCNLIF、成語完型填空、名詞代詞關(guān)系6項(xiàng)任務(wù)中獲得冠軍。

l 在小樣本榜單中，文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識(shí)別真假、名詞代詞關(guān)系4項(xiàng)任務(wù)中獲得冠軍。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

https://www.cluebenchmarks.com/zeroclue.html

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

https://www.cluebenchmarks.com/fewclue.html

"面對產(chǎn)業(yè)AI化挑戰(zhàn)，巨量模型在多任務(wù)泛化及小樣本學(xué)習(xí)上突出能力，以及其探索深度學(xué)習(xí)的極限和實(shí)現(xiàn)通用智能的可能性，浪潮前瞻性的做出了開發(fā)巨量模型的重要決策"。劉軍表示，浪潮源1.0大模型只是一個(gè)開始，未來源1.0將面向?qū)W術(shù)研究單位和產(chǎn)業(yè)實(shí)踐用戶進(jìn)行開源、開放、共享，降低巨量模型研究和應(yīng)用的門檻，推進(jìn)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的進(jìn)步，

2457億是如何煉成的？

大模型需要“大數(shù)據(jù)+大算力+強(qiáng)算法”三駕馬車并駕齊驅(qū)，而對于大部分企業(yè)和機(jī)構(gòu)來說，其中任意一項(xiàng)的研發(fā)投入都是沉重的負(fù)擔(dān)，尤其是算力成本。比如1750億參數(shù)的GPT-3單次訓(xùn)練需要 355 張 GPU，花費(fèi)大約 2000 萬美元。所以在煉大模型浪潮中，我們只看到了全球頂級(jí)的科技企業(yè)和科研機(jī)構(gòu)的身影，而浪潮本潮也在其中。

浪潮源1.0 在算力、算法和數(shù)據(jù)三個(gè)方面都做到了超大規(guī)模和巨量化。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

首先是數(shù)據(jù)，浪潮創(chuàng)建了 5000GB 大規(guī)模的中文數(shù)據(jù)集，將近5年互聯(lián)網(wǎng)上的內(nèi)容濃縮成了2000億詞。2000億詞是什么概念？假如人一個(gè)月能讀十本書，一年讀一百本書，讀 50 年，一生也就讀 5000 本數(shù)，一本書假如 20 萬字，加起來也就 10 億字。也就是說，人類窮極一生也讀不完2000億詞。

在大數(shù)據(jù)時(shí)代，比數(shù)據(jù)量更珍貴的數(shù)據(jù)質(zhì)量。作為AI的底層燃料，模型對數(shù)據(jù)集質(zhì)量提出了更高的要求。為此浪潮創(chuàng)新中文數(shù)據(jù)集生成方法，研制高質(zhì)量文本分類模型，收集并清洗互聯(lián)網(wǎng)數(shù)據(jù)過程中，有效過濾了垃圾文本，最終生成5000GB數(shù)據(jù)集可以說具備了夠大、夠真實(shí)、夠豐富的特點(diǎn)。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

在算法層面，源1.0大模型使用了4095PD（PetaFlop/s-day）的計(jì)算量，獲得高達(dá)2457億的參數(shù)量，相對于GPT-3消耗3640PD計(jì)算量得到1750億參數(shù)，計(jì)算效率大幅提升；在算力層面，源1.0通過算法與算力協(xié)同優(yōu)化，使模型更利于GPU性能發(fā)揮，極大的提升了計(jì)算效率，實(shí)現(xiàn)業(yè)界第一訓(xùn)練性能的同時(shí)實(shí)現(xiàn)業(yè)界領(lǐng)先的精度。

談起浪潮很多人還是停留在初級(jí)的印象，這是一家老牌硬件廠商，每年服務(wù)器市場占有率在全球范圍內(nèi)高居榜首。其實(shí)浪潮也一直活躍在AI前沿方向，自2018年成立浪潮人工智能研究院以來，其異構(gòu)加速計(jì)算、深度學(xué)習(xí)框架、AI算法等領(lǐng)域已經(jīng)戰(zhàn)績頗豐。例如，浪潮先后推出了深度學(xué)習(xí)并行計(jì)算框架Caffe-MPI、TensorFlow-Opt、全球首個(gè)FPGA高效AI計(jì)算開源框架TF2等；此外，在全球頂級(jí)的AI賽事上已累計(jì)獲得56個(gè)MLPerf全球AI基準(zhǔn)測試冠軍。有了這些深厚的AI功底，浪潮在四個(gè)月內(nèi)推出全球最大巨量模型不難理解了．

對于源1.0，業(yè)內(nèi)專業(yè)人士評價(jià)稱，其在巨量數(shù)據(jù)、超大規(guī)模分布式訓(xùn)練的擴(kuò)展性、計(jì)算效率、巨量模型算法及精度提升等等難題上都有所創(chuàng)新和提升。

源1.0 更“博學(xué)”了嗎？

圖靈測試一直被認(rèn)為是人工智能學(xué)術(shù)界的”北極星“，也是檢驗(yàn)機(jī)器是否具有人類智能的唯一標(biāo)準(zhǔn)。以GPT-3為代表的巨量模型出現(xiàn)后，機(jī)器開始在多項(xiàng)任務(wù)中逼近圖靈測試，但直到源1.0之前，沒有任何大模型突破30%的關(guān)卡。

在“源1.0”的圖靈測試中，將模型生成的對話、小說續(xù)寫、新聞、詩歌、對聯(lián)與由人類創(chuàng)作的同類作品進(jìn)行混合并由人群進(jìn)行分辨，測試結(jié)果表明，人群能夠準(zhǔn)確分辨人與“源1.0”作品差別的成功率已低于50%。

巨量模型時(shí)代，浪潮不做旁觀者：2457億，打造全球最大中文語言模型

如圖，受訪者的平均誤判率為50.84%，在新聞生成領(lǐng)域誤判率高達(dá)57.88%。

而拋開數(shù)據(jù)，源1.0的詩歌、對聯(lián)的作品確實(shí)讓人驚艷

五湖四海皆春色，三江八荒任我游
春來人入畫，夜半月當(dāng)燈
和風(fēng)吹綠柳，細(xì)雨潤青禾
三江顧客盈門至，四季財(cái)源滾滾來．

疑是九天有淚，
為我偷灑。
滴進(jìn)西湖水里，
沾濕一千里外的月光，
化為我夢里的云彩。

巨量模型的潛力

煉大模型熱潮的興起,離不開谷歌微軟、OpenAI、智源研究院等全球頂級(jí)科技企業(yè)和研發(fā)機(jī)構(gòu)的追逐和熱捧，在它們看來，巨量模型代表了實(shí)現(xiàn)通用人工智能最具潛力的路徑,代表了當(dāng)前傳統(tǒng)產(chǎn)業(yè)實(shí)現(xiàn)智能化轉(zhuǎn)型的新機(jī)遇．

而這次，浪潮重磅發(fā)布中文單體大模型源1.0，通過圖靈測試和小樣本學(xué)習(xí)能力再次印證了業(yè)界對超大模型潛力的普遍期望. 前者為模型推理\走向認(rèn)知智能提供了可能性，后者降低了不同場景的適配難度,提升了模型的泛化應(yīng)用能力。相信未來這股"浪潮"還會(huì)越來越?jīng)坝?

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。