丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給何思思
發(fā)送

0

對(duì)話浪潮信息:大模型一家獨(dú)大不現(xiàn)實(shí),開(kāi)源開(kāi)放的生態(tài)即是優(yōu)解

本文作者: 何思思 2023-12-08 19:09
導(dǎo)語(yǔ):開(kāi)源&閉源之爭(zhēng).

當(dāng)前,人工智能技術(shù)和應(yīng)用的快速演進(jìn),引領(lǐng)了科技和產(chǎn)業(yè)進(jìn)入了新一輪的變革,成為國(guó)際競(jìng)爭(zhēng)的新焦點(diǎn),經(jīng)濟(jì)發(fā)展的新引擎。

尤其是ChatGPT的出現(xiàn),刺激了以大模型為代表的通用人工智能技術(shù)的發(fā)展,同時(shí)還引發(fā)了新一輪的技術(shù)革命,進(jìn)而帶動(dòng)了智算產(chǎn)業(yè)的快速革新。

時(shí)間回到2020年5月份,彼時(shí)OpenAI發(fā)布了GPT3,拉響了大模型這場(chǎng)馬拉松式的競(jìng)賽,緣何其能成為出發(fā)點(diǎn),通過(guò)觀察了解發(fā)現(xiàn),GPT3發(fā)布時(shí),OpenAI就提出了一種全新的大模型訓(xùn)練和應(yīng)用模式,即基礎(chǔ)大模型通過(guò)訓(xùn)練后,通過(guò)零樣本,或者是小樣本提示的形式直接賦能行業(yè)的應(yīng)用。

繼而在GPT3發(fā)布后,OpenAI持續(xù)聚焦在基礎(chǔ)模型能力的提升上,2021年8月,OpenAI作出了GPT3.5相關(guān)的路演,在基礎(chǔ)大模型上,引入了指令微調(diào),通過(guò)這種技術(shù)手段嘗試將模型的能力和人的意圖拉齊,從而使模型從預(yù)訓(xùn)練階段到微調(diào)階段能真正理解人的意圖,輸出的答案能更真實(shí),且更符合人意圖的回答。

可以說(shuō),GPT3吹響了大模型競(jìng)賽的號(hào)角,而GPT3.5則把這場(chǎng)競(jìng)賽推向了一個(gè)小高潮,而這并不是讓這整個(gè)大模型行業(yè)震驚的。今年GPT4的問(wèn)世,才是讓大模型競(jìng)賽達(dá)到了白熱化階段的新技術(shù)棧。

對(duì)于國(guó)內(nèi)市場(chǎng)來(lái)說(shuō),大模型毫無(wú)疑問(wèn)是一項(xiàng)新事物,國(guó)內(nèi)各廠商為了能吃到第一波紅利,紛紛選擇入局,這就出現(xiàn)了今年4、5月份大模型密集發(fā)布的局面,百度文心一言打響頭炮,阿里千義通問(wèn)、騰訊混元等緊隨其后,當(dāng)然昔日的老牌AI公司,諸如商湯、曠視、云從、依圖等也選擇進(jìn)行的相應(yīng)的布局。

觀察下來(lái)發(fā)現(xiàn),這些公司有著豐富的技術(shù)經(jīng)驗(yàn)積累和充足的財(cái)力物力,但似乎之前并沒(méi)有大模型方面的相關(guān)積累。

而浪潮信息較這些企業(yè),對(duì)大模型的布局要稍早些。雷峰網(wǎng)了解到,浪潮信息對(duì)大模型的研究要追溯到2021年,這一年,浪潮信息發(fā)布了2457億參數(shù)的源1.0大模型,這也是當(dāng)時(shí)業(yè)界規(guī)模最大的中文語(yǔ)言大模型。源1.0大模型具備很強(qiáng)的中文理解、寫(xiě)作能力,是比較經(jīng)典的Transformer模型結(jié)構(gòu)。每個(gè)Transformer里面包含一個(gè)典型的Attention層和前饋層。也就是說(shuō),源1.0的模型結(jié)構(gòu)和GPT3的結(jié)構(gòu)是比較類似的。

另外,值得注意的是,源1.0大模型還開(kāi)源了代碼,開(kāi)放了API。嘗試通過(guò)這些代碼、API以及數(shù)據(jù)的開(kāi)源賦能開(kāi)發(fā)者,賦能產(chǎn)業(yè)用戶,以開(kāi)發(fā)更強(qiáng)的模型和應(yīng)用。

但是對(duì)于模型來(lái)說(shuō),業(yè)界最為關(guān)注的還是參數(shù),因?yàn)閰?shù)的大小往往代表著其智能程度,源1.0大模型為何能做到如此大的參數(shù)量?究其原因,主要在于其無(wú)論在算法、數(shù)據(jù)還是算力層面,都做到了超大規(guī)模和巨量化。

算法方面,相比于1750億參數(shù)的英文語(yǔ)言模型GTP-3,源1.0共包含2457億個(gè)參數(shù),是前者參數(shù)量的1.404倍;數(shù)據(jù)方面,源1.0把近5年整個(gè)中文互聯(lián)網(wǎng)的浩瀚內(nèi)容全部「讀」完了。通過(guò)自研的文本分類模型,獲得了5TB高質(zhì)量中文數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)集規(guī)模上領(lǐng)先近10倍;算力方面,源1.0共消耗約4095PD(PetaFlop/s-day),而GPT-3消耗了3640PD計(jì)算量,計(jì)算效率大幅提升。

而今年大模型爆火后,浪潮信息選擇持續(xù)更新迭代大模型的能力,并于近日發(fā)布了源2.0大模型,值得注意的是,浪潮信息仍然選擇將其全面開(kāi)源。其中包括1026億、518億、21億三種參數(shù)規(guī)模的模型。

據(jù)浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華介紹,與源1.0一樣的是,源2.0主要圍繞算力、算法、數(shù)據(jù)三方面進(jìn)行了改進(jìn),但不同的是,基于對(duì)這三方面的改進(jìn),訓(xùn)練出了比源1.0參數(shù)更小,但各方面能力均能趕超源1.0的模型。

首先,算法方面,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu)——局部注意力過(guò)濾增強(qiáng)機(jī)制(LFA:Localized Filtering-based Attention)。

LFA通過(guò)先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征。這使得模型可以在使用更少的訓(xùn)練算力、更小的模型參數(shù)的情況下,同樣可以獲得更高的模型精度和涌現(xiàn)能力。

其次,數(shù)據(jù)方面,源2.0通過(guò)使用中英文書(shū)籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語(yǔ)料內(nèi)容占比,并結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。

吳韶華也特別強(qiáng)調(diào)道,為了獲取高質(zhì)量的數(shù)據(jù),除了引入從互聯(lián)網(wǎng)上獲取到的數(shù)據(jù)外,我們還會(huì)引入了一部分獨(dú)特的數(shù)據(jù),在構(gòu)建我們的社群數(shù)據(jù)和代碼數(shù)據(jù)的時(shí)候,為了得到高質(zhì)量的中文的社群數(shù)據(jù),我們從2018年到2023年,把互聯(lián)網(wǎng)上所有中文網(wǎng)頁(yè)中涉及到的社群數(shù)據(jù)網(wǎng)頁(yè)全提取出來(lái),加工清洗,最后獲取到了約10GB的數(shù)學(xué)數(shù)據(jù)。

再者,算力方面,源2.0采用了非均勻流水并行的方法,綜合運(yùn)用“流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行”的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問(wèn)題。

據(jù)吳韶華介紹,為了對(duì)算法能力有定量的分析,還構(gòu)建了兩個(gè)性能模型。一個(gè)是針對(duì)經(jīng)典的張量并行、流水并行、數(shù)據(jù)并行,構(gòu)建的計(jì)算模型。二是性能模型,主要考慮到流水并行,數(shù)據(jù)并行,以及優(yōu)化器參數(shù)并行,對(duì)整個(gè)計(jì)算時(shí)間的影響。

當(dāng)然,浪潮信息也對(duì)源2.0進(jìn)行了各種測(cè)試,結(jié)果顯示,在數(shù)理邏輯、數(shù)學(xué)計(jì)算、代碼生成能力方面大幅提升,且在HumanEval、AGIEval、GMS-8K等知名評(píng)測(cè)集上的表現(xiàn),超過(guò)了ChatGPT的精度,接近GPT-4的精度。

同時(shí)經(jīng)過(guò)驗(yàn)證,源2.0大模型算力集群的線性擴(kuò)展效率為47.3%,遠(yuǎn)高于同類千億參數(shù)大模型的算力集群線性擴(kuò)展效率(業(yè)界普遍算力效率為27%-35%)。

以下是雷峰網(wǎng)和浪潮信息的對(duì)話:

雷峰網(wǎng):源2.0和源1.0相比,是不是源2.0的使用場(chǎng)景更多了?

吳韶華:大模型基于什么樣的數(shù)據(jù)訓(xùn)練,最終也會(huì)呈現(xiàn)出之相關(guān)的能力。源1.0作為一個(gè)基礎(chǔ)模型,當(dāng)時(shí)的數(shù)學(xué)數(shù)據(jù)非常少,代碼數(shù)據(jù)也非常少,源2.0為了得到數(shù)學(xué)的數(shù)據(jù),清洗了很長(zhǎng)時(shí)間才獲得了少量的質(zhì)量高的數(shù)據(jù)。所以從數(shù)據(jù)角度來(lái)說(shuō),源2.0的能力邊界遠(yuǎn)超過(guò)源1.0。

主要體現(xiàn)在能力上的提升,比如代碼能力,數(shù)學(xué)能力,邏輯推理的能力,當(dāng)然不僅僅包括數(shù)學(xué)能力,也包括物理等相關(guān)的能力,實(shí)際都比源1.0要好不少。當(dāng)然,源1.0中的一些基礎(chǔ)能力,比如寫(xiě)作的能力,中文語(yǔ)言理解的能力,源2.0都具備。

另外,源2.0還具備中英文翻譯的優(yōu)勢(shì),源1.0中95%的數(shù)據(jù)都是中文數(shù)據(jù),但2.0里邊中英文的數(shù)據(jù)基本都是平衡的,所以源2.0能同時(shí)支持中英文。

雷峰網(wǎng):為什么選擇從算力、算法、數(shù)據(jù)三方面改進(jìn)?出于什么樣的考慮?

吳韶華:源1.0開(kāi)源后,其中我們接觸到了大量的客戶,在這個(gè)過(guò)程中發(fā)現(xiàn)想要在客戶的場(chǎng)景中落地其實(shí)需要投入大量的時(shí)間和經(jīng)歷,確實(shí)源1.0存在很多不足。實(shí)際上這是所有類似于GPT3大模型普遍會(huì)面臨的問(wèn)題。所以我們一直思考,怎么提升模型的能力更好的讓大模型落地。這是我們做這個(gè)事情的最核心的出發(fā)點(diǎn)。

另外,還有一些外界因素,不可否認(rèn),OpenAI發(fā)布了GPT4對(duì)業(yè)界的沖擊非常大,因此,我們也在思考,如何把模型能力提升到接近GPT4的水平。我們認(rèn)為應(yīng)該算法、數(shù)據(jù)以及算力等方面來(lái)齊頭并進(jìn)。結(jié)果也顯示通過(guò)這樣的方式,源2.0確實(shí)在各方面都有著比源1.0更出色的表現(xiàn)。

當(dāng)然,我們現(xiàn)在做的工作,只是開(kāi)了一個(gè)頭,尤其是在算法方面,未來(lái)我們會(huì)我沿著這個(gè)方向繼續(xù)挖掘出更有價(jià)值的東西。

雷峰網(wǎng):和其他企業(yè)相比,源2.0的創(chuàng)新和差異點(diǎn)是什么?怎么定位自己?

吳韶華:從1.0到2.0我們始終聚焦在基礎(chǔ)模型能力的提升上,因?yàn)槲覀円恢闭J(rèn)為只有基礎(chǔ)模型能力提升了,才能更好的落地到各行業(yè)的各場(chǎng)景中。我覺(jué)得這可能是我們跟其他企業(yè)最大的不同。當(dāng)然,我們也有很多志同道合的伙伴,可能中間會(huì)出現(xiàn)一些分歧,但這都是正?,F(xiàn)象,只是大家選擇了不同的道路而已。

雷峰網(wǎng):除了基礎(chǔ)大模型,沒(méi)有考慮做行業(yè)模型嗎?

吳韶華:客觀來(lái)講,大模型分為基礎(chǔ)大模型,以及大模型在不同行業(yè)的落地,我們不把這種模型稱作行業(yè)大模型,而是說(shuō)大模型在行業(yè)的應(yīng)用。實(shí)際上是這樣的關(guān)系。

從源本身說(shuō),我們的目標(biāo)是非常清晰的,就是發(fā)揮整個(gè)團(tuán)隊(duì)的優(yōu)勢(shì),加上對(duì)產(chǎn)業(yè)的理解,不斷提升基礎(chǔ)大模型的能力。聚焦到具體行業(yè)的落地,我們希望生態(tài)伙伴去完成,比如開(kāi)發(fā)者社區(qū)、軟件開(kāi)發(fā)商,行業(yè)客戶等,他們可以基于源基礎(chǔ)大模型做行業(yè)數(shù)據(jù)的微調(diào),去生成他們專有的大模型,他們可以基于你的方法,訓(xùn)練出不同尺寸、不同場(chǎng)景的模型。我覺(jué)得這是一個(gè)非常好的方式。浪潮信息的重點(diǎn)是為整個(gè)社區(qū),整個(gè)產(chǎn)業(yè)持續(xù)提升基礎(chǔ)大模型的能力。

雷峰網(wǎng):您認(rèn)為架構(gòu)的調(diào)整,比如Transformer到現(xiàn)在的GPT,能解決大模型的幻覺(jué)問(wèn)題嗎?

吳韶華:架構(gòu)的改進(jìn)有助于在一定程度上能緩解幻覺(jué)的發(fā)生,但幻覺(jué)不是一個(gè)孤立的問(wèn)題,它不僅和模型結(jié)構(gòu)有關(guān),和數(shù)據(jù)以及訓(xùn)練方法也有很強(qiáng)的關(guān)聯(lián)性。所以模型結(jié)構(gòu)是一個(gè)因素,數(shù)據(jù)是一個(gè)因素,訓(xùn)練方式是另外一個(gè)因素。所有因素加在一起,才能有效的緩解幻覺(jué)問(wèn)題的出現(xiàn)。

我覺(jué)得幻覺(jué)問(wèn)題很難永遠(yuǎn)徹底的解決,因?yàn)楫吘宫F(xiàn)在的大模型都是基于概率的預(yù)測(cè)。既然是概率的話,總會(huì)有正確率高的時(shí)候,總會(huì)有一些異常事例存在。這是我個(gè)人的理解。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):源2.0和1.0一樣維持開(kāi)源,您怎么看待開(kāi)源和閉源?

吳韶華:開(kāi)源大模型和閉源大模型,其實(shí)很像安卓系統(tǒng)和IOS系統(tǒng),未來(lái)很長(zhǎng)一段時(shí)間可能會(huì)共存,這是很自然的現(xiàn)象。

開(kāi)源大模型可以帶動(dòng)整個(gè)產(chǎn)業(yè)的協(xié)同發(fā)展,這是開(kāi)源最本質(zhì)的好處。我們可以回顧一下過(guò)去所有成功的開(kāi)源項(xiàng)目,實(shí)際上都是整個(gè)社區(qū)的共同貢獻(xiàn)才成就了一個(gè)大的項(xiàng)目成果。所謂開(kāi)源就是“我為人人,人人為我”,這是我對(duì)開(kāi)源非常重要的體會(huì)。

雷峰網(wǎng):目前很強(qiáng)的模型類似GPT4其實(shí)是保持閉源的?

吳韶華:GPT4是閉源的。我們不知道它怎么能有如此好的表現(xiàn),包括流行的代碼測(cè)試等都有非常好的表現(xiàn)。它把所有的工作都封閉起來(lái)了,實(shí)際上沒(méi)有人知道它是怎么實(shí)現(xiàn)的。在這個(gè)情況下,只有一家公司擁有一個(gè)非常領(lǐng)先的能力,是不利于產(chǎn)業(yè)的健康發(fā)展的。因?yàn)檫@樣其他人沒(méi)有辦法提供一個(gè)類似能力的模型,我們希望大模型這個(gè)產(chǎn)業(yè)能夠百花齊放,百家爭(zhēng)鳴。

實(shí)際上我們今天做的好多工作,都是在堅(jiān)持走開(kāi)源的路線,包括開(kāi)源代碼,開(kāi)源模型,也許我們的模型還不能在每個(gè)方面都媲美GPT4,實(shí)際上我們也沒(méi)有做到這一步,但起碼能在某些方面,展現(xiàn)出一個(gè)比較先進(jìn)的能力,這樣開(kāi)發(fā)者用戶就能在我們的模型上做一些非常棒的應(yīng)用體驗(yàn),這對(duì)生態(tài)的發(fā)展是非常重要的。

今天我們把源2.0的工作方法都貢獻(xiàn)出來(lái)了,其實(shí)就是把整個(gè)社區(qū)的智慧都釋放出來(lái)了,大家一起構(gòu)建生態(tài),我覺(jué)得以中國(guó)當(dāng)前的發(fā)模型發(fā)展環(huán)境來(lái)看,這可能是一條能盡快追趕OpenAI的可行路徑。

雷峰網(wǎng):堅(jiān)持始終開(kāi)源,不怕被別人反超嗎?

吳韶華:源2.0是開(kāi)源的,業(yè)界很多模型也是開(kāi)源的。對(duì)于用戶來(lái)說(shuō),最后是否會(huì)變成一家獨(dú)大?比如是用了源2.0,就不用其他模型了,用了其他的,就不用源2.0了?其實(shí)不是這樣的,我們認(rèn)為未來(lái)生成式AI是一個(gè)多元化的生態(tài),每個(gè)模型都有最擅長(zhǎng)的地方,比如A模型擅長(zhǎng)這部分,B模型擅長(zhǎng)那部分...大家加起來(lái)可能就會(huì)整合出一個(gè)能力超強(qiáng)的模型。我們認(rèn)為這個(gè)情況在未來(lái)一定會(huì)出現(xiàn)的。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

工業(yè)口編輯

關(guān)注新基建,聚焦工業(yè)互聯(lián)網(wǎng)領(lǐng)域 網(wǎng)絡(luò)安全丨微信:15230152798
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)