0
本文作者: 李揚(yáng)霞 | 2023-08-18 18:06 |
第七屆GAIR全球人工智能與機(jī)器人大會(huì),于8月14日-15日在新加坡烏節(jié)大酒店舉辦。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦。這是國(guó)內(nèi)首個(gè)出海的AI頂級(jí)論壇,也是中國(guó)人工智能影響力的一次跨境溢出。GAIR創(chuàng)立于2016年,由鵬城實(shí)驗(yàn)室主任高文院士、香港中文大學(xué)(深圳)校長(zhǎng)徐揚(yáng)生院士、GAIR研究院創(chuàng)始人朱曉蕊、雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))創(chuàng)始人林軍等人聯(lián)合發(fā)起。歷屆大會(huì)邀請(qǐng)了多位圖靈獎(jiǎng)、諾貝爾獎(jiǎng)得主、40位院士、30位人工智能國(guó)際頂會(huì)主席、 100多位 Fellow,同時(shí)也有500多位知名企業(yè)領(lǐng)袖,是亞洲最具國(guó)際影響力的AI論壇之一。
大會(huì)共開(kāi)設(shè)10個(gè)主題論壇,聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。在8月14日下午「大模型時(shí)代的超級(jí)基建」論壇上,UCloud董事長(zhǎng)兼CEO季昕華分享了題為《中立云服務(wù)助力AIGC的發(fā)展》的主題演講。
季昕華認(rèn)為,判斷一個(gè)大模型能不能做好主要有四個(gè)關(guān)鍵要素:一是資金密度;二是人才密度;三是數(shù)據(jù)密度;四是算力密度。
一家大模型公司如果沒(méi)有一個(gè)億美金,那基本上壓力就會(huì)比較大。因此,大模型被稱為是互聯(lián)網(wǎng)的重工業(yè)。除資金以外,大模型的訓(xùn)練需要大量的科學(xué)家人才、數(shù)據(jù)、算力。
而UCloud主要做的就是大模型最下面的基礎(chǔ)設(shè)施。季昕華提到,目前,國(guó)內(nèi)有139家公司在做大模型,其中五六十家都是由UCloud支撐和支持。所以,UCloud對(duì)整個(gè)模型過(guò)程中的技術(shù)要求非常清楚,也看到了大模型目前發(fā)展階段在技術(shù)上所遇到的挑戰(zhàn),包括功耗、存儲(chǔ)、網(wǎng)絡(luò)等。
以下為季昕華的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾木庉嫾罢恚?/strong>
一、從“百模大戰(zhàn)”看做好大模型的關(guān)鍵要素
我來(lái)分享一下我們是如何用云計(jì)算支撐整個(gè)大模型發(fā)展的,確實(shí)在國(guó)內(nèi)現(xiàn)在大模型非?;?,按照我們的收集,在國(guó)內(nèi)有139家公司做大模型,包括基礎(chǔ)模型和專業(yè)模型,所以稱之為“百模大戰(zhàn)”是非常形象的,而且這個(gè)數(shù)字還在不斷增加。
這其中有兩點(diǎn):第一個(gè)是我們看到這些公司的人50%以上都是清華大學(xué)畢業(yè)的,今天早上的主論壇潘院士和黃院士都是清華的;第二個(gè)就是中科院自動(dòng)化所;今天還要加上第三個(gè)標(biāo)簽就是南洋理工大學(xué)。
按公司類別來(lái)分可以分為五大類:第一個(gè)互聯(lián)網(wǎng)巨頭,他們幾乎什么都會(huì)做;第二個(gè)是上市公司,像360、科大訊飛等等;第三個(gè)就是AI團(tuán)隊(duì),像AI四小龍;第四個(gè)是科學(xué)家創(chuàng)業(yè),是現(xiàn)在發(fā)展比較快的,像智譜華章、銜遠(yuǎn)科技;第五個(gè)是一大批原來(lái)互聯(lián)網(wǎng)的高管出來(lái)創(chuàng)業(yè)的,像李開(kāi)復(fù)、王小川等這樣的公司。
這些清楚以后,其實(shí)我們可以看到大模型做的好不好有四大核心要素:資金密度、人才密度、數(shù)據(jù)密度、算力密度。在資金上,一家大模型企業(yè)在國(guó)內(nèi)沒(méi)有一個(gè)億美金起步的話,做大模型的壓力就會(huì)很大,所以我們把大模型稱之為互聯(lián)網(wǎng)的重工業(yè);做大模型還需要大量的科學(xué)家來(lái)做算法分析;大量的數(shù)據(jù)也必不可少;還有算力的密度,有多少?gòu)埧Q定了模型做的有多快、有多好。
二、從整個(gè)訓(xùn)練流程看大模型的挑戰(zhàn)
整個(gè)大模型訓(xùn)練其實(shí)包括四個(gè)步驟:從前期的準(zhǔn)備到訓(xùn)練,再到最后的上線推理運(yùn)行。我在中間加了兩步,從前期的數(shù)據(jù)清洗、預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí),以及后續(xù)的部署運(yùn)營(yíng)六個(gè)階段,在這個(gè)過(guò)程中我們可以看到,往往會(huì)面臨著多樣合規(guī)數(shù)據(jù)獲取,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等一系列難題。
而UCloud主要做的就是大模型最下面的基礎(chǔ)設(shè)施,“大家知道 OpenAI 做得很好,那么其實(shí)背后有微軟給OpenAI的大力支持。目前國(guó)內(nèi)139家公司里面大概有五六十家都是由UCloud做支撐和支持,所以我們對(duì)整個(gè)模型過(guò)程中的技術(shù)要求非常清楚?!?/p>
由于大模型的參數(shù)越來(lái)越大, 比如1000多億的參數(shù),這時(shí)候就需要把整個(gè)模型分配到幾千張卡上,那么卡之間的數(shù)據(jù)同步、網(wǎng)絡(luò)互聯(lián),以及中間出現(xiàn)故障的情況下如何做恢復(fù)等問(wèn)題,在這種情況下對(duì)于整個(gè)網(wǎng)絡(luò)、存儲(chǔ),對(duì)于整個(gè)系統(tǒng)的框架要求會(huì)越來(lái)越高。
在準(zhǔn)備階段,大家也都清楚最核心的是收集到足夠的數(shù)據(jù),如何獲取有效的數(shù)據(jù)是最重要的;第二步在訓(xùn)練的階段需要有大量的GPU卡,而大量的卡之間組網(wǎng)就會(huì)產(chǎn)生很多問(wèn)題,比如存儲(chǔ)、網(wǎng)絡(luò)以及穩(wěn)定性等問(wèn)題,具體來(lái)看:
首先是功耗和電力的挑戰(zhàn):舉例來(lái)說(shuō),一臺(tái)A800大概需要6000多瓦的電力,H800更高,耗電11千瓦。比如說(shuō)新加坡,其實(shí)電力成本很高,UCloud烏蘭察布數(shù)據(jù)中心電力充分、電價(jià)低廉、可自然制冷且距離北京更近。相較上海、北京等同等質(zhì)量的數(shù)據(jù)中心,成本下降40%。
其次是存儲(chǔ)的挑戰(zhàn):在大模型的訓(xùn)練過(guò)程中,大量非常小的文件,全部分配到服務(wù)器上,會(huì)有大量的元數(shù)據(jù)操作,還有高吞吐讀的需求,還有大量的順序?qū)懭?,這對(duì)存儲(chǔ)提出了更高的需求。
針對(duì)以上這些問(wèn)題,UCloud做了一些優(yōu)化,經(jīng)測(cè)試,優(yōu)化后的讀性能有70%左右的性能提升,達(dá)到5GBps;寫(xiě)吞吐10%左右的吞吐提升,達(dá)到2.2GBps,可充分滿足大模型客戶在單點(diǎn)掛載時(shí)吞吐的性能需求,大幅提升訓(xùn)練效率。后續(xù),UCloud會(huì)在和kernel交互的方式上進(jìn)一步優(yōu)化并發(fā)來(lái)提升寫(xiě)吞吐的能力。此外,UCloud研發(fā)中的GPUDirect Storage,將會(huì)有更高的存儲(chǔ)性能。
他談到,目前UCloud是國(guó)內(nèi)第一個(gè)支持GPUDirect Storage,那么可以把GPU內(nèi)存的數(shù)據(jù)直接寫(xiě)到存儲(chǔ)上,而不需要CPU的處理,所以效果會(huì)非常好。
最后是網(wǎng)絡(luò)的挑戰(zhàn):在大模型的訓(xùn)練過(guò)程當(dāng)中,一般有三種并行策略:張量并行、流水線并行、數(shù)據(jù)并行,他們的通信量分別是百GB級(jí)別、100MB級(jí)別、10GB級(jí)別,但是由于整個(gè)網(wǎng)絡(luò)帶寬的瓶頸限制,GPU不能很好的利用,造成大量浪費(fèi)。GPT 4 對(duì)外的公開(kāi)數(shù)據(jù)顯示GPU的利用率只有30%多,這是由整個(gè)存儲(chǔ)的帶寬壓力和整個(gè)網(wǎng)絡(luò)通信的帶寬壓力導(dǎo)致的。
現(xiàn)在業(yè)界流行的有兩種方案:RoCE和InfiniBand,而InfiniBand目前由英偉達(dá)控制,開(kāi)放性不夠,所以現(xiàn)在大部分的公司開(kāi)始逐步采用RoCE網(wǎng)絡(luò)。
季昕華表示,大模型訓(xùn)練RDMA網(wǎng)絡(luò)設(shè)計(jì)要滿足“大規(guī)模、高帶寬”的要求,目前UCloud支持IB和RoCE兩種高性能網(wǎng)絡(luò)方案,IB可以支持萬(wàn)張以上的GPU同時(shí)接入;而RoCE的可擴(kuò)展性和開(kāi)放性都比較好,當(dāng)然這里面也存在比較大的一些問(wèn)題,比如說(shuō)整個(gè)哈希的不均衡問(wèn)題等,我們目前正在和一些公司進(jìn)行合作,希望把問(wèn)題進(jìn)一步解決,能夠提高整個(gè)卡的使用率和效能。
三、談大模型十大應(yīng)用場(chǎng)景和三大挑戰(zhàn)
談到目前國(guó)內(nèi)的場(chǎng)景應(yīng)用,季昕華表示,按照對(duì)大模型輸出內(nèi)容準(zhǔn)確性的容忍度來(lái)分類,在游戲NPC、社交輔助、電商、游戲/設(shè)計(jì)的畫(huà)圖、翻譯、客服支持、文字和編程輔助、教育、法律、醫(yī)療這10大行業(yè)場(chǎng)景有較為廣泛的落地。
季昕華介紹到游戲中的NPC使用大模型來(lái)做的話,會(huì)極大提高游戲用戶的粘性;而在社交輔助上,大模型可以模擬人進(jìn)行交流也非常受歡迎;在電商方面,很多頁(yè)面設(shè)計(jì)、文案輸出、圖片設(shè)計(jì),都可以交給大模型來(lái)做,可大幅提高生產(chǎn)效率;在法律、教育和醫(yī)療領(lǐng)域,更多的是作為輔助功能,最后由老師或者是醫(yī)生和律師來(lái)簽字,擔(dān)責(zé)的是人,所以這三類目前是無(wú)法被替換的。
另外他還談到,大模型發(fā)展還將持續(xù)面臨數(shù)據(jù)安全、政府對(duì)于合規(guī)性的要求、國(guó)際關(guān)系對(duì)于中國(guó)AI發(fā)展的限制等挑戰(zhàn)。
由于國(guó)際關(guān)系對(duì)于AI發(fā)展有一些核心硬件的限制,國(guó)內(nèi)無(wú)法購(gòu)買(mǎi)A100、 H100 或者未來(lái)更高一級(jí)的卡、更高性能的芯片,所以中國(guó)AI的發(fā)展會(huì)受到很大的挑戰(zhàn),和國(guó)外的差距會(huì)越來(lái)越越大;還有由于政府對(duì)與合規(guī)性的要求,很多客戶開(kāi)始采用海外磨槍,國(guó)內(nèi)使用的路子,UCloud在全球有30多個(gè)數(shù)據(jù)中心,可以協(xié)助用戶磨練產(chǎn)品,之后有條件的時(shí)候再搬到國(guó)內(nèi);還有一個(gè)重要的挑戰(zhàn)就是數(shù)據(jù)安全,很多用戶的數(shù)據(jù)放在云上,肯定會(huì)擔(dān)心會(huì)不會(huì)被拿走,UCloud是一個(gè)中立的云計(jì)算公司,我們有一個(gè)模式就是給合作伙伴建立專有云或者私有云,放在自己的云上隨意做測(cè)試、訓(xùn)練,也不會(huì)擔(dān)心數(shù)據(jù)的安全問(wèn)題。
在提問(wèn)環(huán)節(jié),他回答了現(xiàn)場(chǎng)觀眾關(guān)于應(yīng)用場(chǎng)景的提問(wèn),季昕華表示,現(xiàn)在確實(shí)是互聯(lián)網(wǎng)的應(yīng)用場(chǎng)景會(huì)多一些,但我們也在其他領(lǐng)域進(jìn)行探索,一個(gè)是 AI for Science,比如AI for化學(xué),通過(guò)無(wú)人化的試管試驗(yàn)來(lái)驗(yàn)證可能性。第二探索是AI for Brain,在大腦科學(xué)領(lǐng)域,我們?cè)诟愄鞓蜻M(jìn)行合作,通過(guò)AI來(lái)分析大腦狀態(tài)、大腦操控各種行為時(shí)的變化。第三個(gè)探索就是生物醫(yī)藥。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。