0
本文作者: 李揚霞 | 2023-08-18 18:06 |
第七屆GAIR全球人工智能與機器人大會,于8月14日-15日在新加坡烏節(jié)大酒店舉辦。論壇由GAIR研究院、雷峰網(wǎng)(公眾號:雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。這是國內(nèi)首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。GAIR創(chuàng)立于2016年,由鵬城實驗室主任高文院士、香港中文大學(深圳)校長徐揚生院士、GAIR研究院創(chuàng)始人朱曉蕊、雷峰網(wǎng)創(chuàng)始人林軍等人聯(lián)合發(fā)起。歷屆大會邀請了多位圖靈獎、諾貝爾獎得主、40位院士、30位人工智能國際頂會主席、 100多位 Fellow,同時也有500多位知名企業(yè)領袖,是亞洲最具國際影響力的AI論壇之一。
大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創(chuàng)新。在8月14日下午「大模型時代的超級基建」論壇上,UCloud董事長兼CEO季昕華分享了題為《中立云服務助力AIGC的發(fā)展》的主題演講。
季昕華認為,判斷一個大模型能不能做好主要有四個關鍵要素:一是資金密度;二是人才密度;三是數(shù)據(jù)密度;四是算力密度。
一家大模型公司如果沒有一個億美金,那基本上壓力就會比較大。因此,大模型被稱為是互聯(lián)網(wǎng)的重工業(yè)。除資金以外,大模型的訓練需要大量的科學家人才、數(shù)據(jù)、算力。
而UCloud主要做的就是大模型最下面的基礎設施。季昕華提到,目前,國內(nèi)有139家公司在做大模型,其中五六十家都是由UCloud支撐和支持。所以,UCloud對整個模型過程中的技術要求非常清楚,也看到了大模型目前發(fā)展階段在技術上所遇到的挑戰(zhàn),包括功耗、存儲、網(wǎng)絡等。
以下為季昕華的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)作了不改變原意的編輯及整理:
一、從“百模大戰(zhàn)”看做好大模型的關鍵要素
我來分享一下我們是如何用云計算支撐整個大模型發(fā)展的,確實在國內(nèi)現(xiàn)在大模型非?;?,按照我們的收集,在國內(nèi)有139家公司做大模型,包括基礎模型和專業(yè)模型,所以稱之為“百模大戰(zhàn)”是非常形象的,而且這個數(shù)字還在不斷增加。
這其中有兩點:第一個是我們看到這些公司的人50%以上都是清華大學畢業(yè)的,今天早上的主論壇潘院士和黃院士都是清華的;第二個就是中科院自動化所;今天還要加上第三個標簽就是南洋理工大學。
按公司類別來分可以分為五大類:第一個互聯(lián)網(wǎng)巨頭,他們幾乎什么都會做;第二個是上市公司,像360、科大訊飛等等;第三個就是AI團隊,像AI四小龍;第四個是科學家創(chuàng)業(yè),是現(xiàn)在發(fā)展比較快的,像智譜華章、銜遠科技;第五個是一大批原來互聯(lián)網(wǎng)的高管出來創(chuàng)業(yè)的,像李開復、王小川等這樣的公司。
這些清楚以后,其實我們可以看到大模型做的好不好有四大核心要素:資金密度、人才密度、數(shù)據(jù)密度、算力密度。在資金上,一家大模型企業(yè)在國內(nèi)沒有一個億美金起步的話,做大模型的壓力就會很大,所以我們把大模型稱之為互聯(lián)網(wǎng)的重工業(yè);做大模型還需要大量的科學家來做算法分析;大量的數(shù)據(jù)也必不可少;還有算力的密度,有多少張卡決定了模型做的有多快、有多好。
二、從整個訓練流程看大模型的挑戰(zhàn)
整個大模型訓練其實包括四個步驟:從前期的準備到訓練,再到最后的上線推理運行。我在中間加了兩步,從前期的數(shù)據(jù)清洗、預訓練、監(jiān)督微調(diào)、獎勵建模、強化學習,以及后續(xù)的部署運營六個階段,在這個過程中我們可以看到,往往會面臨著多樣合規(guī)數(shù)據(jù)獲取,計算、存儲、網(wǎng)絡等一系列難題。
而UCloud主要做的就是大模型最下面的基礎設施,“大家知道 OpenAI 做得很好,那么其實背后有微軟給OpenAI的大力支持。目前國內(nèi)139家公司里面大概有五六十家都是由UCloud做支撐和支持,所以我們對整個模型過程中的技術要求非常清楚?!?/p>
由于大模型的參數(shù)越來越大, 比如1000多億的參數(shù),這時候就需要把整個模型分配到幾千張卡上,那么卡之間的數(shù)據(jù)同步、網(wǎng)絡互聯(lián),以及中間出現(xiàn)故障的情況下如何做恢復等問題,在這種情況下對于整個網(wǎng)絡、存儲,對于整個系統(tǒng)的框架要求會越來越高。
在準備階段,大家也都清楚最核心的是收集到足夠的數(shù)據(jù),如何獲取有效的數(shù)據(jù)是最重要的;第二步在訓練的階段需要有大量的GPU卡,而大量的卡之間組網(wǎng)就會產(chǎn)生很多問題,比如存儲、網(wǎng)絡以及穩(wěn)定性等問題,具體來看:
首先是功耗和電力的挑戰(zhàn):舉例來說,一臺A800大概需要6000多瓦的電力,H800更高,耗電11千瓦。比如說新加坡,其實電力成本很高,UCloud烏蘭察布數(shù)據(jù)中心電力充分、電價低廉、可自然制冷且距離北京更近。相較上海、北京等同等質(zhì)量的數(shù)據(jù)中心,成本下降40%。
其次是存儲的挑戰(zhàn):在大模型的訓練過程中,大量非常小的文件,全部分配到服務器上,會有大量的元數(shù)據(jù)操作,還有高吞吐讀的需求,還有大量的順序?qū)懭耄@對存儲提出了更高的需求。
針對以上這些問題,UCloud做了一些優(yōu)化,經(jīng)測試,優(yōu)化后的讀性能有70%左右的性能提升,達到5GBps;寫吞吐10%左右的吞吐提升,達到2.2GBps,可充分滿足大模型客戶在單點掛載時吞吐的性能需求,大幅提升訓練效率。后續(xù),UCloud會在和kernel交互的方式上進一步優(yōu)化并發(fā)來提升寫吞吐的能力。此外,UCloud研發(fā)中的GPUDirect Storage,將會有更高的存儲性能。
他談到,目前UCloud是國內(nèi)第一個支持GPUDirect Storage,那么可以把GPU內(nèi)存的數(shù)據(jù)直接寫到存儲上,而不需要CPU的處理,所以效果會非常好。
最后是網(wǎng)絡的挑戰(zhàn):在大模型的訓練過程當中,一般有三種并行策略:張量并行、流水線并行、數(shù)據(jù)并行,他們的通信量分別是百GB級別、100MB級別、10GB級別,但是由于整個網(wǎng)絡帶寬的瓶頸限制,GPU不能很好的利用,造成大量浪費。GPT 4 對外的公開數(shù)據(jù)顯示GPU的利用率只有30%多,這是由整個存儲的帶寬壓力和整個網(wǎng)絡通信的帶寬壓力導致的。
現(xiàn)在業(yè)界流行的有兩種方案:RoCE和InfiniBand,而InfiniBand目前由英偉達控制,開放性不夠,所以現(xiàn)在大部分的公司開始逐步采用RoCE網(wǎng)絡。
季昕華表示,大模型訓練RDMA網(wǎng)絡設計要滿足“大規(guī)模、高帶寬”的要求,目前UCloud支持IB和RoCE兩種高性能網(wǎng)絡方案,IB可以支持萬張以上的GPU同時接入;而RoCE的可擴展性和開放性都比較好,當然這里面也存在比較大的一些問題,比如說整個哈希的不均衡問題等,我們目前正在和一些公司進行合作,希望把問題進一步解決,能夠提高整個卡的使用率和效能。
三、談大模型十大應用場景和三大挑戰(zhàn)
談到目前國內(nèi)的場景應用,季昕華表示,按照對大模型輸出內(nèi)容準確性的容忍度來分類,在游戲NPC、社交輔助、電商、游戲/設計的畫圖、翻譯、客服支持、文字和編程輔助、教育、法律、醫(yī)療這10大行業(yè)場景有較為廣泛的落地。
季昕華介紹到游戲中的NPC使用大模型來做的話,會極大提高游戲用戶的粘性;而在社交輔助上,大模型可以模擬人進行交流也非常受歡迎;在電商方面,很多頁面設計、文案輸出、圖片設計,都可以交給大模型來做,可大幅提高生產(chǎn)效率;在法律、教育和醫(yī)療領域,更多的是作為輔助功能,最后由老師或者是醫(yī)生和律師來簽字,擔責的是人,所以這三類目前是無法被替換的。
另外他還談到,大模型發(fā)展還將持續(xù)面臨數(shù)據(jù)安全、政府對于合規(guī)性的要求、國際關系對于中國AI發(fā)展的限制等挑戰(zhàn)。
由于國際關系對于AI發(fā)展有一些核心硬件的限制,國內(nèi)無法購買A100、 H100 或者未來更高一級的卡、更高性能的芯片,所以中國AI的發(fā)展會受到很大的挑戰(zhàn),和國外的差距會越來越越大;還有由于政府對與合規(guī)性的要求,很多客戶開始采用海外磨槍,國內(nèi)使用的路子,UCloud在全球有30多個數(shù)據(jù)中心,可以協(xié)助用戶磨練產(chǎn)品,之后有條件的時候再搬到國內(nèi);還有一個重要的挑戰(zhàn)就是數(shù)據(jù)安全,很多用戶的數(shù)據(jù)放在云上,肯定會擔心會不會被拿走,UCloud是一個中立的云計算公司,我們有一個模式就是給合作伙伴建立專有云或者私有云,放在自己的云上隨意做測試、訓練,也不會擔心數(shù)據(jù)的安全問題。
在提問環(huán)節(jié),他回答了現(xiàn)場觀眾關于應用場景的提問,季昕華表示,現(xiàn)在確實是互聯(lián)網(wǎng)的應用場景會多一些,但我們也在其他領域進行探索,一個是 AI for Science,比如AI for化學,通過無人化的試管試驗來驗證可能性。第二探索是AI for Brain,在大腦科學領域,我們在跟陳天橋進行合作,通過AI來分析大腦狀態(tài)、大腦操控各種行為時的變化。第三個探索就是生物醫(yī)藥。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。