0
本文作者: 我在思考中 | 2023-08-21 17:06 |
2023年8月14日,由GAIR研究院、雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))、世界科技出版社、科特勒咨詢(xún)集團(tuán)聯(lián)合主辦的第七屆GAIR全球人工智能與機(jī)器人大會(huì),在新加坡烏節(jié)大酒店拉開(kāi)帷幕。
潘毅對(duì)話(huà)黃學(xué)東
圍繞大模型的討論在繼續(xù)。繼黃學(xué)東介紹完「what we are now」后,清華大學(xué)周伯文接著介紹大模型在復(fù)雜場(chǎng)景中的應(yīng)用。周伯文是清華大學(xué)惠妍講席教授、電子工程系長(zhǎng)聘教授,銜遠(yuǎn)科技創(chuàng)始人,IEEE/CAAI Fellow。
周伯文發(fā)表演講
需要注意的是,將大模型的能力遷移到產(chǎn)業(yè)應(yīng)用中,將不可避免地遇到更低頻、長(zhǎng)尾的復(fù)雜場(chǎng)景和大規(guī)模協(xié)同需求。對(duì)此,京東探索研究院院長(zhǎng)、京東科技智能服務(wù)與產(chǎn)品部總裁、IEEE Fellow 何曉冬指出,應(yīng)用于產(chǎn)業(yè)的大模型必須具備產(chǎn)業(yè)原生、價(jià)值驅(qū)動(dòng)、開(kāi)放協(xié)同三大特性。
Alex Ren對(duì)話(huà)邱諄
隨著大模型參數(shù)的指數(shù)級(jí)增加,如何高效訓(xùn)練模型成為大模型開(kāi)發(fā)的重中之重。阿里云計(jì)算平臺(tái)首席架構(gòu)師林偉在 GAIR 2023 的演講中提出,今天 AI 工程面臨非常多挑戰(zhàn)。硬件復(fù)雜度高,芯片每半年更新一次;集群復(fù)雜,高投入未必能帶來(lái)高性能;分布式任務(wù)配置復(fù)雜;每一個(gè)問(wèn)題都會(huì)大量分散算法工程師在模型訓(xùn)練上的精力。
林偉介紹了阿里云 PAI 靈駿智算平臺(tái)的基礎(chǔ)架構(gòu)。在算力底座層面,靈駿智算集群通過(guò)自研高性能網(wǎng)絡(luò)、高性能存儲(chǔ)、異構(gòu)資源池化、數(shù)據(jù)加載加速等優(yōu)化技術(shù),可實(shí)現(xiàn)端到端1.5微秒超低系統(tǒng)通信時(shí)延,通信效率17%優(yōu)化,異構(gòu)資源利用率3倍提升。在工程平臺(tái)層,PAI靈駿智算服務(wù)提供覆蓋AI開(kāi)發(fā)全流程的平臺(tái)和分布式計(jì)算優(yōu)化能力,單個(gè)訓(xùn)練任務(wù)可達(dá)到萬(wàn)卡級(jí)別規(guī)模,千卡規(guī)模的線(xiàn)性擴(kuò)展效率達(dá)92%,為通用大型模型研發(fā)提供穩(wěn)定、高效的支撐。
阿里云林偉演講中
伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)副教授李博指出,大模型時(shí)代,機(jī)器學(xué)習(xí)無(wú)處不在,但是大模型的安全性和可信性問(wèn)題一直是學(xué)術(shù)界和工業(yè)界關(guān)注的重點(diǎn),Amazon、Anthropic、 Google和 OpenAI 等公司曾共同承諾將更加負(fù)責(zé)等對(duì)AI進(jìn)行開(kāi)發(fā);與此同時(shí),大模型因?yàn)閿?shù)據(jù)隱私等方面的問(wèn)題,一旦進(jìn)入物理世界,便會(huì)十分脆弱。為此,他們團(tuán)隊(duì)提供了一個(gè)綜合可信度大模型評(píng)價(jià)平臺(tái)叫「DecodingTrust」,從有害內(nèi)容(toxicity)、刻板偏見(jiàn)(stereotype bias)、對(duì)抗魯棒性(adversarial robustness)等多個(gè)維度對(duì) GPT 模型進(jìn)行了可靠性評(píng)估,旨在評(píng)估不同可信度視角下的 GPT 模型的準(zhǔn)確性,以及其在對(duì)抗性環(huán)境(如對(duì)抗性系統(tǒng)/用戶(hù)提示、示例樣本)中的穩(wěn)健性?!窪ecodingTrust」研究發(fā)現(xiàn),盡管 GPT-4 在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中通常比 GPT-3.5 更可信,但在越獄系統(tǒng)或用戶(hù)提示的情況下更容易受到攻擊,背后原因可能是因?yàn)?GPT-4 更加準(zhǔn)確地遵循(誤導(dǎo)的)指令。李博認(rèn)為,AI 系統(tǒng)的安全性并沒(méi)有單一的解決方案可以解決所有問(wèn)題,需要多方持續(xù)地關(guān)注。
李博遠(yuǎn)程演講中
南洋理工大學(xué)副教授張含望帶來(lái)了以《視覺(jué)識(shí)別中的因果關(guān)系》為主題的演講。他認(rèn)為,對(duì)于當(dāng)前的大模型來(lái)說(shuō),如果想要真正突破一些最底層邏輯上的問(wèn)題,因果關(guān)系(Causality)是一條必經(jīng)之路。
張含望表示,在多模態(tài)模型或大語(yǔ)言模型的研究中,偏差(bias)是常見(jiàn)問(wèn)題。隨著模型規(guī)模的不斷擴(kuò)大,它可能會(huì)越來(lái)越智能,但偏差問(wèn)題依舊存在。這就意味著,若不把因果關(guān)系加上去,大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián)。如果幸運(yùn),模型在回答問(wèn)題時(shí)能夠給出正確答案,否則就會(huì)“胡說(shuō)八道”。這是因?yàn)樗澈蟮年P(guān)聯(lián)本身就是錯(cuò)誤的,把共生關(guān)系當(dāng)成了因果關(guān)系。張含望還更進(jìn)一步地指出,共生不等于因果,經(jīng)常發(fā)生的事情不一定是因果關(guān)系。
對(duì)此,他給出的建議是,做多模態(tài)模型的過(guò)程中,一方面一定要多關(guān)注“等變性”,因?yàn)椤翱刹鸾庑浴笨梢酝ㄟ^(guò)數(shù)據(jù)量堆疊,“等變性”不可以;另一方面,目前,多模態(tài)之間互通的瓶頸在于非語(yǔ)言模態(tài)(例如圖像)的spatial tokens和語(yǔ)言分布差的太遠(yuǎn)。他認(rèn)為,語(yǔ)言的本質(zhì)是可遞歸的符號(hào)系統(tǒng),這也是大語(yǔ)言模型可以推理的基礎(chǔ)。所以,如果想得到真正的多模態(tài)大模型,就必須找到一種“可遞歸,可拆解的”的tokenization的方法,把非語(yǔ)言模態(tài)轉(zhuǎn)成“可遞歸分布”的token。
張含望演講中
嚴(yán)睿在 GAIR 2023 的演講中主要介紹了大模型的發(fā)展歷程,以及大模型所對(duì)應(yīng)的新特性與背后對(duì)應(yīng)的新技術(shù)。此外,介紹了將大模型能力與對(duì)話(huà)式人工智能相結(jié)合的研究點(diǎn),探討了一些現(xiàn)有的技術(shù)發(fā)展路線(xiàn)與可能存在的技術(shù)挑戰(zhàn)。最后介紹了一下人民大學(xué)推出的玉蘭系列大模型,包括RecAgent推薦仿真大模型,能在一定程度上解決數(shù)據(jù)匱乏與冷啟動(dòng)問(wèn)題,也有可能推廣到其他場(chǎng)景。
會(huì)后,嚴(yán)睿與現(xiàn)場(chǎng)觀(guān)眾對(duì)涉及到通用模型在專(zhuān)業(yè)領(lǐng)域應(yīng)用的話(huà)題展開(kāi)討論,嚴(yán)認(rèn)為將開(kāi)源模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域數(shù)據(jù)有一定效果,但研究尚處早期無(wú)確切定論。
嚴(yán)睿演講中
大會(huì)下午第二場(chǎng)進(jìn)入“大模型時(shí)代超級(jí)基建”環(huán)節(jié)。過(guò)去數(shù)年間,AI領(lǐng)域應(yīng)用落地曾一度乏善可陳。但在剛剛過(guò)去的幾個(gè)月,ChatGPT引爆了大模型的浪潮。盡管如此,當(dāng)前的大語(yǔ)言模型的訓(xùn)練然面臨諸多挑戰(zhàn)。基于此,GAIR大會(huì)首日設(shè)置“大模型時(shí)代的超級(jí)基建”,共同探討AI底層基礎(chǔ)設(shè)施相關(guān)話(huà)題。
過(guò)去數(shù)年,AI 模型的參數(shù)發(fā)生了極大變化。新加坡國(guó)立大學(xué)校長(zhǎng)青年教授、潞晨科技創(chuàng)始人尤洋指出,從 2016 年至 2021 年 1 月,AI 模型的參數(shù)量是每 18 個(gè)月增長(zhǎng) 40 倍;從 2018 年 1 月到 2021 年 1 月,AI 模型的參數(shù)量每 18 個(gè)月增長(zhǎng) 340 倍。而相形之下,2016 年 1 月至 2021 年 1 月間,GPU 的計(jì)算增長(zhǎng)速度每 18 個(gè)月僅增長(zhǎng)了 1.7 倍。由此可見(jiàn),訓(xùn)練成本高、周期長(zhǎng),是當(dāng)前大模型發(fā)展最需要克服的難題。
針對(duì)這一問(wèn)題,尤洋提出了 Colossal-AI 系統(tǒng),從高效內(nèi)存系統(tǒng)、N 維并行系統(tǒng)和大規(guī)模優(yōu)化三個(gè)層次出發(fā),以實(shí)現(xiàn)同樣的設(shè)備條件下將數(shù)據(jù)移動(dòng)的最小化,將 GPU 的吞吐量擴(kuò)大至最高點(diǎn)。
尤洋還指出,現(xiàn)階段的模型參數(shù)量以 10 萬(wàn)倍擴(kuò)大、但層數(shù)增加不多,這或意味著:如今的 AI 發(fā)展可能不再是深度學(xué)習(xí)、而是進(jìn)入了寬度學(xué)習(xí)時(shí)代。在模型變得更寬的情況下,面對(duì)大規(guī)模、長(zhǎng)時(shí)間的 GPU 訓(xùn)練任務(wù),大模型訓(xùn)練系統(tǒng)的核心將是如何實(shí)現(xiàn) GPU 并行計(jì)算,以實(shí)現(xiàn)大模型訓(xùn)練越快越省錢(qián)的目標(biāo)。
尤洋演講中
如何用云計(jì)算支撐大模型的發(fā)展?UCloud董事長(zhǎng)兼CEO季昕華分享了以《中立云服務(wù)助力AIGC的發(fā)展》為主題的演講。
季昕華認(rèn)為,判斷一個(gè)大模型能不能做好主要有四個(gè)關(guān)鍵要素:一是資金密度;二是人才密度;三是數(shù)據(jù)密度;四是算力密度。
一家大模型公司如果沒(méi)有一個(gè)億美金,那基本上壓力就會(huì)比較大。因此,大模型被稱(chēng)為是互聯(lián)網(wǎng)的重工業(yè)。除資金以外,大模型的訓(xùn)練需要大量的科學(xué)家人才、數(shù)據(jù)、算力。
而UCloud主要做的就是大模型最下面的基礎(chǔ)設(shè)施。季昕華提到,目前,國(guó)內(nèi)有139家公司在做大模型,其中五六十家都是由UCloud支撐和支持。所以,他們對(duì)整個(gè)模型過(guò)程中的技術(shù)要求非常清楚,也看到了大模型目前發(fā)展階段在技術(shù)上所遇到的挑戰(zhàn),包括功耗、存儲(chǔ)、網(wǎng)絡(luò)等。
季昕華演講中
匯智智能聯(lián)合創(chuàng)始人劉黃驍烈在演講中介紹了當(dāng)前大模型技術(shù)的主要應(yīng)用場(chǎng)景。他表示,目前,大模型技術(shù)應(yīng)用場(chǎng)景可以分成優(yōu)化交互、輔助工作、素材制作三個(gè)方向。他還指出,這三個(gè)方向主要落在輔助用戶(hù),幫助用戶(hù)去提效上,并不能替代人工。
在實(shí)踐過(guò)程中,他發(fā)現(xiàn)對(duì)于沒(méi)有AI專(zhuān)業(yè)背景的用戶(hù)使用大模型,常常會(huì)出現(xiàn)翻車(chē)現(xiàn)象。這種情況下,大模型對(duì)他們工作的提效就是負(fù)的。
在用戶(hù)眼里,現(xiàn)在的大模型就像是一套擁有超能力的鋼鐵盔甲,用戶(hù)期待穿上這套盔甲以后,立馬就能飛起來(lái)、發(fā)射激光炮……但現(xiàn)實(shí)是,現(xiàn)在大多數(shù)用戶(hù)的問(wèn)題是:不知道如何去操作這套擁有超能力的鋼鐵盔甲,以及面對(duì)不同種類(lèi)型的盔甲,應(yīng)該如何選擇?
劉黃驍烈把當(dāng)前用戶(hù)面對(duì)的大模型時(shí)的困境,歸納總結(jié)叫做“GNOMIC困境”,六個(gè)字母分別對(duì)應(yīng)的是 Guide(指導(dǎo))、 Notarize(公正)、Operate(操作)、Measure(衡量)、Identify(區(qū)別)、 Catelog(推介)。
基于以上分析,匯智智能推出如下產(chǎn)品和服務(wù):AIGC開(kāi)源社區(qū)微言大義——解決“GNOMIC困境”的一個(gè)全量的解決方案。通過(guò)智能體的概念把大語(yǔ)言模型封裝成一系列,用戶(hù)能夠更好地感知行業(yè)案例。
劉黃驍烈演講中
Zilliz創(chuàng)始人兼CEO星爵指出,過(guò)去十年,受限于研發(fā)成本和開(kāi)發(fā)難度,全球僅有1%的人專(zhuān)注于AI領(lǐng)域的研發(fā)工作。但如今,有了大模型和向量數(shù)據(jù)庫(kù)作為能力基座,一個(gè)AI 應(yīng)用的開(kāi)發(fā)僅僅需要兩三個(gè)工程師一個(gè)周末的時(shí)間便可完成?!昂鋈缫灰勾猴L(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)。”對(duì)于大模型,星爵如此評(píng)價(jià)道。
此外,星爵還強(qiáng)調(diào)了向量數(shù)據(jù)庫(kù)之于大模型的重要性。他認(rèn)為,向量數(shù)據(jù)庫(kù)承擔(dān)著大模型數(shù)據(jù)片外存儲(chǔ)的重任,不管是圖片、視頻語(yǔ)言還是生物學(xué)中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語(yǔ)義。
針對(duì)數(shù)據(jù)實(shí)時(shí)性和私域?qū)S袛?shù)據(jù)的問(wèn)題,星爵表示,學(xué)術(shù)界和工業(yè)界存在兩種解決方案,一是通過(guò)Fine tuning的方式迭代演進(jìn),讓大模型學(xué)到更多知識(shí);二是通過(guò)Vector search方法,把最新的或私域知識(shí)存到向量數(shù)據(jù)庫(kù)中,需要時(shí)再在向量數(shù)據(jù)庫(kù)中做基于語(yǔ)義的向量檢索。上述兩種方法都能為大模型提供更加精準(zhǔn)的答案。
不過(guò),星爵也坦言,從成本角度出發(fā),向量數(shù)據(jù)庫(kù)的成本是Fine tuning的1/ 1000。所以大模型廠(chǎng)商都無(wú)一例外地推薦開(kāi)發(fā)者使用向量檢索的方式做知識(shí)庫(kù)管理,以便和模型有一個(gè)更好交互,降低落地使用成本的同時(shí),提升在業(yè)務(wù)中的實(shí)際效果。
星爵演講中
在演講過(guò)后的圓桌論壇環(huán)節(jié),云啟資本合伙人陳昱與尤洋、季昕華、星爵三位嘉賓共同討論了當(dāng)下備受關(guān)注的熱門(mén)話(huà)題,包括大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn)、如何降低大模型訓(xùn)練成本等。
針對(duì)大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn):
尤洋認(rèn)為,通信基礎(chǔ)設(shè)施非常重要。比如,英偉達(dá)收購(gòu)Mellanox的目的就是為了打造高速網(wǎng)絡(luò)。過(guò)去,挖礦等一些非AI需求的GPU就沒(méi)有很好的高速互聯(lián)。
季昕華在此前演講中已經(jīng)提到大模型面臨的挑戰(zhàn)。在圓桌環(huán)節(jié),他進(jìn)一步解釋強(qiáng)調(diào),資金方面,大模型的訓(xùn)練需要大量的資金投入;算力方面,現(xiàn)在大部分的公司都沒(méi)有足夠的卡來(lái)做支撐;工程方面,數(shù)據(jù)存儲(chǔ)性能問(wèn)題,以及整個(gè)訓(xùn)練過(guò)程掉卡問(wèn)題,都會(huì)使得整個(gè)訓(xùn)練周期會(huì)變得非常長(zhǎng)。
星爵則強(qiáng)調(diào)了數(shù)據(jù)方面的問(wèn)題。他表示,世界上有 80% 以上的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù)。過(guò)去十多年,非結(jié)構(gòu)化數(shù)據(jù)的管理能力主要由谷歌、微軟等大公司掌握。星爵表示,新AI時(shí)代對(duì)數(shù)據(jù)管理的要求也會(huì)變得更大,如何更好地做好數(shù)據(jù)基建,這對(duì)大家都是很大的挑戰(zhàn)。
針對(duì)業(yè)內(nèi)非常關(guān)心的成本問(wèn)題,幾位嘉賓也都給出了相應(yīng)的觀(guān)點(diǎn)。
尤洋表示,大模型訓(xùn)練的一個(gè)巨大負(fù)擔(dān)是訓(xùn)練計(jì)算量太大。對(duì)此,他給出了三種解決方案:一是不改變硬件條件下試試能否加速收斂;二是,針對(duì)下層軟件,在不改變模型結(jié)果前提下,能否提供更好的基礎(chǔ)設(shè)施;三是能否進(jìn)行模型優(yōu)化。
季昕華表示,優(yōu)刻得主要通過(guò)五個(gè)方面幫助客戶(hù)降低成本。一是降低電費(fèi)。不論做訓(xùn)練還是推理,電費(fèi)大約占總成本的15%左右,優(yōu)刻得烏蘭察布數(shù)據(jù)中心能夠把電費(fèi)單價(jià)從1塊錢(qián)/度降低到3毛錢(qián)/度;二是化購(gòu)買(mǎi)為租用。由于訓(xùn)練一般分階段,因此公司可以選擇租用模式。比起購(gòu)買(mǎi),租用會(huì)極大降低使用者的成本;三是通過(guò)網(wǎng)絡(luò)帶寬和存儲(chǔ)帶寬來(lái)提高使用者的訓(xùn)練效率;四是通過(guò)壓縮模型等手段,來(lái)降低推理成本。畢竟,未來(lái)推理成本可能會(huì)遠(yuǎn)大于訓(xùn)練成本;五是通過(guò)一體機(jī)的模式,即私有部署的模式推進(jìn)私有化大模型。
星爵表示,就降低成本而言,從向量數(shù)據(jù)庫(kù)角度來(lái)看,主要包括三方面:第一,要有更好的算法;第二,要更聰明地利用個(gè)體存儲(chǔ);第三,要比以往有更強(qiáng)的有效利用硬件的能力。
圓桌結(jié)尾,電腦報(bào)創(chuàng)始人陳宗周發(fā)表了總結(jié)感言,他對(duì)各位嘉賓的演講和工作成果都給予了盛贊。陳老師還特別提到,很多講者已經(jīng)把事業(yè)做得非常龐大,但依然非常謙遜,中間更是有不少人是年輕一代的榜樣。
陳宗周致大會(huì)總結(jié)
至此,第七屆GAIR全球人工智能與機(jī)器人大會(huì)首日日程圓滿(mǎn)結(jié)束。8月15日,精彩繼續(xù)!
這個(gè)世界從不缺時(shí)代的注腳,GAIR存在的意義,就是讓AI歷史上的各種機(jī)緣與巧合,交織在一起,碰撞出新的思想與故事。
8月14日-15日,一群涌動(dòng)著探險(xiǎn)家、變革者、英雄血液的創(chuàng)造者,也將讓最前沿、最奇思妙想的大模型技術(shù)突破與商業(yè)試驗(yàn),以空前肆無(wú)忌憚的方式綻放。
這次他們齊聚在新加坡烏節(jié)酒店,為第七屆GAIR全球人工智能與機(jī)器人大會(huì),帶來(lái)最為激蕩的思想碰撞。
雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。