在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

本文作者：我在思考中

2023-08-21 17:06

導(dǎo)語(yǔ)：“曾經(jīng)，他們創(chuàng)造了一個(gè)璀璨的AI時(shí)代，現(xiàn)在，他們要書(shū)寫(xiě)一段更加波瀾壯闊的歷史?！?

2023年8月14日，由GAIR研究院、雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))、世界科技出版社、科特勒咨詢(xún)集團(tuán)聯(lián)合主辦的第七屆GAIR全球人工智能與機(jī)器人大會(huì)，在新加坡烏節(jié)大酒店拉開(kāi)帷幕。

此次大會(huì)是在大模型技術(shù)爆炸時(shí)代，國(guó)內(nèi)首個(gè)出海的AI頂級(jí)論壇，也是中國(guó)人工智能影響力的一次跨境溢出。

之前六屆GAIR大會(huì)留下了眾多精彩、經(jīng)典和令人驚嘆的瞬間，而本屆大會(huì)延續(xù)了之前的高水準(zhǔn)與豪華陣容，共開(kāi)設(shè)10個(gè)主題論壇，聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育，SaaS、web3、跨境電商等熱門(mén)領(lǐng)域的變革創(chuàng)新。

作為國(guó)內(nèi)首個(gè)出海的AI頂會(huì)，在這里，我們將看到微軟最高級(jí)別科學(xué)家離任后的亞洲首秀、Azure AI 核心科學(xué)家談云智一體，92歲現(xiàn)代營(yíng)銷(xiāo)學(xué)之父講述自己眼中的未來(lái)營(yíng)銷(xiāo)，互聯(lián)網(wǎng)巨頭大模型締造者齊聚獅城分享落地法則，十多位院士、頂會(huì)主席大話(huà) AI 3.0，使這一天成為值得反復(fù)品味的一天。

首先，是本次大會(huì)聯(lián)合主席，新加坡工程院院士、新加坡南洋理工大學(xué)陳義明教授登臺(tái)致歡迎辭。陳義明教授簡(jiǎn)單總結(jié)了之前6屆GAIR大會(huì)的歷史，對(duì)到場(chǎng)的嘉賓與觀(guān)眾們的到場(chǎng)表示了歡迎與感謝，并預(yù)祝本次大會(huì)在新加坡圓滿(mǎn)成功舉辦。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

大會(huì)聯(lián)合主席陳義明教授致歡迎辭

在陳義明之后，大會(huì)主席潘毅回顧了AlphaGo、Alphafold到ChatGPT這三個(gè)里程碑對(duì)AI發(fā)展的不同影響，他認(rèn)為以ChatGPT為代表的大模型將AI帶入了生成式的新時(shí)代，過(guò)去人工智能有有三駕馬車(chē)，即大數(shù)據(jù)、優(yōu)算法、強(qiáng)算力；而在大模型時(shí)代，人工智能要落地需要六駕馬車(chē)，除了前面的三駕馬車(chē)之外，另三駕馬車(chē)是賦智能、可解釋、低能耗。在接下來(lái)的“GPT時(shí)代的杰出貢獻(xiàn)者”環(huán)節(jié)，與會(huì)嘉賓將會(huì)分享他們?cè)谶@一領(lǐng)域的研究與實(shí)踐。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

大會(huì)主席潘毅教授致開(kāi)幕辭

GPT時(shí)代的杰出貢獻(xiàn)者：那些關(guān)于GPT的洞見(jiàn)和機(jī)會(huì)

大會(huì)的第一個(gè)環(huán)節(jié)是“GPT時(shí)代的杰出貢獻(xiàn)者”，黃學(xué)東、周伯文、何曉冬等一眾科學(xué)家陸續(xù)登場(chǎng)。他們不僅是人工智能從低谷邁向高峰的見(jiàn)證者，更是親身參與者。這一批見(jiàn)證過(guò)人工智能從低谷到高峰的科學(xué)家，他們走過(guò)灰暗但勇敢的年代，在GPT與大模型風(fēng)潮興起之前，他們就已經(jīng)開(kāi)展了相關(guān)的前沿探索。

如今，新的故事熱鬧開(kāi)席，站在人工智能未知之域的門(mén)口，龐大、多元、復(fù)雜的大模型時(shí)代，這些科學(xué)家不僅是人工智能的前沿探索者，還是大模型與GPT時(shí)代的技術(shù)創(chuàng)新者與弄潮兒。曾經(jīng)，他們創(chuàng)造了一個(gè)璀璨的AI時(shí)代，現(xiàn)在，他們要書(shū)寫(xiě)一段更加波瀾壯闊的歷史，在GAIR大會(huì)上講述他們的洞見(jiàn)和眼中的新機(jī)會(huì)。

第一位演講嘉賓是 Zoom CTO 黃學(xué)東。黃學(xué)東是美國(guó)國(guó)家工程院、美國(guó)藝術(shù)與科學(xué)院院士，IEEE/ACM Fellow。他指出，移動(dòng)電話(huà)、互聯(lián)網(wǎng)與 Facebook 分別用了 16 年、7 年與 4 年半才達(dá)到 1 個(gè)億的用戶(hù)量，但 ChatGPT 只用了 3 個(gè)月，由此可見(jiàn)其革命性。

如今，中國(guó)的大模型呈現(xiàn)「百模大戰(zhàn)」的局面，這無(wú)疑反映了科技圈對(duì) AI 的敏銳與激情。但在黃學(xué)東看來(lái)，AI 在工業(yè)界的落地應(yīng)用應(yīng)考慮「集成式 AI」的實(shí)踐與可能。古語(yǔ)有云，「三個(gè)臭皮匠頂個(gè)諸葛亮」。黃學(xué)東表示，這一思想在 AI 商業(yè)化落地中也有其用武之地。這也是黃學(xué)東離開(kāi)其工作 30 年的老東家微軟、轉(zhuǎn)而加入 Zoom 的原因之一。

現(xiàn)在大模型發(fā)展存在百花齊放的局面，即參與者往往過(guò)分高估自家成果，而沒(méi)有面向外界進(jìn)行合理的整合。例如，此前，微軟內(nèi)部的各項(xiàng) AI 模型如語(yǔ)音、計(jì)算機(jī)視覺(jué)、翻譯等功能都十分強(qiáng)大，但沒(méi)有像 OpenAI 一樣整合出一套統(tǒng)一的基礎(chǔ)模型ChatGPT。作為一家應(yīng)用型產(chǎn)品企業(yè)，Zoom 注重 AI 模型的集成與融通，用新一代聯(lián)邦學(xué)習(xí)融合了 OpenAI、Anthropic、Meta 等等多家模型的功能接口，由此完成比原有模型更好更強(qiáng)大的用戶(hù)服務(wù)。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

Zoom CTO 黃學(xué)東發(fā)表演講

在與潘毅院士的對(duì)話(huà)中，潘毅院士問(wèn)及「未來(lái)人工智能將泛化出怎樣的能力，是否可以擁有像人類(lèi)軍事家一樣的指揮能力」，黃學(xué)東院士則認(rèn)為，人們常常高估技術(shù)的短期效力，而低估其長(zhǎng)期影響——瓦特在發(fā)明蒸汽機(jī)，麥克斯韋建立電磁理論時(shí)，都沒(méi)有想到會(huì)對(duì)未來(lái)產(chǎn)生如此大的效應(yīng)，今天大模型的發(fā)展也是如此，我們暫時(shí)只能看到短期影響，而大模型對(duì)于人類(lèi)的影響可能會(huì)深遠(yuǎn)，而在那時(shí)候，一切皆有可能。

“以大模型為中心，多模態(tài)聯(lián)合發(fā)展的技術(shù)趨勢(shì)在未來(lái)兩年將會(huì)成為現(xiàn)實(shí)，GPT的出現(xiàn)并非一個(gè)偶然事件，而是一個(gè)歷史必然。在當(dāng)下，我們都應(yīng)該注重三個(gè)臭皮匠的聯(lián)合融合能力，這樣才能贏過(guò)更多的諸葛亮為人工智能應(yīng)用落地做貢獻(xiàn)?！秉S學(xué)東院士答道。

潘毅對(duì)話(huà)黃學(xué)東

圍繞大模型的討論在繼續(xù)。繼黃學(xué)東介紹完「what we are now」后，清華大學(xué)周伯文接著介紹大模型在復(fù)雜場(chǎng)景中的應(yīng)用。周伯文是清華大學(xué)惠妍講席教授、電子工程系長(zhǎng)聘教授，銜遠(yuǎn)科技創(chuàng)始人，IEEE/CAAI Fellow。

Tools for AI or AI for Tools ？在 GAIR 2023 的演講中，周伯文提出這一哲學(xué)問(wèn)題。今天 AI 已經(jīng)體現(xiàn)出掌握人類(lèi)語(yǔ)言的能力，下一步，如要復(fù)現(xiàn)人類(lèi)智能，周伯文認(rèn)為 AI 應(yīng)學(xué)習(xí)如何系統(tǒng)地使用工具。以 AI 為中心、工具的存在是為了讓 AI 更好，亦或以工具為中心、讓 AI 圍繞工具工作，這背后實(shí)則是人類(lèi)對(duì)于 AI 與自身關(guān)系誰(shuí)占主導(dǎo)的選擇。而人與 AI 的關(guān)系走向何方，最終將取決于 AI 技術(shù)金字塔尖的引領(lǐng)者對(duì)這一問(wèn)題的博弈思考。

AI 能否復(fù)現(xiàn)人類(lèi)智能、學(xué)會(huì)語(yǔ)言與工具的結(jié)合？周伯文在報(bào)告中介紹了一個(gè)融合語(yǔ)言與工具智能的一個(gè)通用學(xué)習(xí)框架。他認(rèn)為，在這個(gè)框架下基礎(chǔ)模型（Foundation Models）可以為融合語(yǔ)言與工具的智能方向提供一個(gè)確定的答案，并提出了三個(gè)基礎(chǔ)研究方向：更通用的意圖理解、異構(gòu)與多源的工具表征學(xué)習(xí)、多步規(guī)劃與推理。周伯文教授指出，這樣的基礎(chǔ)模型與只聚焦于語(yǔ)言的ChatGPT 在模型、任務(wù)、能力、架構(gòu)是需要很大提升的，對(duì)于年輕學(xué)者，這會(huì)是一個(gè)非常重大的研究機(jī)會(huì)。

周伯文發(fā)表演講

需要注意的是，將大模型的能力遷移到產(chǎn)業(yè)應(yīng)用中，將不可避免地遇到更低頻、長(zhǎng)尾的復(fù)雜場(chǎng)景和大規(guī)模協(xié)同需求。對(duì)此，京東探索研究院院長(zhǎng)、京東科技智能服務(wù)與產(chǎn)品部總裁、IEEE Fellow 何曉冬指出，應(yīng)用于產(chǎn)業(yè)的大模型必須具備產(chǎn)業(yè)原生、價(jià)值驅(qū)動(dòng)、開(kāi)放協(xié)同三大特性。

當(dāng)大模型具備專(zhuān)業(yè)知識(shí)網(wǎng)絡(luò)構(gòu)建、邏輯判斷與推理等能力后，落地的門(mén)檻高度就會(huì)降低。何曉冬在 GAIR 2023 的現(xiàn)場(chǎng)提出了「多模態(tài) x 多行業(yè)」的路線(xiàn)。如果將大模型比喻為一位已經(jīng)完成通識(shí)教育的「高中生」，那么大模型「畢業(yè)」、走向社會(huì)則必須與產(chǎn)業(yè)深度融合，通過(guò)多模態(tài)方式對(duì)不同產(chǎn)業(yè)、行業(yè)進(jìn)行知識(shí)融合、知識(shí)獲取，學(xué)習(xí)如何「學(xué)以致用」，并現(xiàn)場(chǎng)演示了多個(gè)在具體場(chǎng)景中如何「學(xué)以致用」的例子。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

何曉冬在演講中

在人工智能與機(jī)器人研究國(guó)際期刊（IJAIRR）成立儀式環(huán)節(jié)，IJAIRR的三位主編，新加坡GAIR研究院創(chuàng)始人朱曉蕊博士、美國(guó)密蘇里大學(xué)哥倫比亞分校系統(tǒng)董事會(huì)杰出教授許東博士、美國(guó)南佛羅里達(dá)大學(xué)計(jì)算機(jī)科學(xué)與工程系教授孫宇博士及世界科技出版社總經(jīng)理李志偉博士共同上臺(tái)為IJAIRR期刊發(fā)布揭幕。IJAIRR由新加坡GAIR研究院與世界科技合作出版，是全球人工智能與機(jī)器人領(lǐng)域第一本致力于推廣DeSci(去中心化科學(xué))的學(xué)術(shù)期刊。新的學(xué)術(shù)出版模式將會(huì)激勵(lì)科學(xué)家在分享研究成果的同時(shí)獲得相應(yīng)的經(jīng)濟(jì)收益，并允許更多受眾通過(guò)閱讀的方式進(jìn)一步促進(jìn)科學(xué)研究工作的開(kāi)展，從而形成全新的科學(xué)生態(tài)模式。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

人工智能與機(jī)器人研究國(guó)際期刊（IJAIRR）成立儀式

過(guò)去半年，大模型創(chuàng)業(yè)公司和投資人們經(jīng)歷了過(guò)山車(chē)般的起伏。對(duì)企業(yè)和消費(fèi)者而言，AI 意味著更好的決策、更好的行動(dòng)、更好的結(jié)果以及更好的體驗(yàn)。但硅谷先鋒投資人 Alex Ren 指出，過(guò)去幾年，AI 的技術(shù)落地在盈利上未如預(yù)期。

Alex Ren 認(rèn)為，當(dāng)前 AI 大模型的投資可以從四個(gè)維度出發(fā)：一是生產(chǎn)力的釋放，即 AI 驅(qū)動(dòng)的工具自動(dòng)執(zhí)行任務(wù)并提供輸出；二是對(duì)產(chǎn)業(yè)的改變，即使用人工智能優(yōu)化流程以提高效率、降低成本并改善結(jié)果；三是 AI 中間層，指 AI 中間層連接 LLM 以構(gòu)建可擴(kuò)展和定制的 AI 應(yīng)用程序；四是 AI Agent（AI 智能體），由 AI 代替人與機(jī)器進(jìn)行互動(dòng)并學(xué)習(xí)。

在與華映資本海外合伙人邱諄的對(duì)話(huà)環(huán)節(jié)中，二人還就 AI 如何顛覆社交媒體內(nèi)容生產(chǎn)方式、初創(chuàng)公司的商業(yè)化路徑等問(wèn)題進(jìn)行了探討。

Alex Ren 指出，初創(chuàng)公司在同大廠(chǎng)競(jìng)爭(zhēng)中要明確自身的局限性，從客戶(hù)的需求側(cè)入手提高 AI 自身的快速迭代能力。邱諄也補(bǔ)充介紹了中美大模型創(chuàng)業(yè)公司的差異，他指出，國(guó)內(nèi)企業(yè)聚焦 AI 如何解決用戶(hù)痛點(diǎn)和產(chǎn)品趨勢(shì)，但硅谷公司則更強(qiáng)調(diào)后續(xù)產(chǎn)品的增長(zhǎng)引擎。

Alex Ren對(duì)話(huà)邱諄

隨著大模型參數(shù)的指數(shù)級(jí)增加，如何高效訓(xùn)練模型成為大模型開(kāi)發(fā)的重中之重。阿里云計(jì)算平臺(tái)首席架構(gòu)師林偉在 GAIR 2023 的演講中提出，今天 AI 工程面臨非常多挑戰(zhàn)。硬件復(fù)雜度高，芯片每半年更新一次；集群復(fù)雜，高投入未必能帶來(lái)高性能；分布式任務(wù)配置復(fù)雜；每一個(gè)問(wèn)題都會(huì)大量分散算法工程師在模型訓(xùn)練上的精力。

林偉介紹了阿里云 PAI 靈駿智算平臺(tái)的基礎(chǔ)架構(gòu)。在算力底座層面，靈駿智算集群通過(guò)自研高性能網(wǎng)絡(luò)、高性能存儲(chǔ)、異構(gòu)資源池化、數(shù)據(jù)加載加速等優(yōu)化技術(shù)，可實(shí)現(xiàn)端到端1.5微秒超低系統(tǒng)通信時(shí)延，通信效率17%優(yōu)化，異構(gòu)資源利用率3倍提升。在工程平臺(tái)層，PAI靈駿智算服務(wù)提供覆蓋AI開(kāi)發(fā)全流程的平臺(tái)和分布式計(jì)算優(yōu)化能力，單個(gè)訓(xùn)練任務(wù)可達(dá)到萬(wàn)卡級(jí)別規(guī)模，千卡規(guī)模的線(xiàn)性擴(kuò)展效率達(dá)92%，為通用大型模型研發(fā)提供穩(wěn)定、高效的支撐。

阿里云林偉演講中

林偉認(rèn)為，MaaS 推動(dòng)各行各業(yè)建模型社區(qū)的同時(shí)，模型社區(qū)也會(huì)反哺行業(yè)，構(gòu)建更多 AI 應(yīng)用，因此構(gòu)建好的模型與模型社區(qū)，對(duì)行業(yè)至關(guān)重要，而 AI 的工程化與規(guī)?；矔?huì)成為這波 AI 爆發(fā)的主要推動(dòng)力。

青年科學(xué)家論壇：探索未知，鼓勵(lì)交叉研究合作

大會(huì)下午的第一場(chǎng)，進(jìn)入了備受期待的“青年科學(xué)論壇家”環(huán)節(jié)?；厥兹斯ぶ悄芗捌浠A(chǔ)理論的發(fā)展，青年科學(xué)家一直占據(jù)著重要的地位；在大模型“跑步進(jìn)場(chǎng)”的創(chuàng)新進(jìn)程中，青年科學(xué)家同樣占據(jù)了重要的角色。為此，GAIR大會(huì)首日設(shè)置“青年科學(xué)家論壇”，為青年科學(xué)家的學(xué)術(shù)研究提供一個(gè)跨界交流的平臺(tái)，營(yíng)造探索未知的學(xué)術(shù)氛圍，鼓勵(lì)青年科學(xué)家之間的交叉研究合作。

伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）副教授李博指出，大模型時(shí)代，機(jī)器學(xué)習(xí)無(wú)處不在，但是大模型的安全性和可信性問(wèn)題一直是學(xué)術(shù)界和工業(yè)界關(guān)注的重點(diǎn)，Amazon、Anthropic、 Google和 OpenAI 等公司曾共同承諾將更加負(fù)責(zé)等對(duì)AI進(jìn)行開(kāi)發(fā)；與此同時(shí)，大模型因?yàn)閿?shù)據(jù)隱私等方面的問(wèn)題，一旦進(jìn)入物理世界，便會(huì)十分脆弱。為此，他們團(tuán)隊(duì)提供了一個(gè)綜合可信度大模型評(píng)價(jià)平臺(tái)叫「DecodingTrust」，從有害內(nèi)容（toxicity）、刻板偏見(jiàn)（stereotype bias）、對(duì)抗魯棒性（adversarial robustness）等多個(gè)維度對(duì) GPT 模型進(jìn)行了可靠性評(píng)估，旨在評(píng)估不同可信度視角下的 GPT 模型的準(zhǔn)確性，以及其在對(duì)抗性環(huán)境（如對(duì)抗性系統(tǒng)/用戶(hù)提示、示例樣本）中的穩(wěn)健性?！窪ecodingTrust」研究發(fā)現(xiàn)，盡管 GPT-4 在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中通常比 GPT-3.5 更可信，但在越獄系統(tǒng)或用戶(hù)提示的情況下更容易受到攻擊，背后原因可能是因?yàn)?GPT-4 更加準(zhǔn)確地遵循（誤導(dǎo)的）指令。李博認(rèn)為，AI 系統(tǒng)的安全性并沒(méi)有單一的解決方案可以解決所有問(wèn)題，需要多方持續(xù)地關(guān)注。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻

李博遠(yuǎn)程演講中

南洋理工大學(xué)副教授張含望帶來(lái)了以《視覺(jué)識(shí)別中的因果關(guān)系》為主題的演講。他認(rèn)為，對(duì)于當(dāng)前的大模型來(lái)說(shuō)，如果想要真正突破一些最底層邏輯上的問(wèn)題，因果關(guān)系（Causality）是一條必經(jīng)之路。

張含望表示，在多模態(tài)模型或大語(yǔ)言模型的研究中，偏差（bias）是常見(jiàn)問(wèn)題。隨著模型規(guī)模的不斷擴(kuò)大，它可能會(huì)越來(lái)越智能，但偏差問(wèn)題依舊存在。這就意味著，若不把因果關(guān)系加上去，大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián)。如果幸運(yùn)，模型在回答問(wèn)題時(shí)能夠給出正確答案，否則就會(huì)“胡說(shuō)八道”。這是因?yàn)樗澈蟮年P(guān)聯(lián)本身就是錯(cuò)誤的，把共生關(guān)系當(dāng)成了因果關(guān)系。張含望還更進(jìn)一步地指出，共生不等于因果，經(jīng)常發(fā)生的事情不一定是因果關(guān)系。

對(duì)此，他給出的建議是，做多模態(tài)模型的過(guò)程中，一方面一定要多關(guān)注“等變性”，因?yàn)椤翱刹鸾庑浴笨梢酝ㄟ^(guò)數(shù)據(jù)量堆疊，“等變性”不可以；另一方面，目前，多模態(tài)之間互通的瓶頸在于非語(yǔ)言模態(tài)（例如圖像）的spatial tokens和語(yǔ)言分布差的太遠(yuǎn)。他認(rèn)為，語(yǔ)言的本質(zhì)是可遞歸的符號(hào)系統(tǒng)，這也是大語(yǔ)言模型可以推理的基礎(chǔ)。所以，如果想得到真正的多模態(tài)大模型，就必須找到一種“可遞歸，可拆解的”的tokenization的方法，把非語(yǔ)言模態(tài)轉(zhuǎn)成“可遞歸分布”的token。

張含望演講中

嚴(yán)睿在 GAIR 2023 的演講中主要介紹了大模型的發(fā)展歷程，以及大模型所對(duì)應(yīng)的新特性與背后對(duì)應(yīng)的新技術(shù)。此外，介紹了將大模型能力與對(duì)話(huà)式人工智能相結(jié)合的研究點(diǎn)，探討了一些現(xiàn)有的技術(shù)發(fā)展路線(xiàn)與可能存在的技術(shù)挑戰(zhàn)。最后介紹了一下人民大學(xué)推出的玉蘭系列大模型，包括RecAgent推薦仿真大模型，能在一定程度上解決數(shù)據(jù)匱乏與冷啟動(dòng)問(wèn)題，也有可能推廣到其他場(chǎng)景。

會(huì)后，嚴(yán)睿與現(xiàn)場(chǎng)觀(guān)眾對(duì)涉及到通用模型在專(zhuān)業(yè)領(lǐng)域應(yīng)用的話(huà)題展開(kāi)討論，嚴(yán)認(rèn)為將開(kāi)源模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域數(shù)據(jù)有一定效果，但研究尚處早期無(wú)確切定論。

嚴(yán)睿演講中

大模型時(shí)代的超級(jí)基建：降低成本和門(mén)檻，讓新科技革命發(fā)生

大會(huì)下午第二場(chǎng)進(jìn)入“大模型時(shí)代超級(jí)基建”環(huán)節(jié)。過(guò)去數(shù)年間，AI領(lǐng)域應(yīng)用落地曾一度乏善可陳。但在剛剛過(guò)去的幾個(gè)月，ChatGPT引爆了大模型的浪潮。盡管如此，當(dāng)前的大語(yǔ)言模型的訓(xùn)練然面臨諸多挑戰(zhàn)。基于此，GAIR大會(huì)首日設(shè)置“大模型時(shí)代的超級(jí)基建”，共同探討AI底層基礎(chǔ)設(shè)施相關(guān)話(huà)題。

過(guò)去數(shù)年，AI 模型的參數(shù)發(fā)生了極大變化。新加坡國(guó)立大學(xué)校長(zhǎng)青年教授、潞晨科技創(chuàng)始人尤洋指出，從 2016 年至 2021 年 1 月，AI 模型的參數(shù)量是每 18 個(gè)月增長(zhǎng) 40 倍；從 2018 年 1 月到 2021 年 1 月，AI 模型的參數(shù)量每 18 個(gè)月增長(zhǎng) 340 倍。而相形之下，2016 年 1 月至 2021 年 1 月間，GPU 的計(jì)算增長(zhǎng)速度每 18 個(gè)月僅增長(zhǎng)了 1.7 倍。由此可見(jiàn)，訓(xùn)練成本高、周期長(zhǎng)，是當(dāng)前大模型發(fā)展最需要克服的難題。

針對(duì)這一問(wèn)題，尤洋提出了 Colossal-AI 系統(tǒng)，從高效內(nèi)存系統(tǒng)、N 維并行系統(tǒng)和大規(guī)模優(yōu)化三個(gè)層次出發(fā)，以實(shí)現(xiàn)同樣的設(shè)備條件下將數(shù)據(jù)移動(dòng)的最小化，將 GPU 的吞吐量擴(kuò)大至最高點(diǎn)。

尤洋還指出，現(xiàn)階段的模型參數(shù)量以 10 萬(wàn)倍擴(kuò)大、但層數(shù)增加不多，這或意味著：如今的 AI 發(fā)展可能不再是深度學(xué)習(xí)、而是進(jìn)入了寬度學(xué)習(xí)時(shí)代。在模型變得更寬的情況下，面對(duì)大規(guī)模、長(zhǎng)時(shí)間的 GPU 訓(xùn)練任務(wù)，大模型訓(xùn)練系統(tǒng)的核心將是如何實(shí)現(xiàn) GPU 并行計(jì)算，以實(shí)現(xiàn)大模型訓(xùn)練越快越省錢(qián)的目標(biāo)。

尤洋演講中

如何用云計(jì)算支撐大模型的發(fā)展？UCloud董事長(zhǎng)兼CEO季昕華分享了以《中立云服務(wù)助力AIGC的發(fā)展》為主題的演講。

季昕華認(rèn)為，判斷一個(gè)大模型能不能做好主要有四個(gè)關(guān)鍵要素：一是資金密度；二是人才密度；三是數(shù)據(jù)密度；四是算力密度。

一家大模型公司如果沒(méi)有一個(gè)億美金，那基本上壓力就會(huì)比較大。因此，大模型被稱(chēng)為是互聯(lián)網(wǎng)的重工業(yè)。除資金以外，大模型的訓(xùn)練需要大量的科學(xué)家人才、數(shù)據(jù)、算力。

而UCloud主要做的就是大模型最下面的基礎(chǔ)設(shè)施。季昕華提到，目前，國(guó)內(nèi)有139家公司在做大模型，其中五六十家都是由UCloud支撐和支持。所以，他們對(duì)整個(gè)模型過(guò)程中的技術(shù)要求非常清楚，也看到了大模型目前發(fā)展階段在技術(shù)上所遇到的挑戰(zhàn)，包括功耗、存儲(chǔ)、網(wǎng)絡(luò)等。

季昕華演講中

匯智智能聯(lián)合創(chuàng)始人劉黃驍烈在演講中介紹了當(dāng)前大模型技術(shù)的主要應(yīng)用場(chǎng)景。他表示，目前，大模型技術(shù)應(yīng)用場(chǎng)景可以分成優(yōu)化交互、輔助工作、素材制作三個(gè)方向。他還指出，這三個(gè)方向主要落在輔助用戶(hù)，幫助用戶(hù)去提效上，并不能替代人工。

在實(shí)踐過(guò)程中，他發(fā)現(xiàn)對(duì)于沒(méi)有AI專(zhuān)業(yè)背景的用戶(hù)使用大模型，常常會(huì)出現(xiàn)翻車(chē)現(xiàn)象。這種情況下，大模型對(duì)他們工作的提效就是負(fù)的。

在用戶(hù)眼里，現(xiàn)在的大模型就像是一套擁有超能力的鋼鐵盔甲，用戶(hù)期待穿上這套盔甲以后，立馬就能飛起來(lái)、發(fā)射激光炮……但現(xiàn)實(shí)是，現(xiàn)在大多數(shù)用戶(hù)的問(wèn)題是：不知道如何去操作這套擁有超能力的鋼鐵盔甲，以及面對(duì)不同種類(lèi)型的盔甲，應(yīng)該如何選擇？

劉黃驍烈把當(dāng)前用戶(hù)面對(duì)的大模型時(shí)的困境，歸納總結(jié)叫做“GNOMIC困境”，六個(gè)字母分別對(duì)應(yīng)的是 Guide（指導(dǎo)）、 Notarize（公正）、Operate（操作）、Measure（衡量）、Identify（區(qū)別）、 Catelog（推介）。

基于以上分析，匯智智能推出如下產(chǎn)品和服務(wù)：AIGC開(kāi)源社區(qū)微言大義——解決“GNOMIC困境”的一個(gè)全量的解決方案。通過(guò)智能體的概念把大語(yǔ)言模型封裝成一系列，用戶(hù)能夠更好地感知行業(yè)案例。

劉黃驍烈演講中

Zilliz創(chuàng)始人兼CEO星爵指出，過(guò)去十年，受限于研發(fā)成本和開(kāi)發(fā)難度，全球僅有1%的人專(zhuān)注于AI領(lǐng)域的研發(fā)工作。但如今，有了大模型和向量數(shù)據(jù)庫(kù)作為能力基座，一個(gè)AI 應(yīng)用的開(kāi)發(fā)僅僅需要兩三個(gè)工程師一個(gè)周末的時(shí)間便可完成?！昂鋈缫灰勾猴L(fēng)來(lái)，千樹(shù)萬(wàn)樹(shù)梨花開(kāi)。”對(duì)于大模型，星爵如此評(píng)價(jià)道。

此外，星爵還強(qiáng)調(diào)了向量數(shù)據(jù)庫(kù)之于大模型的重要性。他認(rèn)為，向量數(shù)據(jù)庫(kù)承擔(dān)著大模型數(shù)據(jù)片外存儲(chǔ)的重任，不管是圖片、視頻語(yǔ)言還是生物學(xué)中蛋白質(zhì)的三維結(jié)構(gòu)，都可以用向量的方式表征它的語(yǔ)義。

針對(duì)數(shù)據(jù)實(shí)時(shí)性和私域?qū)Ｓ袛?shù)據(jù)的問(wèn)題，星爵表示，學(xué)術(shù)界和工業(yè)界存在兩種解決方案，一是通過(guò)Fine tuning的方式迭代演進(jìn)，讓大模型學(xué)到更多知識(shí)；二是通過(guò)Vector search方法，把最新的或私域知識(shí)存到向量數(shù)據(jù)庫(kù)中，需要時(shí)再在向量數(shù)據(jù)庫(kù)中做基于語(yǔ)義的向量檢索。上述兩種方法都能為大模型提供更加精準(zhǔn)的答案。

不過(guò)，星爵也坦言，從成本角度出發(fā)，向量數(shù)據(jù)庫(kù)的成本是Fine tuning的1/ 1000。所以大模型廠(chǎng)商都無(wú)一例外地推薦開(kāi)發(fā)者使用向量檢索的方式做知識(shí)庫(kù)管理，以便和模型有一個(gè)更好交互，降低落地使用成本的同時(shí)，提升在業(yè)務(wù)中的實(shí)際效果。

星爵演講中

在演講過(guò)后的圓桌論壇環(huán)節(jié)，云啟資本合伙人陳昱與尤洋、季昕華、星爵三位嘉賓共同討論了當(dāng)下備受關(guān)注的熱門(mén)話(huà)題，包括大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn)、如何降低大模型訓(xùn)練成本等。

針對(duì)大模型基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn)：

尤洋認(rèn)為，通信基礎(chǔ)設(shè)施非常重要。比如，英偉達(dá)收購(gòu)Mellanox的目的就是為了打造高速網(wǎng)絡(luò)。過(guò)去，挖礦等一些非AI需求的GPU就沒(méi)有很好的高速互聯(lián)。

季昕華在此前演講中已經(jīng)提到大模型面臨的挑戰(zhàn)。在圓桌環(huán)節(jié)，他進(jìn)一步解釋強(qiáng)調(diào)，資金方面，大模型的訓(xùn)練需要大量的資金投入；算力方面，現(xiàn)在大部分的公司都沒(méi)有足夠的卡來(lái)做支撐；工程方面，數(shù)據(jù)存儲(chǔ)性能問(wèn)題，以及整個(gè)訓(xùn)練過(guò)程掉卡問(wèn)題，都會(huì)使得整個(gè)訓(xùn)練周期會(huì)變得非常長(zhǎng)。

星爵則強(qiáng)調(diào)了數(shù)據(jù)方面的問(wèn)題。他表示，世界上有 80% 以上的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù)。過(guò)去十多年，非結(jié)構(gòu)化數(shù)據(jù)的管理能力主要由谷歌、微軟等大公司掌握。星爵表示，新AI時(shí)代對(duì)數(shù)據(jù)管理的要求也會(huì)變得更大，如何更好地做好數(shù)據(jù)基建，這對(duì)大家都是很大的挑戰(zhàn)。

針對(duì)業(yè)內(nèi)非常關(guān)心的成本問(wèn)題，幾位嘉賓也都給出了相應(yīng)的觀(guān)點(diǎn)。

尤洋表示，大模型訓(xùn)練的一個(gè)巨大負(fù)擔(dān)是訓(xùn)練計(jì)算量太大。對(duì)此，他給出了三種解決方案：一是不改變硬件條件下試試能否加速收斂；二是，針對(duì)下層軟件，在不改變模型結(jié)果前提下，能否提供更好的基礎(chǔ)設(shè)施；三是能否進(jìn)行模型優(yōu)化。

季昕華表示，優(yōu)刻得主要通過(guò)五個(gè)方面幫助客戶(hù)降低成本。一是降低電費(fèi)。不論做訓(xùn)練還是推理，電費(fèi)大約占總成本的15%左右，優(yōu)刻得烏蘭察布數(shù)據(jù)中心能夠把電費(fèi)單價(jià)從1塊錢(qián)/度降低到3毛錢(qián)/度；二是化購(gòu)買(mǎi)為租用。由于訓(xùn)練一般分階段，因此公司可以選擇租用模式。比起購(gòu)買(mǎi)，租用會(huì)極大降低使用者的成本；三是通過(guò)網(wǎng)絡(luò)帶寬和存儲(chǔ)帶寬來(lái)提高使用者的訓(xùn)練效率；四是通過(guò)壓縮模型等手段，來(lái)降低推理成本。畢竟，未來(lái)推理成本可能會(huì)遠(yuǎn)大于訓(xùn)練成本；五是通過(guò)一體機(jī)的模式，即私有部署的模式推進(jìn)私有化大模型。

星爵表示，就降低成本而言，從向量數(shù)據(jù)庫(kù)角度來(lái)看，主要包括三方面：第一，要有更好的算法；第二，要更聰明地利用個(gè)體存儲(chǔ)；第三，要比以往有更強(qiáng)的有效利用硬件的能力。

在新加坡，大模型在GAIR 2023上迎來(lái)高光時(shí)刻