0
作者丨何思思
編輯丨陳彩嫻
今年 8 月,在雷峰網(wǎng)于新加坡舉辦的 GAIR 大會主論壇上,前微軟全球技術(shù)院士、美國雙院院士黃學(xué)東用一句中國古語提出了他對大模型的發(fā)展理論預(yù)測:
當(dāng)時,國內(nèi)大模型研發(fā)的主流趨勢是一家自研一個基座大模型,正進(jìn)入如火如荼的「百模大戰(zhàn)」中,而黃學(xué)東院士的觀點則反其道而行之,認(rèn)為將所有雞蛋放在一個籃子里太危險,應(yīng)該將四五家大模型的能力進(jìn)行整合,每個大模型都有各自的應(yīng)用場景。
用一個專業(yè)詞匯來概括,離開微軟、加入 Zoom 擔(dān)任 CTO 后,黃學(xué)東在 Zoom 內(nèi)部推崇的大模型研發(fā)路線是「聯(lián)邦大模型」——將 OpenAI、Anthropic AI、谷歌、Meta 等等科技巨頭的大語言模型集合在一起,形成 Zoom 的 AI 底座,由此以更低的成本、實現(xiàn)更好的效果。
近日,黃學(xué)東團(tuán)隊經(jīng)過一系列的研究與實驗,驗證了 8 月對「聯(lián)邦大模型」的路線設(shè)想,取得重大突破:Zoom 的 AI 技術(shù)團(tuán)隊以不到 GPT-4 6% 的成本將多個知名大模型進(jìn)行整合,訓(xùn)練出來的聯(lián)邦大模型在會議場景的性能上達(dá)到了 GPT-4-32k 的效果。
在算力層面,聯(lián)邦大模型用小于 10% 的計算資源可以達(dá)到 GPT-4在 Zoom 應(yīng)用場景中 99% 的性能、并大大超越GPT-4的反應(yīng)速度。
相比國內(nèi)外追求單一最優(yōu)的基座大模型廠商,雖然它們在技術(shù)研究上也取得不錯突破,在單一模態(tài)、部分任務(wù)上能實現(xiàn)最優(yōu),但整體能力仍然偏弱,距離 GPT-4 有很大差距。
究其原因,是因為大部分的廠商在同時兼顧效果與成本上分身乏術(shù),要么沒有足夠的財力,要么沒有足夠的能力。而由于對自研文化的極致推崇,原本優(yōu)勢集中在應(yīng)用場景上的玩家也更傾向于通過自己的力量將模型做大做強(qiáng),缺少向外學(xué)習(xí)、取長補(bǔ)短的意識。
在重復(fù)造輪子現(xiàn)象嚴(yán)重的當(dāng)下,Zoom 所提出的「聯(lián)邦大模型」具有啟示意義。
什么是聯(lián)邦大模型?
大模型時代的力量被分為三層,一層是底層算力,中間層是算法創(chuàng)新,最上層是模型應(yīng)用。Zoom 雖自建大模型團(tuán)隊,但并不是一個賣算法的廠商。相比算法研發(fā),擁有明確的落地場景(如視頻會議)、廣大垂直行業(yè)用戶的 Zoom 更偏向于應(yīng)用。
與大多數(shù)側(cè)重應(yīng)用的廠商一樣,Zoom 對大模型的訴求也主要體現(xiàn)在性價比上——用最低廉的價格實現(xiàn)最強(qiáng)的模型能力,從而為用戶提供最優(yōu)質(zhì)的服務(wù),提高用戶滿意度。例如,提高視頻會議的溝通效率,增強(qiáng)會議的自動文本總結(jié)功能,自動生成會議草稿與會議問答等。為此,Zoom 選擇聯(lián)邦大模型的路線更具優(yōu)勢。
據(jù) AI 科技評論獨家對話 Zoom 團(tuán)隊,過去半年,他們基于聯(lián)邦大模型在落地上取得了飛速進(jìn)步,主要體現(xiàn)在三方面:
其一,AI落地方法的改進(jìn)。
與其他 AI 應(yīng)用改造不同的是,Zoom 采用了聯(lián)合AI 的方法,其也是 Zoom 創(chuàng)新的基石。據(jù)悉,目前 Zoom 已經(jīng)接入了多個模型,其中包括 Zoom 自研的 LLM、第三方模型 GPT-3.5 和 GPT-4,以及 Anthropic AI 的 Claude 2 等大模型。
想接入的模型并不局限于上述,而是在以開放的心態(tài)擁抱各類 LLM,不僅可以整合最新的 LLM,比如 OpenAI 的 GPT-4甚至是未來的GPT-5等,還可以將開源或者閉源 LLM 融入其中,共同為提升客戶在 中端到端的體驗。
為了驗證聯(lián)邦大模型的效果,Zoom 也在內(nèi)部進(jìn)行了多輪測試。結(jié)果顯示,Zoom 基于模型整合訓(xùn)練的聯(lián)邦大模型取得的效果已經(jīng)能媲美許多知名的單一基座模型,包括 OpenAI 的 GPT-3.5 Turbo(99% vs 93%)以及其他幾種最先進(jìn)的 LLM。
其二,堅持低成本落地。
能根據(jù)具體的場景選擇最適合的且成本最低的 LLM。根據(jù) Z-Scorer 評估初始任務(wù)的完成質(zhì)量評估,會視情況調(diào)用更高級別的 LLM 來根據(jù)初始 LLM 所取得的成果增強(qiáng)任務(wù)的完成。
聚焦到實際的應(yīng)用場景中,諸如一些比較簡單的問題,Zoom 會選擇使用中小模型解決,一些比較難的問題則會調(diào)用 GPT-4來解決。而這種方法較單一模型來說,能在很大程度上實現(xiàn)較低成本的落地。
相當(dāng)于 GPT-4是老師,由他帶著下面的學(xué)生一起工作,就像一個團(tuán)隊需要不同技能人才協(xié)同工作才能創(chuàng)造一個比較有戰(zhàn)斗力的集體。
在具體的測試中,與 OpenAI 的 GPT-4-32k 作為微軟 Copilot 的 Agent 相比,結(jié)果顯示,Zoom AI Companion 的會議功能在保證更低成本和更快響應(yīng)時間的同時,還增強(qiáng)了大模型的質(zhì)量。目前 Zoom 已經(jīng)實現(xiàn)了以不到6%的成本達(dá)到 GPT-4-32k 的性能,效果非??捎^。
其三,性能越來越強(qiáng)。
在聯(lián)合 AI 方法的支持下,Zoom 可以實現(xiàn)充分利用眾多優(yōu)秀合作伙伴在大模型方面的進(jìn)展,在低成本的基礎(chǔ)上充分展現(xiàn)了高性能的能力。
AI 科技評論了解到,目前 Zoom 用小于 10% 的計算資源可以達(dá)到目前最先進(jìn)的大模型 GPT-4在 Zoom 應(yīng)用場景中 99% 的性能、并大大超越GPT-4的反應(yīng)速度。
在語言支持方面,早期的 AI 大模型、包括現(xiàn)在的大部分模型主要以英語數(shù)據(jù)為主進(jìn)行預(yù)訓(xùn)練,Zoom 則增加了翻譯模型,擴(kuò)展了多語言能力,目前已經(jīng)可以支持除英語以外的 32 種語言。
這些測試均強(qiáng)調(diào)了 Zoom 聯(lián)合 AI 方法的有效性,以及對不同機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行整合的優(yōu)勢。
聯(lián)邦大模型的下一站在哪里?
三個臭皮匠頂個諸葛亮的思想在 Zoom 的成功落地,為整個行業(yè)打響了頭炮,也證明了聯(lián)邦大模型為業(yè)界指明了一個能讓大模型落地的多快好省的方向。
大模型在行業(yè)落地時,最為嚴(yán)峻的挑戰(zhàn)聚焦在性能、反應(yīng)速度以及成本三方面,但 Zoom 團(tuán)隊提出的聯(lián)邦大模型方法較好地解決了這些挑戰(zhàn)。據(jù) AI 科技評論觀察,目前國內(nèi)還沒有企業(yè)能將超過四個、甚至更多的大模型聯(lián)邦整合起來。
這背后主要還是技術(shù)的考驗,即根據(jù)具體的應(yīng)用場景應(yīng)該選哪些模型。在這基礎(chǔ)上,如何進(jìn)行融合,也有很強(qiáng)的技術(shù)壁壘。
另外,在性能、反應(yīng)速度以及成本方面,以 Zoom 現(xiàn)在的表現(xiàn)來看,用比 GPT-4 更少的成本實現(xiàn)了媲美 GPT-4 的性能,是目前行業(yè)的頂尖水平,但在具體實踐中,聯(lián)邦大模型也并非坦途。
黃學(xué)東曾預(yù)測道,以大模型為中心,多模態(tài)聯(lián)合發(fā)展的技術(shù)趨勢在未來兩年勢必會成為現(xiàn)實。但在現(xiàn)在看來,聯(lián)邦大模型還是一個比較新的概念,要想通過這項技術(shù)做成功的落地應(yīng)用,不是一朝一夕就能完成的,起碼需要對這項技術(shù)有較強(qiáng)的認(rèn)知和充分的理解。
其次,從聯(lián)邦大模型本身出發(fā),Zoom 強(qiáng)調(diào)的融合多個模型,如果是單一模型的話,只需要考慮和某一個模型的適配程度,包括如何灌入數(shù)據(jù)做訓(xùn)練,如何微調(diào),如何做能力的增強(qiáng);但如果是多個不同的模型的話,則要復(fù)雜的多,不僅需要考慮不同模型之間的勾稽關(guān)系,比如這個問題需要 A 模型還是 B 模型來解決,還需要考慮使用哪個模型能更低成本的落地,使用哪個模型的性能更高,體驗更好……
這是聯(lián)邦大模型的核心挑戰(zhàn),也是 Zoom 需要重點克服的問題。Zoom 團(tuán)隊向 AI 科技評論透露道,他們遇到的最大挑戰(zhàn)是怎么把眾多的臭皮匠大模型整合成諸葛亮。怎么決定在什么樣的場景下動態(tài)使用什么樣的大語言模型來取得最低成本,最快響應(yīng)速度和最好的質(zhì)量。平衡這三者的關(guān)系是一門藝術(shù),對技術(shù)的理解、數(shù)據(jù)的獲取和工程的實踐,三者缺一不可。
從目前 Zoom 對外展現(xiàn)的實現(xiàn)效果看,聯(lián)邦大模型只是在個別場景問題上實現(xiàn)了媲美 GPT-4 ,比如會議問答。但是在質(zhì)量上還要繼續(xù)努力,99% 到 100% 的距離是不能馬上消除的。未來,聯(lián)邦大模型想要在全場景中實現(xiàn)趕超還有很長一段路要走。
(雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。