0
要問(wèn)當(dāng)前AI大型語(yǔ)言模型界萬(wàn)眾期待的一件事,以及各通用大模型廠商都在暗自鉚足勁干的一件事,一定是追趕GPT-4。
回顧過(guò)去的2023年,國(guó)內(nèi)整個(gè)AI行業(yè)度過(guò)了繁忙而又充滿激情的一年。上半年經(jīng)歷了融資大戰(zhàn)、搶人組團(tuán)隊(duì),下半年迎來(lái)大模型井噴式爆發(fā),進(jìn)入模型洶涌期和商業(yè)化落地探索初期。
據(jù)公開資料顯示,截至去年10月份國(guó)內(nèi)已經(jīng)發(fā)布了238個(gè)大模型,意味著中國(guó)過(guò)去每天都有一個(gè)新的大模型發(fā)布,我們會(huì)發(fā)現(xiàn)大家在介紹自家大模型時(shí),紛紛提到模型能力“接近GPT-4”,有膽大者甚至宣稱“趕超GPT-4”。
一時(shí)間,仿佛中國(guó)大模型已經(jīng)領(lǐng)先國(guó)際先進(jìn)水平,給不懂大模型技術(shù)、關(guān)注中國(guó)AI發(fā)展的投資者、用戶帶來(lái)許多不切實(shí)際的幻想與信心。
因?yàn)槭聦?shí)情況遠(yuǎn)非如此。去年11月時(shí),元象XVERSE科技創(chuàng)始人、騰訊公司前副總裁姚星曾告訴雷峰網(wǎng),大家都說(shuō)接近GPT-4,顯然不符合實(shí)際情況,很多都是刷榜刷出來(lái)的,意義不大。
“刷榜是我們的一個(gè)陋習(xí)”,這導(dǎo)致的結(jié)果就是大家對(duì)中國(guó)大模型的能力沒有清晰的認(rèn)知,實(shí)際上大家離GPT-4還差得遠(yuǎn)。
雖然,隨著OpenAI大模型論文發(fā)布、Meta開源強(qiáng)勢(shì)入局,大模型的神秘面紗被一一揭下,我們與國(guó)外大模型的差距在逐步縮短,但別人模型的天花板GPT-4,我們依然還遠(yuǎn)未觸達(dá)。
這依然是一個(gè)有很高門檻的事情,訓(xùn)練模型需要大量錢、需要寫過(guò)模型訓(xùn)練代碼的人、需要堅(jiān)定的技術(shù)路線和公司戰(zhàn)略層面堅(jiān)持不懈的投入,不是誰(shuí)喊上一嗓子,中國(guó)大模型就能跟GPT-4同臺(tái)競(jìng)技。
所以,在刷榜成習(xí)的時(shí)代,我們應(yīng)該把注意力、資源傾斜給那些真正為中國(guó)大模型事業(yè),不斷努力付出的團(tuán)隊(duì)和人身上,而不需要魚目混珠之下的“盲目自吹自擂”。
追趕GPT-4已然是國(guó)產(chǎn)大模型當(dāng)下最迫切的任務(wù),而對(duì)于通用大模型廠商,誰(shuí)能率先訓(xùn)練出真正比肩GPT-4的大模型,誰(shuí)就能“先入咸陽(yáng)”,在商業(yè)化、生態(tài)上迎來(lái)進(jìn)階。
對(duì)于誰(shuí)能率先突破GPT-4門檻的猜測(cè)、討論和押注,在過(guò)去的一年中激烈地進(jìn)行著,終于,直到今天智譜AI發(fā)布了新一代基座大模型GLM-4,模型性能相比上一代全面提升60%,各項(xiàng)指標(biāo)逼近GPT-4,讓我們看到“國(guó)產(chǎn)GPT-4”真的來(lái)了。
意料之中的結(jié)果,但沒想到他們速度如此快。
2023年春節(jié)后,辭舊迎新,一波關(guān)注AI的投資人偶然間使用了ChatGPT(GPT-3.5),被震驚,一傳十、十傳百,在投資圈帶起了一波ChatGPT熱潮,隨著時(shí)間不斷發(fā)酵,遂帶動(dòng)了整個(gè)中文互聯(lián)網(wǎng)“膜拜”ChatGPT的熱潮。
當(dāng)人們尚未從ChatGPT帶來(lái)的震驚中冷靜下來(lái),一個(gè)月后,OpenAI又推出了新品GPT-4,一個(gè)更強(qiáng)大的大模型,再次點(diǎn)燃了人們對(duì)大模型的想象力。
它強(qiáng)大到什么程度呢?一張網(wǎng)站的手繪草圖,GPT-4能直接生成最終設(shè)計(jì)的網(wǎng)頁(yè)代碼;GRE考試接近滿分;模擬律師考試中GPT-4擊敗了90%的人類,取得了前10%的好成績(jī),相比之下GPT-3.5是倒數(shù)10%。
GPT-4在各種專業(yè)測(cè)試和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng)。其中,GPT-4最大的突破是能夠處理圖像,并能準(zhǔn)確理解圖片的含義,給出解答。
種種驚人表現(xiàn)導(dǎo)致GPT-4一問(wèn)世,便成為最強(qiáng)的大模型,成為全球科技公司共同追逐的目標(biāo)。
回歸自身,在這波大模型競(jìng)爭(zhēng)中,一致認(rèn)為中國(guó)的突破口和優(yōu)勢(shì)在于我們應(yīng)用場(chǎng)景豐富,擁有超大規(guī)模市場(chǎng),是最能把大模型應(yīng)用起來(lái)的。
那我們直接用開源大模型不就行了嗎,為什么一定要耗費(fèi)巨大精力去追逐GPT-4呢?
首先,正如智譜CEO 張鵬所說(shuō),一個(gè)好用的基座大模型,歸根結(jié)底要看基座大模型的能力夠不夠用。當(dāng)前國(guó)產(chǎn)大模型真要落地到實(shí)際場(chǎng)景中,要給企業(yè)帶來(lái)業(yè)務(wù)價(jià)值,模型的通用能力還需要很大提升。
而放眼當(dāng)前最先進(jìn)的模型GPT-4,它雖然不斷在進(jìn)化出新的類人能力,但目前依然連最基本的“模型幻覺”問(wèn)題都沒能徹底攻克,AGI短期內(nèi)依然是一場(chǎng)人類自身的“顱內(nèi)狂歡”。
“真正落實(shí)到B端,光靠chat類產(chǎn)品好像也不夠。”而張鵬認(rèn)為,目前大模式商業(yè)化落地上遇到的挑戰(zhàn),本質(zhì)上還是模型能力的突破。
既然優(yōu)等生都還有上升空間,我們又有什么資格不進(jìn)步,何況國(guó)產(chǎn)大模型的模型能力尚且還不足以支撐諸多業(yè)務(wù)場(chǎng)景的商業(yè)化落地,所以目前GPT-4依然是值得奮力追逐的目標(biāo)。
其次,站在國(guó)家層面,技術(shù)自主可控是大勢(shì)所趨,仰望最遠(yuǎn)大的技術(shù)理想依然是我們必須要達(dá)到的彼岸。
“現(xiàn)在主要看誰(shuí)能趕上或者超過(guò)GPT-4,很有可能大部分廠商都過(guò)不去?!蹦成钊肓私獯竽P蜕鷳B(tài)的業(yè)內(nèi)人士表示,他還特別指出,Meta的Llama2發(fā)布后,模型能力一度接近GPT-3.5,但至今Meta一直沒有發(fā)布新進(jìn)展,以此看來(lái)大模型技術(shù)門檻依然很高,這將對(duì)國(guó)內(nèi)很多團(tuán)隊(duì)都是一個(gè)考驗(yàn)。
而國(guó)內(nèi)很多廠商都是基于Llama開源來(lái)訓(xùn)練的模型。
今天,1月16日,智譜AI(以下簡(jiǎn)稱“智譜”)在北京舉辦了2024智譜AI技術(shù)開放日,發(fā)布了新一代基座大模型GLM-4。
據(jù)智譜透露,GLM-4在基礎(chǔ)能力上實(shí)現(xiàn)大幅提升,性能相比上一代GLM-3全面提升60%,而根據(jù)智譜提供的測(cè)評(píng)數(shù)據(jù)顯示,GLM-4性能逼近GPT-4。
首先是基礎(chǔ)能力上,MMLU 81.5 達(dá)到GPT-4 94% 水平,GSM8K 87.6 達(dá)到GPT-4 95% 水平,MATH 47.9 達(dá)到GPT-4 91%水平,BBH 82.25 達(dá)到 GPT-4 99% 水平,HellaSwag 85.4 達(dá)到GPT-4 90%水平,HumanEval 72 達(dá)到 GPT-4 100%水平。
圖源智譜開放日
指令跟隨能力上,和 GPT-4 相比,IFEval在Prompt提示詞跟隨(中文)方面達(dá)到 88% 水平;在指令跟隨(中文)方面,達(dá)到 90% 水平。大大超過(guò)GPT-3.5。
對(duì)齊能力上,基于AlignBench數(shù)據(jù)集,GLM-4超過(guò)了GPT-4在6月13日發(fā)布的版本,逼近GPT-4最新(11月6日版本)效果,在專業(yè)能力、中文理解、角色扮演方面超過(guò)GPT-4精度。在中文推理方面的能力還有待進(jìn)一步提升。
令人訝異的是,智譜本次發(fā)布,展示了GLM-4過(guò)去一年里努力追趕GPT-4的成績(jī),在多個(gè)模型測(cè)評(píng)中基礎(chǔ)能力都達(dá)到GPT-4的90%水平,取得的這個(gè)成績(jī)已然非常難得,但他們并沒有干脆稱“趕超GPT-4”,而是秉持著實(shí)事求是的低調(diào)態(tài)度,展示了GLM-4性能只是“逼近”GPT-4,與GPT-4仍然有差距,甚至還特地指出了自己當(dāng)前的不足之處,需要“更進(jìn)一步提升”。
與當(dāng)下盛行的浮夸風(fēng)不同,智譜給人的感覺一直是那個(gè)“低調(diào)的學(xué)霸”。
除了性能上的提升,GLM-4支持帶來(lái) 128K 上下文窗口長(zhǎng)度,單次提示詞可處理文本達(dá)到 300 頁(yè)。在 needle test 大海撈針測(cè)試中,128K 文本長(zhǎng)度內(nèi) GLM-4 模型均可做到幾乎百分之百精度召回。
基于GLM模型擁有的強(qiáng)大的Agent能力,智譜推出了GLM-4-All Tools,能根據(jù)用戶意圖,自動(dòng)理解、規(guī)劃復(fù)雜指令,自由調(diào)用WebGLM搜索增強(qiáng)、Code Interpreter代碼解釋器和多模態(tài)生成能力以完成復(fù)雜任務(wù)。
多模態(tài)已經(jīng)成為AI發(fā)展的重要方向和路徑,可以看到頭部大模型廠商都在往多模態(tài)發(fā)展,例如Meta的SAM、OpenAI的GPT-4V到谷歌Gemini,再到今天的CogView3,智譜一直在“對(duì)齊”世界先進(jìn)水平。
模態(tài)指表達(dá)或感知事物的方式,每一種信息的來(lái)源或形式都可以稱為一種模態(tài)。視覺模態(tài)是直接從現(xiàn)實(shí)世界獲取的初級(jí)模態(tài),數(shù)據(jù)源豐富且成本低廉,相比語(yǔ)言模態(tài)更直觀更易于理解。
現(xiàn)實(shí)應(yīng)用中,文本、圖像、聲音是經(jīng)常穿插在一起交互的,并不都是純文本。在一些復(fù)雜的應(yīng)用場(chǎng)景中,純文本的交互方式會(huì)受到文本表達(dá)能力的限制,使得復(fù)雜的概念或需求難以傳達(dá),相比之下,多模態(tài)模型中的圖像交互方式門檻就更低,更為直觀。
一位證券分析師認(rèn)為,多模態(tài)技術(shù)的一小步將帶來(lái)產(chǎn)業(yè)應(yīng)用落地的一大步。多模態(tài)是大語(yǔ)言模型走向千行百業(yè)乃至通用人工智能重要的里程碑。
所以,AI要滲透到各行各業(yè),大模型向多模態(tài)發(fā)展是必然趨勢(shì)。
而此時(shí),智譜在大模型產(chǎn)業(yè)落地上,已經(jīng)奔跑了十個(gè)多月。GLM-4的多模態(tài)能力也實(shí)現(xiàn)了明顯提升,文生圖和多模態(tài)理解都得到增強(qiáng),CogView3效果明顯超過(guò)開源最佳的Stable Diffusion XL,逼近最新OpenAI發(fā)布的DALLE3。在對(duì)齊、保真、安全、組合布局等各個(gè)評(píng)測(cè)維度上,CogView3的效果都達(dá)到 DALLE3 90%以上水平。
智譜AI CEO張鵬在技術(shù)開放日上表示:GLM-4的推出標(biāo)志著國(guó)產(chǎn)大模型水平看齊世界先進(jìn)水平,為我們?nèi)骈_辟國(guó)產(chǎn)大模型產(chǎn)業(yè)新局面奠定了根本性基礎(chǔ)。
GLM-4的發(fā)布,將會(huì)成為國(guó)產(chǎn)大模型發(fā)展的一個(gè)分水嶺,給大模型商業(yè)化、產(chǎn)業(yè)落地帶來(lái)更多想象空間。
在去年ChatGPT剛剛點(diǎn)燃中文互聯(lián)網(wǎng)時(shí),智譜就決定開始做商業(yè)化。據(jù)智譜透露,從今年3?以來(lái),見過(guò)的客?超過(guò)2000家,與其中1000多家形成合作,與超過(guò)200家進(jìn)行了深度共創(chuàng)。
站在整個(gè)大模型前進(jìn)的歷程中,我們可以看到,智譜過(guò)去一年始終圍繞著商業(yè)化緊鑼密鼓地展開,相比較于其他頭部大模型創(chuàng)業(yè)公司10月以后才開始喊商業(yè)化,智譜的商業(yè)化差不多領(lǐng)先行業(yè)半年。
而商業(yè)化也一度面臨著挑戰(zhàn)。
CEO張鵬在去年10月底時(shí)曾坦誠(chéng)地告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),智譜的大模型面臨“叫好不叫座”的挑戰(zhàn),即很多人認(rèn)可,但提到付費(fèi)購(gòu)買,就會(huì)打退堂鼓。
一方面是大家對(duì)大模型的認(rèn)知不夠,另一方面的原因很現(xiàn)實(shí),有GPT-4在前面擺著,用戶對(duì)大模型即便不甚了解,但都知道GPT-4,就會(huì)問(wèn)智譜的模型離GPT-4還有多遠(yuǎn)。
對(duì)于商業(yè)化,當(dāng)時(shí)張鵬認(rèn)為,如果某一天做到GPT-4的水平,當(dāng)前面臨的很多問(wèn)題都會(huì)迎刃而解,甚至連商業(yè)模式都不用考慮,只提供API就行。
沒想到僅僅只過(guò)去了兩個(gè)多月,GLM-4便能比肩GPT-4,這對(duì)智譜整體發(fā)展和商業(yè)化都將是重大利好。
而這次技術(shù)開放日上,智譜還推出了一系列推動(dòng)GLM模型生態(tài)加速構(gòu)建的重要措施。其中最重要的就是GLMs個(gè)性化智能體。
基于GLM-4 模型強(qiáng)大能力,任何用戶用簡(jiǎn)單的提示詞指令就能創(chuàng)建屬于自己的 GLM 個(gè)性化智能體。GLM模型智能體和智能體中心已經(jīng)于技術(shù)開放日當(dāng)天上線。
除此,智譜AI還針對(duì)商業(yè)客戶、開源社區(qū)和大模型小微企業(yè)等合作伙伴推出多項(xiàng)針對(duì)性措施。
比如價(jià)格,GLM-4升級(jí)后,API調(diào)用價(jià)格維持0.1元/千tokens不變,這已經(jīng)是行業(yè)內(nèi)較低水平。另外,智譜AI還將成立總額1000萬(wàn)元人民幣的大模型開源基金,以及對(duì)面向全球大模型創(chuàng)業(yè)者的智譜AI“Z計(jì)劃”進(jìn)行升級(jí),聯(lián)合生態(tài)伙伴發(fā)起總額10億人民幣的大模型創(chuàng)業(yè)基金用于支持大模型原始創(chuàng)新。
以上推動(dòng)GLM模型生態(tài)的多種措施,為構(gòu)建智譜的生態(tài)圈,其本質(zhì)也是為智譜的商業(yè)化落地添磚加瓦。
根據(jù)智譜AI 首席運(yùn)營(yíng)官?gòu)埛f(shuō),在過(guò)去的9個(gè)月里,他帶領(lǐng)著智譜走過(guò)了從最初“賣模型”到一整套商業(yè)化體系的搭建。
智譜的商業(yè)化體系呈一個(gè)金字塔,最基層是開源層,開源擁有千萬(wàn)下載,非常大的群體,張帆在跟客戶聊的時(shí)候發(fā)現(xiàn),很多技術(shù)人員入門都是用ChatGLM;上一層是API層,核心的日常調(diào)用API的客戶;再往上一層是云端私有化,面向中型企業(yè),中型企業(yè)不但有使用模型的需求,它也希望能夠把業(yè)務(wù)中的數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為自己的競(jìng)爭(zhēng)壁壘;最高層就是本地私有化,很多企業(yè)對(duì)安全性要求極高,或者很多企業(yè)希望把模型能力轉(zhuǎn)化為自己的,希望自己能夠駕馭模型,這一類量會(huì)更少一些。
對(duì)于智譜來(lái)說(shuō),每一層都有自己的生態(tài)位,商業(yè)化目標(biāo)是希望下層用戶不斷往上層移動(dòng),逐步豐盈智譜的商業(yè)化。
這非常符合智譜的發(fā)展策略:始終堅(jiān)持技術(shù)與商業(yè)化兩條腿走路。
GLM-4的發(fā)布,將會(huì)給整個(gè)大模型行業(yè)帶來(lái)震動(dòng),促使大模型轉(zhuǎn)身進(jìn)入商業(yè)化加速時(shí)代。
2023年3月14日,GPT-4發(fā)布的同一天,智譜AI跟著便發(fā)布了基于千億基座模型的對(duì)話模型ChatGLM,并開源了中英雙語(yǔ)對(duì)話模型ChatGLM-6B,可支持在單張消費(fèi)級(jí)顯卡上進(jìn)行推理使用。
智譜AI對(duì)標(biāo)OpenAI的野心就此凸顯。而今天GLM-4的成功發(fā)布,是智譜過(guò)去一年里踐行向世界最先進(jìn)水平看齊的謙遜,也是智譜的決心與信心的實(shí)現(xiàn)。
智譜對(duì)標(biāo)OpenAI的目標(biāo)正在一步步實(shí)現(xiàn)。
而今天的GLM-4性能直逼GPT-4,讓我們對(duì)國(guó)產(chǎn)大模型追趕甚至超越GPT-5、GPT-6……在實(shí)現(xiàn)AGI這條道路上賦予了信心與堅(jiān)持。
就像Sam altman說(shuō)的,“永遠(yuǎn)要更快”,大模型時(shí)代把一切都加速了,在2024年的第一個(gè)月智譜AI率先出擊??芍^給2024年的激烈競(jìng)爭(zhēng)定下了基調(diào),不禁讓人更加期待未來(lái)人工智能行業(yè)還會(huì)帶給我們?cè)鯓拥捏@喜。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。