0
本文作者: 王悅 | 2023-11-07 15:59 |
作者 | 王悅
編輯 | 陳彩嫻
11月6日,李開(kāi)復(fù)帶隊(duì)創(chuàng)辦的 AI 2.0 公司零一萬(wàn)物,開(kāi)源發(fā)布了Yi系列模型,包含 34B 和 6B 兩個(gè)版本。
令人驚艷的是,從參數(shù)量和性能上來(lái)看,Yi-34B 相當(dāng)于只用了不及 LLaMA2-70B一半、Falcon-180B五分之一的參數(shù)量,碾壓 了LLaMA2-70B 和 Falcon-180B 等眾多大尺寸模型。憑借這一表現(xiàn),躋身目前世界范圍內(nèi)開(kāi)源最強(qiáng)基礎(chǔ)模型之列。
根據(jù) Hugging Face 英文開(kāi)源社區(qū)平臺(tái)和 C-Eval 中文評(píng)測(cè)的最新榜單,Yi-34B 預(yù)訓(xùn)練模取得了多項(xiàng) SOTA 國(guó)際最佳性能指標(biāo)認(rèn)可,成為全球開(kāi)源大模型「雙料冠軍」。這也是迄今為止唯一成功登頂 Hugging Face 全球開(kāi)源模型排行榜的國(guó)產(chǎn)模型。
Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜(2023年11月5日)
雷峰網(wǎng)獲悉,「Yi 」系列大模型,命名來(lái)自「一」的拼音?!竃i 」中的「Y」上下顛倒,巧妙形同漢字的「人」,結(jié)合 AI 里的 i ,代表Human + AI ,強(qiáng)調(diào)以人為本的精神,為人類(lèi)創(chuàng)造巨大的價(jià)值。
零一萬(wàn)物創(chuàng)始人及CEO李開(kāi)復(fù)博士表示:「零一萬(wàn)物堅(jiān)定進(jìn)軍全球第一梯隊(duì)目標(biāo),從招的第一個(gè)人,寫(xiě)的第一行kl代碼,設(shè)計(jì)的第一個(gè)模型開(kāi)始,就一直抱著成為‘World's No.1’的初衷和決心?!?/p>
從「AI 1.0」邁向「AI 2.0」,李開(kāi)復(fù)說(shuō)話(huà)算數(shù),一步步向目前邁進(jìn)。
一、零一萬(wàn)物大模型 Yi 首次曝光
作為國(guó)產(chǎn)大模型, Yi-34B 不得不說(shuō)的的優(yōu)勢(shì)之一就是更「懂」中文。對(duì)比大模型標(biāo)桿GPT-4,在CMMLU、E-Eval、Gaokao 三個(gè)主要的中文指標(biāo)上,Yi-34B 也具有絕對(duì)優(yōu)勢(shì),能夠更好地適配國(guó)內(nèi)市場(chǎng)需求。
從更為全面的評(píng)估看,在全球大模型各項(xiàng)評(píng)測(cè)中最關(guān)鍵的 「MMLU」(Massive Multitask Language Understanding 大規(guī)模多任務(wù)語(yǔ)言理解)、BBH等反映模型綜合能力的評(píng)測(cè)集上,Yi-34B 同樣表現(xiàn)突出,在通用能力、知識(shí)推理、閱讀理解等多項(xiàng)指標(biāo)評(píng)比中全部勝出,與 Hugging Face 評(píng)測(cè)高度一致。
各評(píng)測(cè)集得分:Yi 模型 v.s. 其他開(kāi)源模型
在語(yǔ)言模型中,上下文窗口是大模型綜合運(yùn)算能力的關(guān)鍵指標(biāo)之一,對(duì)于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長(zhǎng)窗口的語(yǔ)言模型可以處理更豐富的知識(shí)庫(kù)信息,生成更連貫、準(zhǔn)確的文本。
據(jù)雷峰網(wǎng)了解,此次開(kāi)源的 Yi-34B 模型,將發(fā)布全球最長(zhǎng)、可支持 200K 超長(zhǎng)上下文窗口(context window)版本,可以處理約40萬(wàn)漢字超長(zhǎng)文本輸入。理解超過(guò) 1000 頁(yè)的 PDF 文檔,讓很多依賴(lài)于向量數(shù)據(jù)庫(kù)構(gòu)建外部知識(shí)庫(kù)的場(chǎng)景,都可以用上下文窗口來(lái)進(jìn)行替代。
相比之下,OpenAI 的 GPT-4 上下文窗口只有 32K,文字處理量約 2.5 萬(wàn)字。今年三月,硅谷知名 AI 2.0 創(chuàng)業(yè)公司Anthropic 的 Claude2-100K 將上下文窗口擴(kuò)展到了 100K 規(guī)模,零一萬(wàn)物直接加倍,并且是第一家將超長(zhǎng)上下文窗口在開(kāi)源社區(qū)開(kāi)放的大模型公司。
上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn),零一萬(wàn)物能做到這個(gè)程度也并非一蹴而就。受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問(wèn)題,大多數(shù)發(fā)布的大型語(yǔ)言模型僅支持幾千 tokens 的上下文長(zhǎng)度。
為了解決這個(gè)限制,零一萬(wàn)物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化,包括:計(jì)算通信重疊、序列并行、通信壓縮等。通過(guò)這些能力增強(qiáng),實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近 100 倍的能力提升。
其實(shí),Yi 系列模型之所以能取得如此亮眼的成績(jī),背后的 AI Infra 是功不可沒(méi)的,其通過(guò)「高精度」系統(tǒng)、彈性訓(xùn)和接力訓(xùn)等全棧式解決方案,確保訓(xùn)練高效、安全地進(jìn)行。
憑借強(qiáng)大的 AI Infra 支撐,零一萬(wàn)物團(tuán)隊(duì)能實(shí)現(xiàn)超越行業(yè)水平的訓(xùn)練效果,Yi-34B 模型訓(xùn)練成本實(shí)測(cè)下降40%,實(shí)際訓(xùn)練完成達(dá)標(biāo)時(shí)間與預(yù)測(cè)的時(shí)間誤差不到一小時(shí),進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá) 50%。
截至目前,零一萬(wàn)物 Infra 能力實(shí)現(xiàn)故障預(yù)測(cè)準(zhǔn)確率超過(guò)90%,故障提前發(fā)現(xiàn)率達(dá)到 99.9%,不需要人工參與的故障自愈率超過(guò) 95%,
無(wú)論是人前耀眼的成績(jī)還是背后基礎(chǔ)能力的攻堅(jiān),也都離不開(kāi)零一萬(wàn)物潛心數(shù)月練就的大模型 「科學(xué)訓(xùn)?!狗椒ㄕ?。
大模型效果依賴(lài)于更多、更高質(zhì)量的數(shù)據(jù),零一萬(wàn)物在數(shù)據(jù)處理管線上可謂「不惜成本」。
數(shù)據(jù)處理管線和加大規(guī)模預(yù)測(cè)的訓(xùn)練能力建設(shè),把以往的大模型訓(xùn)練碰運(yùn)氣的「煉丹」過(guò)程變得極度細(xì)致和科學(xué)化,不僅保證了目前發(fā)布 Yi-34B、Yi-6B 模型的高性能,也為未來(lái)更大規(guī)模模型的訓(xùn)練壓縮了時(shí)間和成本,
經(jīng)過(guò)幾個(gè)月大量的建模和實(shí)驗(yàn),零一萬(wàn)物自研出一套「規(guī)?;?xùn)練實(shí)驗(yàn)平臺(tái)」,用來(lái)指導(dǎo)模型的設(shè)計(jì)和優(yōu)化。數(shù)據(jù)配比、超參搜索、模型結(jié)構(gòu)實(shí)驗(yàn)都可以在小規(guī)模實(shí)驗(yàn)平臺(tái)上進(jìn)行,對(duì) 34B 模型每個(gè)節(jié)點(diǎn)的預(yù)測(cè)誤差都可以控制在0.5%以?xún)?nèi)。
在 Yi 開(kāi)源模型的全球首發(fā)日,零一萬(wàn)物 CEO 李開(kāi)復(fù)也宣布,在完成 Yi-34B 預(yù)訓(xùn)練的同時(shí),已經(jīng)旋即啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練。「零一萬(wàn)物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺(tái)、GPU 資源和 AI Infra 都已經(jīng)準(zhǔn)備好,我們的動(dòng)作會(huì)越來(lái)越快」。
二、從「AI 1.0」到「AI 2.0」
零一萬(wàn)物的首次成果公布,體現(xiàn)的不僅是技術(shù)的進(jìn)步,還有商業(yè)的可能性。
今年 3 月,李開(kāi)復(fù)作了一場(chǎng)關(guān)于 AI 從 1.0 時(shí)代跨到 2.0 時(shí)代的演講。隨后,零一萬(wàn)物在李開(kāi)復(fù)所設(shè)想的 AI 2.0 框架下成立,招攬了前百度安全副總裁馬杰、前微軟副總裁祁瑞峰等等技術(shù)大咖,陣容豪華,引起業(yè)內(nèi)的廣泛關(guān)注。
過(guò)去十年,深度學(xué)習(xí)催生了一批優(yōu)秀的 AI 公司,隨后經(jīng)過(guò)多年的發(fā)展,在過(guò)去兩年曾進(jìn)入短暫的低谷期,一度傳出 AI 泡沫、AI 寒冬的說(shuō)法。其中的根源就在于:上一代 AI 公司盡管基于嶄新的技術(shù)立足,但在商業(yè)化上的步伐卻比預(yù)期慢。
而從去年 8 月 Stable Diffusion 掀起 AIGC 熱潮以來(lái),加上去年11月底 ChatGPT 發(fā)布,全球 AI 突然看到了新的機(jī)會(huì)。這個(gè)新的機(jī)遇,被李開(kāi)復(fù)稱(chēng)為「AI 2.0」。
ChatGPT 之后,AI 時(shí)代的進(jìn)步在技術(shù)上體現(xiàn)為通用人工智能(AGI)雛形初顯,在商業(yè)應(yīng)用上則被李開(kāi)復(fù)形容為平臺(tái)級(jí)的趨勢(shì)爆發(fā)。
所謂「平臺(tái)」,包含一個(gè)大的目標(biāo),即要大幅降低開(kāi)發(fā) AI 應(yīng)用的成本。如同電與電網(wǎng)的區(qū)別,電是一項(xiàng)偉大的發(fā)明,但如果沒(méi)有電網(wǎng),就不會(huì)出現(xiàn)微波爐、電烤箱、電動(dòng)車(chē)等新的發(fā)明。換言之,AI 2.0 之于 AI 1.0 的區(qū)別,就在于將 AI 技術(shù)變成平臺(tái),將定制變成通用,將點(diǎn)變成面。
過(guò)去十年的商業(yè)實(shí)踐驗(yàn)證了 AI 1.0 時(shí)代的瓶頸。在 AI 1.0 時(shí)代,數(shù)據(jù)越多、結(jié)果越好,但同時(shí)也因?yàn)樾枰罅康臉?biāo)注數(shù)據(jù),成本巨大。此外,AI 1.0 時(shí)代的應(yīng)用在各個(gè)領(lǐng)域是相互割裂的,誕生了一連串的「孤島應(yīng)用」,無(wú)法形成有效的平臺(tái)。
但 AI 2.0 時(shí)代的技術(shù)基石是自監(jiān)督,可以讓 AI 模型不進(jìn)行數(shù)據(jù)標(biāo)注也能學(xué)習(xí)。雖然同樣需要將大量的、跨領(lǐng)域的數(shù)據(jù)拿來(lái)學(xué)習(xí),但學(xué)習(xí)后形成一個(gè)基礎(chǔ)模型(即大模型)后再去做知識(shí)的遷移,AI 即相當(dāng)于一個(gè)世界模型。經(jīng)過(guò)多年的訓(xùn)練與積累,基礎(chǔ)模型更成熟,基于基礎(chǔ)模型再做平臺(tái)應(yīng)用,即可打破 AI 應(yīng)用的孤島現(xiàn)象,邊際效益與日俱增。
換言之,AI 2.0 時(shí)代有三大優(yōu)勢(shì):一是減少人工標(biāo)注;二是模型規(guī)模大,具備世界知識(shí);三是能夠以極低的成本對(duì)基礎(chǔ)模型進(jìn)行微調(diào)訓(xùn)練,即可適應(yīng)不同領(lǐng)域的任務(wù)。所以,在 AI 2.0 時(shí)代,每個(gè)領(lǐng)域都有機(jī)會(huì)將原有的應(yīng)用重構(gòu)一遍,用更短的時(shí)間生產(chǎn)出更高質(zhì)量的數(shù)字內(nèi)容,而且千人千面、精準(zhǔn)優(yōu)化信息流,做出更偉大的商業(yè)模式。
一方面,降低訓(xùn)練成本是減少 AI 應(yīng)用開(kāi)發(fā)成本、催生一系列爆款應(yīng)用的前提;另一方面,長(zhǎng)文本處理是商業(yè)應(yīng)用的一道攔路虎。如果長(zhǎng)文本處理的技術(shù)瓶頸能突破,許多更高難度的應(yīng)用也會(huì)被一一破解,如處理超長(zhǎng)篇幅的法務(wù)合同、交叉對(duì)比多篇學(xué)術(shù)論文、基于長(zhǎng)篇?jiǎng)”具M(jìn)行角色扮演、通過(guò)多篇財(cái)報(bào)進(jìn)行市場(chǎng)分析等等。
因此,「長(zhǎng)文本處理」在下半年成為大模型賽道的兵家必爭(zhēng)之地。從 Anthropic AI 對(duì) OpenAI 發(fā)起挑戰(zhàn)后,國(guó)內(nèi)多家大模型廠商也陸續(xù)推出長(zhǎng)文本處理里程碑。如月之暗面的 Kimi Chat 支持 20 萬(wàn)字輸入,百川智能的 Baichuan2-192k 支持 35 萬(wàn)字輸入,零一萬(wàn)物的 Yi-34B 迅速擴(kuò)展到 40 萬(wàn)字。
此次零一萬(wàn)物團(tuán)隊(duì)開(kāi)源大模型 Yi-34B 與 Yi-6B,在長(zhǎng)文本領(lǐng)域可以做到最長(zhǎng) 200k 上下文窗口、40 萬(wàn)字的文本處理,也與李開(kāi)復(fù)此前談的 AI 2.0 思想相一致。同時(shí),據(jù)零一萬(wàn)物介紹,他們還依托基礎(chǔ)的計(jì)算設(shè)施與算法優(yōu)化等 Infra 能力,將訓(xùn)練成本下降了 40%。
上傳到 Hugging Face 不過(guò)兩天后,Yi-34B 的下載量就超過(guò)了 1000 次,獲得了接近 150 個(gè)點(diǎn)贊。
長(zhǎng)文本處理的技術(shù)突破,不僅是表面上關(guān)于 Token 數(shù)的數(shù)據(jù)變更,更重要的是其體現(xiàn)了人工智能領(lǐng)域整體對(duì) AI 2.0 時(shí)代所蘊(yùn)含的商業(yè)潛力的認(rèn)同與樂(lè)觀。正是因?yàn)閷?duì)大模型為代表的新一代 AI 技術(shù)的信心,才有如此多優(yōu)秀的技術(shù)人才涌入該賽道,在極短的時(shí)間內(nèi)快速突破了長(zhǎng)文本等技術(shù)問(wèn)題的局限。
據(jù)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解,如今長(zhǎng)文本處理已逐漸被熱情的 AI 技術(shù)人才攻破,目前業(yè)內(nèi)流行的技術(shù)方法包括:最簡(jiǎn)單粗暴的堆顯存,或滑動(dòng)窗口、降采樣等,或在 Attention-mask 中做動(dòng)態(tài)內(nèi)插。這些方法的效果很好,缺點(diǎn)是計(jì)算開(kāi)銷(xiāo)大。但在各大云計(jì)算廠商的加持下,算力壁壘也被逐漸打了下來(lái)。
可以看見(jiàn),AI 進(jìn)入一個(gè)新的時(shí)代毫無(wú)疑問(wèn)已是行業(yè)共識(shí)。AI 2.0 代表一個(gè)新的商業(yè)愿景,道阻路長(zhǎng),玩家眾多,但后來(lái)者零一萬(wàn)物也已成為其中最有潛力的團(tuán)隊(duì)之一,期待零一萬(wàn)物接下來(lái)的表現(xiàn)。
OpenAI 首屆開(kāi)發(fā)者大會(huì)召開(kāi)在即,AI 科技評(píng)論持續(xù)關(guān)注,歡迎同樣關(guān)注的朋友添加作者微信 s1060788086 一起交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。