0
作者 | 王悅
編輯 | 陳彩嫻
11月6日,李開復(fù)帶隊(duì)創(chuàng)辦的 AI 2.0 公司零一萬物,開源發(fā)布了Yi系列模型,包含 34B 和 6B 兩個版本。
令人驚艷的是,從參數(shù)量和性能上來看,Yi-34B 相當(dāng)于只用了不及 LLaMA2-70B一半、Falcon-180B五分之一的參數(shù)量,碾壓 了LLaMA2-70B 和 Falcon-180B 等眾多大尺寸模型。憑借這一表現(xiàn),躋身目前世界范圍內(nèi)開源最強(qiáng)基礎(chǔ)模型之列。
根據(jù) Hugging Face 英文開源社區(qū)平臺和 C-Eval 中文評測的最新榜單,Yi-34B 預(yù)訓(xùn)練模取得了多項(xiàng) SOTA 國際最佳性能指標(biāo)認(rèn)可,成為全球開源大模型「雙料冠軍」。這也是迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產(chǎn)模型。
Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜(2023年11月5日)
雷峰網(wǎng)獲悉,「Yi 」系列大模型,命名來自「一」的拼音?!竃i 」中的「Y」上下顛倒,巧妙形同漢字的「人」,結(jié)合 AI 里的 i ,代表Human + AI ,強(qiáng)調(diào)以人為本的精神,為人類創(chuàng)造巨大的價值。
零一萬物創(chuàng)始人及CEO李開復(fù)博士表示:「零一萬物堅(jiān)定進(jìn)軍全球第一梯隊(duì)目標(biāo),從招的第一個人,寫的第一行kl代碼,設(shè)計(jì)的第一個模型開始,就一直抱著成為‘World's No.1’的初衷和決心?!?/p>
從「AI 1.0」邁向「AI 2.0」,李開復(fù)說話算數(shù),一步步向目前邁進(jìn)。
一、零一萬物大模型 Yi 首次曝光
作為國產(chǎn)大模型, Yi-34B 不得不說的的優(yōu)勢之一就是更「懂」中文。對比大模型標(biāo)桿GPT-4,在CMMLU、E-Eval、Gaokao 三個主要的中文指標(biāo)上,Yi-34B 也具有絕對優(yōu)勢,能夠更好地適配國內(nèi)市場需求。
從更為全面的評估看,在全球大模型各項(xiàng)評測中最關(guān)鍵的 「MMLU」(Massive Multitask Language Understanding 大規(guī)模多任務(wù)語言理解)、BBH等反映模型綜合能力的評測集上,Yi-34B 同樣表現(xiàn)突出,在通用能力、知識推理、閱讀理解等多項(xiàng)指標(biāo)評比中全部勝出,與 Hugging Face 評測高度一致。
各評測集得分:Yi 模型 v.s. 其他開源模型
在語言模型中,上下文窗口是大模型綜合運(yùn)算能力的關(guān)鍵指標(biāo)之一,對于理解和生成與特定上下文相關(guān)的文本至關(guān)重要,擁有更長窗口的語言模型可以處理更豐富的知識庫信息,生成更連貫、準(zhǔn)確的文本。
據(jù)雷峰網(wǎng)了解,此次開源的 Yi-34B 模型,將發(fā)布全球最長、可支持 200K 超長上下文窗口(context window)版本,可以處理約40萬漢字超長文本輸入。理解超過 1000 頁的 PDF 文檔,讓很多依賴于向量數(shù)據(jù)庫構(gòu)建外部知識庫的場景,都可以用上下文窗口來進(jìn)行替代。
相比之下,OpenAI 的 GPT-4 上下文窗口只有 32K,文字處理量約 2.5 萬字。今年三月,硅谷知名 AI 2.0 創(chuàng)業(yè)公司Anthropic 的 Claude2-100K 將上下文窗口擴(kuò)展到了 100K 規(guī)模,零一萬物直接加倍,并且是第一家將超長上下文窗口在開源社區(qū)開放的大模型公司。
上下文窗口規(guī)模擴(kuò)充從計(jì)算、內(nèi)存和通信的角度存在各種挑戰(zhàn),零一萬物能做到這個程度也并非一蹴而就。受限于計(jì)算復(fù)雜度、數(shù)據(jù)完備度等問題,大多數(shù)發(fā)布的大型語言模型僅支持幾千 tokens 的上下文長度。
為了解決這個限制,零一萬物技術(shù)團(tuán)隊(duì)實(shí)施了一系列優(yōu)化,包括:計(jì)算通信重疊、序列并行、通信壓縮等。通過這些能力增強(qiáng),實(shí)現(xiàn)了在大規(guī)模模型訓(xùn)練中近 100 倍的能力提升。
其實(shí),Yi 系列模型之所以能取得如此亮眼的成績,背后的 AI Infra 是功不可沒的,其通過「高精度」系統(tǒng)、彈性訓(xùn)和接力訓(xùn)等全棧式解決方案,確保訓(xùn)練高效、安全地進(jìn)行。
憑借強(qiáng)大的 AI Infra 支撐,零一萬物團(tuán)隊(duì)能實(shí)現(xiàn)超越行業(yè)水平的訓(xùn)練效果,Yi-34B 模型訓(xùn)練成本實(shí)測下降40%,實(shí)際訓(xùn)練完成達(dá)標(biāo)時間與預(yù)測的時間誤差不到一小時,進(jìn)一步模擬上到千億規(guī)模訓(xùn)練成本可下降多達(dá) 50%。
截至目前,零一萬物 Infra 能力實(shí)現(xiàn)故障預(yù)測準(zhǔn)確率超過90%,故障提前發(fā)現(xiàn)率達(dá)到 99.9%,不需要人工參與的故障自愈率超過 95%,
無論是人前耀眼的成績還是背后基礎(chǔ)能力的攻堅(jiān),也都離不開零一萬物潛心數(shù)月練就的大模型 「科學(xué)訓(xùn)?!狗椒ㄕ摗?/p>
大模型效果依賴于更多、更高質(zhì)量的數(shù)據(jù),零一萬物在數(shù)據(jù)處理管線上可謂「不惜成本」。
數(shù)據(jù)處理管線和加大規(guī)模預(yù)測的訓(xùn)練能力建設(shè),把以往的大模型訓(xùn)練碰運(yùn)氣的「煉丹」過程變得極度細(xì)致和科學(xué)化,不僅保證了目前發(fā)布 Yi-34B、Yi-6B 模型的高性能,也為未來更大規(guī)模模型的訓(xùn)練壓縮了時間和成本,
經(jīng)過幾個月大量的建模和實(shí)驗(yàn),零一萬物自研出一套「規(guī)?;?xùn)練實(shí)驗(yàn)平臺」,用來指導(dǎo)模型的設(shè)計(jì)和優(yōu)化。數(shù)據(jù)配比、超參搜索、模型結(jié)構(gòu)實(shí)驗(yàn)都可以在小規(guī)模實(shí)驗(yàn)平臺上進(jìn)行,對 34B 模型每個節(jié)點(diǎn)的預(yù)測誤差都可以控制在0.5%以內(nèi)。
在 Yi 開源模型的全球首發(fā)日,零一萬物 CEO 李開復(fù)也宣布,在完成 Yi-34B 預(yù)訓(xùn)練的同時,已經(jīng)旋即啟動下一個千億參數(shù)模型的訓(xùn)練?!噶阋蝗f物的數(shù)據(jù)處理管線、算法研究、實(shí)驗(yàn)平臺、GPU 資源和 AI Infra 都已經(jīng)準(zhǔn)備好,我們的動作會越來越快」。
二、從「AI 1.0」到「AI 2.0」
零一萬物的首次成果公布,體現(xiàn)的不僅是技術(shù)的進(jìn)步,還有商業(yè)的可能性。
今年 3 月,李開復(fù)作了一場關(guān)于 AI 從 1.0 時代跨到 2.0 時代的演講。隨后,零一萬物在李開復(fù)所設(shè)想的 AI 2.0 框架下成立,招攬了前百度安全副總裁馬杰、前微軟副總裁祁瑞峰等等技術(shù)大咖,陣容豪華,引起業(yè)內(nèi)的廣泛關(guān)注。
過去十年,深度學(xué)習(xí)催生了一批優(yōu)秀的 AI 公司,隨后經(jīng)過多年的發(fā)展,在過去兩年曾進(jìn)入短暫的低谷期,一度傳出 AI 泡沫、AI 寒冬的說法。其中的根源就在于:上一代 AI 公司盡管基于嶄新的技術(shù)立足,但在商業(yè)化上的步伐卻比預(yù)期慢。
而從去年 8 月 Stable Diffusion 掀起 AIGC 熱潮以來,加上去年11月底 ChatGPT 發(fā)布,全球 AI 突然看到了新的機(jī)會。這個新的機(jī)遇,被李開復(fù)稱為「AI 2.0」。
ChatGPT 之后,AI 時代的進(jìn)步在技術(shù)上體現(xiàn)為通用人工智能(AGI)雛形初顯,在商業(yè)應(yīng)用上則被李開復(fù)形容為平臺級的趨勢爆發(fā)。
所謂「平臺」,包含一個大的目標(biāo),即要大幅降低開發(fā) AI 應(yīng)用的成本。如同電與電網(wǎng)的區(qū)別,電是一項(xiàng)偉大的發(fā)明,但如果沒有電網(wǎng),就不會出現(xiàn)微波爐、電烤箱、電動車等新的發(fā)明。換言之,AI 2.0 之于 AI 1.0 的區(qū)別,就在于將 AI 技術(shù)變成平臺,將定制變成通用,將點(diǎn)變成面。
過去十年的商業(yè)實(shí)踐驗(yàn)證了 AI 1.0 時代的瓶頸。在 AI 1.0 時代,數(shù)據(jù)越多、結(jié)果越好,但同時也因?yàn)樾枰罅康臉?biāo)注數(shù)據(jù),成本巨大。此外,AI 1.0 時代的應(yīng)用在各個領(lǐng)域是相互割裂的,誕生了一連串的「孤島應(yīng)用」,無法形成有效的平臺。
但 AI 2.0 時代的技術(shù)基石是自監(jiān)督,可以讓 AI 模型不進(jìn)行數(shù)據(jù)標(biāo)注也能學(xué)習(xí)。雖然同樣需要將大量的、跨領(lǐng)域的數(shù)據(jù)拿來學(xué)習(xí),但學(xué)習(xí)后形成一個基礎(chǔ)模型(即大模型)后再去做知識的遷移,AI 即相當(dāng)于一個世界模型。經(jīng)過多年的訓(xùn)練與積累,基礎(chǔ)模型更成熟,基于基礎(chǔ)模型再做平臺應(yīng)用,即可打破 AI 應(yīng)用的孤島現(xiàn)象,邊際效益與日俱增。
換言之,AI 2.0 時代有三大優(yōu)勢:一是減少人工標(biāo)注;二是模型規(guī)模大,具備世界知識;三是能夠以極低的成本對基礎(chǔ)模型進(jìn)行微調(diào)訓(xùn)練,即可適應(yīng)不同領(lǐng)域的任務(wù)。所以,在 AI 2.0 時代,每個領(lǐng)域都有機(jī)會將原有的應(yīng)用重構(gòu)一遍,用更短的時間生產(chǎn)出更高質(zhì)量的數(shù)字內(nèi)容,而且千人千面、精準(zhǔn)優(yōu)化信息流,做出更偉大的商業(yè)模式。
一方面,降低訓(xùn)練成本是減少 AI 應(yīng)用開發(fā)成本、催生一系列爆款應(yīng)用的前提;另一方面,長文本處理是商業(yè)應(yīng)用的一道攔路虎。如果長文本處理的技術(shù)瓶頸能突破,許多更高難度的應(yīng)用也會被一一破解,如處理超長篇幅的法務(wù)合同、交叉對比多篇學(xué)術(shù)論文、基于長篇劇本進(jìn)行角色扮演、通過多篇財報進(jìn)行市場分析等等。
因此,「長文本處理」在下半年成為大模型賽道的兵家必爭之地。從 Anthropic AI 對 OpenAI 發(fā)起挑戰(zhàn)后,國內(nèi)多家大模型廠商也陸續(xù)推出長文本處理里程碑。如月之暗面的 Kimi Chat 支持 20 萬字輸入,百川智能的 Baichuan2-192k 支持 35 萬字輸入,零一萬物的 Yi-34B 迅速擴(kuò)展到 40 萬字。
此次零一萬物團(tuán)隊(duì)開源大模型 Yi-34B 與 Yi-6B,在長文本領(lǐng)域可以做到最長 200k 上下文窗口、40 萬字的文本處理,也與李開復(fù)此前談的 AI 2.0 思想相一致。同時,據(jù)零一萬物介紹,他們還依托基礎(chǔ)的計(jì)算設(shè)施與算法優(yōu)化等 Infra 能力,將訓(xùn)練成本下降了 40%。
上傳到 Hugging Face 不過兩天后,Yi-34B 的下載量就超過了 1000 次,獲得了接近 150 個點(diǎn)贊。
長文本處理的技術(shù)突破,不僅是表面上關(guān)于 Token 數(shù)的數(shù)據(jù)變更,更重要的是其體現(xiàn)了人工智能領(lǐng)域整體對 AI 2.0 時代所蘊(yùn)含的商業(yè)潛力的認(rèn)同與樂觀。正是因?yàn)閷Υ竽P蜑榇淼男乱淮?AI 技術(shù)的信心,才有如此多優(yōu)秀的技術(shù)人才涌入該賽道,在極短的時間內(nèi)快速突破了長文本等技術(shù)問題的局限。
據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解,如今長文本處理已逐漸被熱情的 AI 技術(shù)人才攻破,目前業(yè)內(nèi)流行的技術(shù)方法包括:最簡單粗暴的堆顯存,或滑動窗口、降采樣等,或在 Attention-mask 中做動態(tài)內(nèi)插。這些方法的效果很好,缺點(diǎn)是計(jì)算開銷大。但在各大云計(jì)算廠商的加持下,算力壁壘也被逐漸打了下來。
可以看見,AI 進(jìn)入一個新的時代毫無疑問已是行業(yè)共識。AI 2.0 代表一個新的商業(yè)愿景,道阻路長,玩家眾多,但后來者零一萬物也已成為其中最有潛力的團(tuán)隊(duì)之一,期待零一萬物接下來的表現(xiàn)。
OpenAI 首屆開發(fā)者大會召開在即,AI 科技評論持續(xù)關(guān)注,歡迎同樣關(guān)注的朋友添加作者微信 s1060788086 一起交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。