0
2023 年,是國內(nèi)外大模型瘋狂 rush 的一年。
在這場白熱化的競爭中,大模型過剩帶來的市場擠壓感正時刻提醒著參與者所面臨的行業(yè)洗牌風險。各廠商深知,基礎(chǔ)通用大模型,注定是少數(shù)人的游戲。
為了贏得這場游戲,各家大模型多以一月四次的頻率飛速迭代自身產(chǎn)品。這么做的原因,無非是看中沖在前面的先發(fā)優(yōu)勢——這可以在一定的商業(yè)周期中,與后來者拉開不小的距離。
加之數(shù)據(jù)上的“飛輪效應”,更早應用、更多用戶的大模型,具備更高的市場打開度。
誠然,更靠前的身位的確重要,但過度地重視速度,則容易忽略大模型落地所需要的長周期、重基建和工程化難度——底層基礎(chǔ)尚不堅固就匆匆在此基礎(chǔ)上搭建高樓,其效果往往是「基礎(chǔ)不牢,地動山搖」。
雖說如此做法也可以營造繁榮的表象,成功地將模型的成績在某些特定的方面提上來,且在評測榜單中處于一個比較不錯的位置,但其背后,則更多地依靠專項調(diào)優(yōu)的方法,潛力十分有限。
經(jīng)過市場的狂熱期,整個行業(yè)意識到,還是要更多地關(guān)注基礎(chǔ)能力是否真正取得了進步。
不同于商業(yè)化的大模型廠商,上海人工智能實驗室在這場角逐中則穩(wěn)定地保持著自己的節(jié)奏。在 2023 年下半年發(fā)布了一個 20B 的模型之后,相當長一段時間內(nèi),在主模型上沒有太多的動作。
直到今年 1 月 17 日,書生·浦語 2.0 (InternLM2 )正式發(fā)布。
在這幾個月中,上海人工智能實驗室回歸到模型本身的核心能力上去,發(fā)現(xiàn)團隊還是有些課要補的,于是就關(guān)起門來,真正地、扎扎實實地把基礎(chǔ)能力給補上去。
「扎扎實實地在做高質(zhì)量基礎(chǔ)模型,回歸到語言建模的本質(zhì)?!股虾H斯ぶ悄軐嶒炇翌I(lǐng)軍科學家林達華如是說到。
回歸語言建模的本質(zhì)
2023 年 9 月,基于對剛發(fā)布的 20B 大模型一系列表現(xiàn)的思考,上海人工智能實驗室進行了深入的探討,最終得出結(jié)論:如果真的要做到 GPT 4 的水平,單是依靠在應用層面的調(diào)優(yōu)是不夠的。
把大模型的部分能力或成績調(diào)到一個較高水平并不難,但這并不代表整個語言模型的能力到了一個新的高度。林達華表示,「 InternLM2 的核心即在于回歸語言建模的本質(zhì)?!?/p>
其實,就當下的技術(shù)發(fā)展現(xiàn)狀,要想做好基礎(chǔ)能力,模型結(jié)構(gòu)并沒有特別大的改變空間,仍然是相對標準的 Transformer 架構(gòu),訓練方法大多也是類似的,所以核心還在數(shù)據(jù)。
「我們?nèi)匀徽J為,數(shù)據(jù)是做大模型的本質(zhì),語言建模能力增強的關(guān)鍵在于訓練語料質(zhì)量以及信息密度的提升。」林達華告訴 AI 科技評論。
為此,上海人工智能實驗室研發(fā)了新一代的數(shù)據(jù)清洗過濾技術(shù),主要發(fā)展了多維度數(shù)據(jù)價值評估、高質(zhì)量語料驅(qū)動的數(shù)據(jù)富集和有針對性的數(shù)據(jù)補齊這三方面的技術(shù)方法。
數(shù)據(jù)清洗的方式在原理上其實并不復雜,但是里面涉及到大量的技術(shù)細節(jié)。這些技術(shù)細節(jié)的打磨和調(diào)優(yōu)是一個艱苦的過程,需要進行大量的投入。
首先,從數(shù)據(jù)價值評估體系來看,沉淀出來這套體系實際上是要花很大力氣。其背后有十幾個不同的模型去關(guān)注數(shù)據(jù)的語言質(zhì)量、信息密度等不同維度。每一個模型都由一個小團隊或是研究員專門做,最后匯聚成一個完善高效的數(shù)據(jù)處理管線。
比如一個特定的模型,它的任務就是把所有的廣告濾出來,保留其中數(shù)學層面的東西,要求模型能相對精準地執(zhí)行這一指令。
其次,從高質(zhì)量語料的比重層面來看,從物理世界、互聯(lián)網(wǎng)以及語料庫中找到高價值的數(shù)據(jù),然后加重它們在整個訓練數(shù)據(jù)中的比重,本身即是一件有技術(shù)含量的事情。
互聯(lián)網(wǎng)中數(shù)據(jù)的密度較低,會有廣告、低質(zhì)量的信息充斥其中,這種數(shù)據(jù)對于模型能力的進一步提升帶來的效果是非常有限的。因此,在數(shù)據(jù)的分布調(diào)整上需要加強對于高信息量的、高價值的數(shù)據(jù)的富集,會通過一些高質(zhì)量的導引數(shù)據(jù)和種子數(shù)據(jù)去匯聚真正富有知識含量的數(shù)據(jù),壓動此類數(shù)據(jù)的比重,提高使用效率。
最后,對于模型暴露出來短板,在數(shù)據(jù)方面做了針對性的增強。針對性補充語料,重點加強世界知識、數(shù)理、代碼等核心能力。
為了打造這一套數(shù)據(jù)清洗和過濾的體系,團隊在背后訓了三位數(shù)數(shù)量級的模型,起碼有一兩百個?;旧?,每次在部分技術(shù)上做一些迭代,得全量訓一個起碼 7B 量級的模型,來發(fā)現(xiàn)它究竟有沒有真正成規(guī)模的去應用,是不是帶來有效的提升。
在這個過程中的,大量的內(nèi)容是沒有帶來提升的,但是也留下了一些真正有效的提升的東西,而這些提升的背后是大量實驗和龐大資源。
基于千億規(guī)模驗證集,比較初代 InternLM 和 InternLM2 在大規(guī)模高質(zhì)量的驗證語料上的 loss 分布,可以看到曲線整體左移,表明了語言建模能力的實質(zhì)性增強。
為了把曲線從右邊挪到左邊,團隊花了三四個月的時間。曲線挪過去之后就會發(fā)現(xiàn),只需要花幾個星期的時間,稍做一些對齊等其他工作,下游的表現(xiàn)、能力顯而易見取得更高的成績。
在過去一年的大模型研發(fā)歷程中,上海人工智能實驗室的數(shù)據(jù)清洗技術(shù)完成了三輪迭代。
比較這三代數(shù)據(jù)訓練的 7B 模型在下游任務中的性能成長曲線會發(fā)現(xiàn),在新的數(shù)據(jù)清洗技術(shù)的加持下,只使用約60%的訓練數(shù)據(jù)量即可達到使用上一版數(shù)據(jù)訓練 1T tokens的性能表現(xiàn),而且持續(xù)訓練后建模能力到達更高的水平。
去提升數(shù)據(jù)質(zhì)量,而非參數(shù)量——這一步于上海人工智能實驗室而言,是一個策略性考量。
打造出一版高質(zhì)量的數(shù)據(jù)之后,就可以根據(jù)算力的安排靈活地訓大、中、小的模型,無論是現(xiàn)在訓 7B 的、20B 的,還是未來訓 60B 的、100B 的都可以用這版數(shù)據(jù)。
目前,上海人工智能實驗室有幾個 T 的高質(zhì)量 Tokens,還沒有清洗的 Token 還有幾十個 T 的規(guī)模。
「上海 AI Lab 沉淀的訓練數(shù)據(jù)處理方法和能力,是我們重要的技術(shù)優(yōu)勢之一?!沽诌_華表示。
水到渠成的核心能力提升
回歸到本質(zhì),把語言建模能力這件事做好之后,模型下游任務的性能自然得到了全方位的提升。
這就相當于,如果底子不好,后續(xù)的一系列進程都難以為繼,雖然也能夠通過大量的題海戰(zhàn)術(shù),在某個特定的方向上做到很高的水平,但并不是模型能力本質(zhì)地提升;底子好了后,很多上層的東西能夠很快地上手,無論是繼續(xù)去做應用,還是把某個方向做一些加強,都是水到渠成的事情。
大海撈針的長窗口能力
InternLM2 可以有效支持 200K tokens超長上下文,而且在 LongBench 和 L-Eval 等長文任務中的表現(xiàn)也達到開源模型中的領(lǐng)先水平。
模型的超長上上下文支持能力,在當下是有切實需求的。
做一個比較長的對話、完成一個復雜的任務、解一道復雜的題目、讀一個財報,這些實用的基本需求都會對上下文的承接能力有要求。如果長窗口能力不成熟,有很多應用就根本跑不起來。
支持超長上下文的能力,并不只上海人工智能實驗室在做,其中不乏把能力打磨得很優(yōu)秀的大模型,但也有很多大模型用了些取巧的方法,雖然宣稱做了128K Token 的上下文,但是不一定能穩(wěn)定發(fā)揮,或者主要支持開頭和結(jié)尾的信息,一旦真正在中間某個地方塞一個信息,模型就無法正確回答。
為了檢驗長窗口能力的有效性,上海人工智能實驗室對 InternLM2 進行“大海撈針”試驗 —— 即將關(guān)鍵信息隨機插入一段長文本的不同位置來構(gòu)造問題,測試模型是否能從長文本中提取出關(guān)鍵信息,對模型的要求好似,無論把針放在哪,都要實打?qū)嵉負瞥鰜聿判小?/p>
比較 InternLM-Chat 和 InternLM2-Chat 在不同長度的上下文(橫軸)及上下文中不同位置(縱軸)上召回關(guān)鍵信息的準確率,紅色代表較低的召回準確率,而綠色則代表較高的召回率。
可以見得,初代模型隨著文檔長度的增長,召回準確率不斷下降,對于超過 8K 的上下文,平均準確率下降到低于30%的水平。而新一代 InternLM2-Chat,召回準確率始終保持在高位,16K以內(nèi)的平均準確率達到 95.65%。
繼續(xù)延長上下文的長度,對 InternLM-2 提出更大的挑戰(zhàn)。試驗結(jié)果表明,InternLM2-Chat 在上下文長度延展到 200K 時依舊保持了很高的信息召回成功率,驗證了 InternLM2 對于超長上下文的支持能力是十分堅實的。
通過兩個主流的長文評測集 LongBench 和 L-Eval 檢驗模型在多種長文任務中的表現(xiàn)對比,從上表中可以看到,InternLM2 在主流長文評測中表現(xiàn)不俗,不僅顯著超越了初代 InternLM、Qwen 和 Mistral,而且相比于在長文任務中有很強表現(xiàn)的 ChatGLM3 也稍勝一籌。
在提升長窗口能力方面,上海人工智能實驗室沒有做太多取巧。訓練的時候使用了最科學的位置編碼的方式,并且找到了一些有長結(jié)構(gòu)依賴關(guān)系的數(shù)據(jù),真正優(yōu)化了訓練系統(tǒng)能夠支持那么長的數(shù)據(jù),沒有中間截取了一半文本的情況。
高質(zhì)量的對話和創(chuàng)作能力
InternLM2 采用了 Online RLHF,對獎勵模型和對話模型進行了三輪迭代更新,在每一輪更新中針對前一輪模型的表現(xiàn)更新偏好數(shù)據(jù)和訓練 prompt。在獎勵模型訓練和 PPO 階段都平衡地采用各類 prompt,使得模型在安全性進一步提升的情況下,對話的主觀體驗也能顯著提升。
在斯坦福大學1月份剛發(fā)布的 AlpacaEval2 英文主觀對話榜單上,InternLM2-Chat-20B 超越了 GPT-3.5、 Gemini Pro 和 Claude-2。在谷歌發(fā)布的指令遵循能力評測集 IFEval 上,InternLM2-Chat-20B 的指令遵循率則超越了 GPT-4(79.5% vs 79.3%)。
在對話能力方面,InternLM2-Chat 可以精準地理解和遵循?戶意圖,具備較強的共情能?。
大模型的情感能力還是源于數(shù)據(jù)基礎(chǔ)能力。林達華表示,在 Chat 版本微調(diào)的時候,一方面,在制定微調(diào)的數(shù)據(jù)上面做了高質(zhì)量的清洗和過濾,數(shù)據(jù)清洗過濾技術(shù)的迭代不僅用在預訓練,也用在后面的微調(diào)數(shù)據(jù)上面;另一方面,RLHF的能力也得到了比較強大的增強,給了非常強的反饋,這些反饋使得模型在表達溫度、安全性上面各方面其實都能夠得到比較好的調(diào)整。
在創(chuàng)作能力方面,書生·浦語 2.0 的優(yōu)勢也很明顯,并且中文特色能力如吟詩作對不在話下,劇本小說亦信手拈來。
InternLM2-Chat-20B 將根據(jù)用戶的簡單指示展開暢想,編寫《流浪地球3》的電影劇本提綱:
這一劇本提綱,在保持一個合理自洽的邏輯的同時,想象力也足夠豐富。
可靠的工具調(diào)用能力
工具調(diào)用能夠把大模型的應用能力拓展到非常廣的邊界。
使用更高質(zhì)量的基礎(chǔ)模型,其工具調(diào)用會做得非??煽浚@表現(xiàn)在能夠持續(xù)多步的去調(diào)工具,中間都不出錯,從而完成復雜任務。
上一代的書生·浦語模型就已經(jīng)初步支持了工具調(diào)用能力,也展現(xiàn)出了零樣本調(diào)用工具的泛化能力。
InternLM2 進一步升級了模型的工具調(diào)用能力,基于更強和更具有泛化性的指令理解、工具篩選與結(jié)果反思等能力,可以更可靠地支持復雜智能體的搭建,支持對工具進行有效的多輪調(diào)用。
針對多種任務構(gòu)建了細粒度工具調(diào)用評測集 T-Eval(https://open-compass.github.io/T-Eval/),InternLM2-Chat-7B 在 T-Eval 上甚至超越了 Claude-2.1 和目前的開源模型,性能接近 GPT-3.5 和 GPT-4。
突出的數(shù)理能力
數(shù)學能力是大模型邏輯思維和推理能力的重要體現(xiàn),InternLM2 從多方面提升模型的數(shù)學能力。不僅能解復雜數(shù)學題,還提供實用的數(shù)據(jù)分析能力,還能使用代碼解決各類復雜的計算問題。
InternLM2 針對性提高了模型的計算能力,在不依靠計算器等外部工具的情況下,在100以內(nèi)的簡單數(shù)學運算上能夠做到接近100%的準確率,在1000以內(nèi)達到80%左右的運算準確率。
除此之外,書生·浦語 2.0 也能很好地支持代碼解釋器、編寫代碼進行更復雜的計算,或者對推理的結(jié)果進行形式化驗證,從而可以解決計算要求更高或者演算過程更加復雜的問題。
在典型的數(shù)學評測集 GSM8K 和 MATH 上,配合代碼解釋器,InternLM2 都能夠達到較高的分數(shù)。其中對于難度更高的 MATH 數(shù)據(jù)集,借助代碼解釋器,精度從 32.5 大幅提升到 51.2,甚至超過了 GPT-4 的表現(xiàn)。
配合代碼解釋器,20B 模型已經(jīng)能夠完成一些例如積分求解等大學級別的數(shù)學題目。
除了求解數(shù)學題之外,InternLM2 還能借助代碼解釋器進行數(shù)據(jù)分析和可視化。
例如,給模型新一份鮮出爐的2023年全國工業(yè)產(chǎn)值的數(shù)據(jù)表格,模型能夠根據(jù)數(shù)據(jù)繪制經(jīng)濟數(shù)據(jù)折線圖,并且使用機器學習模型預測未來的數(shù)據(jù)。
書生·浦語 2.0 ——打造堅實的語言大模型基座
經(jīng)過 2023 年大模型市場的角逐,不難發(fā)現(xiàn),諸如長窗口、情感計算等任何一個大模型能力上的突破作為優(yōu)勢,持續(xù)的時間不會超過三個月,各家的大模型用不了多久就會把能力補齊。
時間到了2024年,基座大模型的技術(shù)壁壘或許已不再高不可攀,要想獲得公眾、資本還是市場的青睞,勢必還需要把大模型推向真正的應用落地上。
反過來,各種應用的落地一定會依托一個比較強的、高質(zhì)量的基礎(chǔ)模型,這也是為什么上海人工智能實驗室選擇做高質(zhì)量基礎(chǔ)模型的原因——它能夠讓從模型到最終落地的應用中間的鏈條變得更短。
高質(zhì)量的模型能讓 AI 基礎(chǔ)上的應用變得更方便、便捷、可靠,用更小的力氣,站在更高的平臺上。
「未來,我們的關(guān)注點還是在基礎(chǔ)模型的質(zhì)量和能力上。商業(yè)組織會在人工智能基座的基礎(chǔ)上進行各類商業(yè)探索,但實驗室不一樣,我們會一直聚焦基礎(chǔ)模型研發(fā),長期投入于我們堅信的正確方向上。」林達華告訴 AI 科技評論。
書生·浦語 2.0 有三個版本,分別為 InternLM2-Base、InternLM2 和 InternLM2-Chat。
相較于浦語 1.0 ,本次多了一個 Base 版本。不同于以往的是,之前的基座模型已經(jīng)在數(shù)學、編程、理解等多個方面做過強化,而本次的 Base 版本沒有進行任何的強化工作。
InternLM2-Base 更像是一個預訓練的版本,它的能力還沒有被任何的方式激發(fā),可能在直接表現(xiàn)方面并不是特別強,但是它的可塑性很高。
Base 版本提供了很大的探索的空間,上海人工智能實驗室發(fā)布它的初衷也是希望各行業(yè)可以去探索如何將浦語 2.0 在某些垂直的方向進行運用,同時也期待對整個領(lǐng)域的生態(tài)構(gòu)建帶來更大的價值。
比較初代 InternLM 和 InternLM2 在各個能力維度上的表現(xiàn),在推理、數(shù)學、代碼方面,新一代模型的進步尤為明顯。
觀察 InternLM2 和 InternLM2-Chat 與 ChatGPT(GPT-3.5)以及 GPT-4 之間的差距可以發(fā)現(xiàn):
20B 的模型,在多個關(guān)鍵評測中已經(jīng)很接近甚至部分超越 ChatGPT(GPT-3.5),其中在 AGIEval、 BigBench-Hard(BBH)、GSM8K、MATH等對推理能力有較高要求的評測上,新一代20B模型的表現(xiàn)都優(yōu)勝于 ChatGPT,在代碼能力上的表現(xiàn)也遠優(yōu)于同量級開源模型,縮小了和 ChatGPT 的差距。
1 月 17 日,書?·浦語 2.0 正式發(fā)布后,即可免費商用,全鏈條開源。
上海人工智能實驗室在大模型上,始終堅持一個路線:以高質(zhì)量的開源來賦能創(chuàng)新——這是實驗室的定位所在,也是其使命使然。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
「我們正在建立國家的高質(zhì)量的開源基座,也希望能夠跟業(yè)界、學界傳達這樣的一個觀點:做大模型還是要回歸到很難但長期價值大的路徑上去,這樣才能最終到達一個新的高度?!?/p>
開源鏈接:https://github.com/InternLM/InternLM
免費商用授權(quán)許可申請:https://wj.qq.com/s2/12725412/f7c1
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。