0
作者丨郭 思
編輯丨陳彩嫻
目前,開源大模型已經(jīng)成為AI領(lǐng)域中的熱門話題。
中信所報告近期指出,目前超過一半國內(nèi)發(fā)布的大模型已經(jīng)實現(xiàn)了開源,其中開源的主力是高校和科研機構(gòu),如清華大學(xué)的ChatGLM-68、復(fù)旦大學(xué)的MOSS以及百度的文心系列大模型。在這其中,自然語言處理是大模型研發(fā)最活躍的領(lǐng)域。
易于使用、開放性、高質(zhì)量、免費是開源大模型現(xiàn)階段備受追捧的顯著特征。
開源一個7B或20B的大模型成為了不那么稀奇的事件,但技術(shù)發(fā)展行至深處,人們猛然發(fā)現(xiàn),同質(zhì)化競爭之下,開源大模型能否從空中樓閣變成實際的生產(chǎn)力,成為了賽事角逐的關(guān)鍵。
近日,在開源浪潮之下,上海人工智能實驗室(上海AI實驗室)推出圖文混合創(chuàng)作大模型書生·浦語靈筆(InternLM-XComposer,以下簡稱“浦語靈筆”)。
目前,浦語靈筆已開源其中的智能創(chuàng)作和對話(InternLM-XComposer-7B)及多任務(wù)預(yù)訓(xùn)練(InternLM-XComposer-VL-7B)版本,并提供免費商用。
相比起市面上千篇一律的聊天助手,浦語靈筆另辟蹊徑,沒有選擇拓寬做對話形式,而是轉(zhuǎn)向了大語言模型的長文本能力以及圖文多模態(tài)能力?,F(xiàn)階段,浦語靈筆能接受視覺和語言模態(tài)輸入,不僅在圖文對話方面表現(xiàn)優(yōu)秀,更具備圖文并茂文章的“一鍵生成”能力。
簡而言之,搭載了浦語靈筆的應(yīng)用,將會變得會寫長文,也會根據(jù)文章內(nèi)容進行插圖,儼然一幅AI坐在工位上開始充當小編的模樣。更為重要的是,這個小編是007工作制,可以24小時不用休息。
而當書生浦語靈筆團隊打響開源大模型在實際應(yīng)用的第一槍之后,幾個值得思考的問題涌入了大眾的腦海,開源大模型從技術(shù)到應(yīng)用存在哪些壁壘?又該如何突破?面對同質(zhì)化競爭,如浦語靈筆團隊一般走出一條創(chuàng)新之路需要哪些要素?
人工智能寫文章難嗎?
其實也不難,只要輸入關(guān)鍵詞,提出需求,絕大多數(shù)的產(chǎn)品都能丟出一份500字的小作文。
但是一旦將需求改成1000字或者2000字,大部分產(chǎn)品都會顯示無法執(zhí)行。
現(xiàn)在主流的大語言模型大都只支持短文本的輸入(LLaMa支持2k tokens、Llama2支持4k tokens)。
而日常生活中,長文其實會更加嚴肅,也更符合工作需求。
只是不斷趨近于人類的大模型也有人類普遍擁有的「懶」病。
早在今年6月份斯坦福大學(xué)、加州大學(xué)伯克利分校和 Samaya AI 的研究者發(fā)布了一篇實證研究論文,深入探討了大模型的懶病問題,如果上下文過長,LLM會更多地關(guān)注起始和末尾部分,而幾乎忽略中間部分的信息。這種現(xiàn)象導(dǎo)致模型難以找到并利用放在長文中部的相關(guān)信息。
大眾苦大模型長文本能力久矣。
長文本能力也是各家發(fā)力的重點,10月,楊植麟創(chuàng)業(yè)AI公司月之暗面(Moonshot AI)推出了首款大模型產(chǎn)品智能助手Kimi Chat,主打的就是,千億參數(shù)大模型,支持輸入的長文本首次達20萬x字。香港中文大學(xué)賈佳亞團隊聯(lián)合MIT近期也宣布了一項新研究,發(fā)布全球首個70B參數(shù)的長文本開源大語言模型——LongAlpaca。
從今年7月起,上海AI實驗室便陸續(xù)開源了書生·浦語大語言模型的7B(InterLM-7B)及20B(InternLM-20B)版本。
模型參數(shù)雖然沒有那么大,但是書生浦語20B(InternLM-20B)版本硬是憑著先進的性能以及應(yīng)用的便捷性達到了當前被視為開源模型標桿的Llama2-70B的能力水平。
現(xiàn)階段書生·浦語——InternLM-20B最高支持16k語境長度,對長文本理解能力更強。InternLM-20B 在超過 2.3T Tokens 、包含高質(zhì)量英文、中文和代碼的數(shù)據(jù)上進行預(yù)訓(xùn)練。
基于書生·浦語大語言模型(InternLM),浦語靈筆也有強大的長文理解能力。
如果說長文本能力是大模型寫作各家追逐的一個卡點,那么如何讓AI更好的像人一樣掌握全流程工作技能,便是模擬一個真正的工種的關(guān)鍵。
信息化時代,一篇成品的文章,很少會只有一段文字。
無圖無真相,是大眾對信息傳播新的要求與期待。
普遍的寫文需求是,當寫完了一篇長文之后,人們往往需要判斷,在哪個地方需要插圖。
對人而言,這很簡單,但是對大模型而言,這意味很高的要求。為這個任務(wù)足夠主觀,同樣一篇文章交給不同的編輯會有不同的呈現(xiàn)效果。
怎樣讓大模型去理解這個任務(wù)呢,其實這便要求書生浦語靈筆有強大的圖文多模態(tài)理解能力。
首先,這需要大模型對文章的內(nèi)容有一個很好的理解。也需要對整個候選圖庫里面幾千萬張圖有很好的認識。比如涉及最近熱門的科學(xué)養(yǎng)寵的話題,大模型需要根據(jù)文章類別判斷,整篇文章是需要寵物的圖片還是狗糧的圖片。
另一方面,大模型也需要對整體文章風格有充分的認識。一篇輕松歡快的文章最好能配上明亮、快樂的照片,如果討論的話題比較沉重,就應(yīng)該偏嚴肅,帶灰調(diào)。
按照這個理解,這就要求在在技術(shù)實現(xiàn)上,大模型必須實現(xiàn)像人類一樣多步思考,把握全局的能力。
為了實現(xiàn)這一點,浦語靈筆采用了多階段的訓(xùn)練策略,在大規(guī)模的圖文數(shù)據(jù)集上進行多模態(tài)預(yù)訓(xùn)練,學(xué)習(xí)圖文之間的關(guān)聯(lián)和對齊,然后在多個具體的任務(wù)數(shù)據(jù)集上進行多任務(wù)訓(xùn)練,提升模型在各個任務(wù)上的性能。
預(yù)訓(xùn)練和多任務(wù)訓(xùn)練的過程中,浦語靈筆使用了多種自定義的損失函數(shù)和評價指標,以適應(yīng)不同的任務(wù)需求。
靈筆的「三步走」的算法流程也正是模擬人類進行工作的多階段細化。
浦語靈筆圖文文章創(chuàng)作流程
浦語靈筆會先去理解用戶指令,創(chuàng)作符合主題要求的長文章,然后會進行智能分析文章,模型自動規(guī)劃插圖的理想位置,并生成所需圖像的內(nèi)容要求。
進行完這兩步之后,如果人類作為一個監(jiān)工去審查大模型的工作,我們會發(fā)現(xiàn)結(jié)果可能還是不夠理想,有可能模型規(guī)劃的位置不對,也可能選取的圖像與描述不相符合。
浦語靈筆團隊在進行構(gòu)思時,也考慮到了這一可能,多層次智能篩選,便是浦語靈筆能做到的第三步,也是極為關(guān)鍵的一步。
利用多模態(tài)大模型強大的圖像理解能力,浦語靈筆會從圖庫粗選出來4張或者 8 張候選圖,之后模型會根據(jù)文章上下文,基于對圖像內(nèi)容的精細理解,從所有的候選圖里挑選一張他認為最合適的,完成選圖過程。
在這一步,浦語靈筆的圖文混合創(chuàng)作能力得以完美體現(xiàn),而這個能力的先決條件便是得先有圖文理解能力?,F(xiàn)有的 NLP 模型能理解文字,但是無法做到理解圖像,這是浦語靈筆與市面上其他語言大模型最核心的區(qū)別之一。
現(xiàn)階段,靈筆的圖像理解能力在多個多模態(tài)大模型的評測上都達到了最高的性能。
足夠智能的底層其實是十分扎實與卓越的基礎(chǔ)能力。
浦語靈筆與其他開源模型的性能對比
大模型落地的產(chǎn)品形態(tài)同質(zhì)化已經(jīng)成為了中國市場的無形枷鎖。
這件事情在沒有大模型開源模式還沒出現(xiàn)之前是如此,在大模型陸續(xù)開源之后也是如此。
將ChatGPT單詞拆分,絕大多數(shù)都關(guān)注到了Chat,于是對話式產(chǎn)品層出不窮。百模大戰(zhàn),100個產(chǎn)品里有90個都是對話形式。
AI產(chǎn)品仿佛陷入了一個魔咒,一邊是熱絡(luò)的行業(yè)氛圍和資本市場,一邊是大量AI產(chǎn)品以同質(zhì)化、雷同化的形象出現(xiàn)在市場上。
其實這也折射出新興技術(shù)轉(zhuǎn)化為生產(chǎn)力的必經(jīng)歷程。
頂層的設(shè)計往往充滿著不確定性,而市場的判斷卻是樸素而直接的:誰能給我?guī)硎找婧透嗟膬r值,誰就是對于我有用的。
所以產(chǎn)業(yè)界才會一窩蜂的追尋噱頭與熱點。市面也才會出現(xiàn)那么多大大小小的聊天機器人。
而我們回歸問題本身,會發(fā)現(xiàn)產(chǎn)品同質(zhì)化是表現(xiàn),隨波逐流的思維定式本身才是疾病。
正如ChatGPT出現(xiàn)時,大家最先關(guān)注的只是Chat一樣,如果只圍著一種形式發(fā)展與思考,出來的東西必然沒有創(chuàng)新的靈魂。
但如果關(guān)注ChatGPT的內(nèi)核,便可以發(fā)現(xiàn)大模型體現(xiàn)出來的是更強的泛化性能力,能夠在更多領(lǐng)域帶來通用的智能化變革。大模型帶來的革命最終還是要回歸到技術(shù)本身的價值,要應(yīng)用和落地,不會永遠的只是一個聊天的Demo。
開源大模型走向應(yīng)用的第一步先得從思維上打破定式。
在進行大模型開源的時候,我們?nèi)绾慰创竽P停?/p>
眾所周知,大語言模型的基本原理是仿生——用“數(shù)學(xué)參數(shù)”模擬人腦的“神經(jīng)元突觸”,當參數(shù)超過1000億個,就可以認為它是“大”模型了。
普遍的認知是,參數(shù)夠大便是大語言模型。
但如果重讀大語言模型的基本原理,會發(fā)現(xiàn),模擬人腦也是大語言模型的一個顯著特征。
而在上海人工智能實驗室領(lǐng)軍科學(xué)家林達華看來,如果把大語言模型看成是某一個模態(tài)對世界的理解與感知的模型,就會相當局限,看待大語言模型,我們應(yīng)該將它理解成為一個中樞的大腦,可以調(diào)用各種工具,跟這個世界發(fā)生各種各樣的交互。
比如說跟一個機器人結(jié)合,讓機器人從原來只有小腦變成多了一個大腦,能干很多很豐富的事情。也可以和具體的提供服務(wù)的網(wǎng)站去結(jié)合,電商也好,購物也好,用戶可以對跟網(wǎng)站進行交互,從一個簡單的檢索變成了更豐富的獲取信息的方式等等。
浦語靈筆的構(gòu)想最開始來自于團隊成員的真實需求。
書生浦語靈筆的團隊負責人王佳琦在一次使用ChatGPT之時,發(fā)現(xiàn)自己大多時候都只想用ChatGPT來創(chuàng)造文本。
「要是生成完文章之后,可以直接配圖就好?!?/p>
借由這個思考,上海人工智能實驗室從4月開始便著手構(gòu)建了書生·浦語靈筆的項目。
而在打破思維定式之后,開源大模型走向應(yīng)用還得在技術(shù)設(shè)計上「立」得住。
眾所周知,開源為技術(shù)創(chuàng)新提供了廣闊的舞臺。通過開源,企業(yè)可以共享自身研發(fā)的技術(shù)成果,促進技術(shù)的交流和融合。因為只有來自底層使用者的心聲,才是進行技術(shù)改進最好的源動力。
Github、阿里的魔搭、百度文心一言的AI Studio星河大模型社區(qū),都是想在活躍的社區(qū)氛圍中探索商業(yè)變現(xiàn)的渠道。
此前在世界互聯(lián)網(wǎng)大會數(shù)字文明尼山對話上,百度創(chuàng)始人李彥宏就曾曾指出“新的國際競爭戰(zhàn)略關(guān)鍵點,不是一個國家有多少個大模型,而是你的大模型上有多少原生的AI應(yīng)用,這些應(yīng)用在多大程度上提升了生產(chǎn)效率”。顯然,開源大模型要想立住自己的核心競爭力,開發(fā)者社群是一個非常關(guān)鍵的要素。
在與AI科技評論的交流中,浦語靈筆團隊反復(fù)多次提到“用戶說”“社群反饋”這樣的字樣,然后解釋浦語靈筆后階段會如何根據(jù)這些信息進行性能上的提升。
從這一點上而言,當一個研究團隊沒有閉門造車,而是不斷地與產(chǎn)業(yè)界交流,思考自己的方向的改進,看似很理所當然,卻又是十分影響成敗的關(guān)鍵細節(jié)。
現(xiàn)階段,浦語靈筆的角色定位十分清晰,產(chǎn)生的影響也十分明顯。
「靈筆做好之后,確實能夠成為有效的生產(chǎn)力工具,能夠讓大家去進行一個很好的文字圖文創(chuàng)作工具,有一個小編他可能要寫一個知乎專欄,或者要寫微信公眾號,需要這種圖文交錯的創(chuàng)作情況下,靈筆能做得很好。我們的角色相當于是給大家去做示范,這個事情是可行的?!?/p>
原子彈最有用的價值,是他能被造出來。
書生浦語靈筆的開源,也同樣為了讓整個行業(yè)有多一點點的思考。
究竟自己在整個浪潮中處于怎么樣的定位,如何走出自己的路?
思考清楚了,開源大模型從技術(shù)走向應(yīng)用或許也就不遠了。
(本文作者郭思 微信號:lionceau2046,長期關(guān)注大模型領(lǐng)域前沿技術(shù)與產(chǎn)品,歡迎大家共同交流,互通有無。)
雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。