丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給郭思
發(fā)送

0

書生浦語靈筆開源之后,「007作家」能否走向工位?

本文作者: 郭思 2023-10-30 10:18
導(dǎo)語:開源大模型從技術(shù)到應(yīng)用,路在何方?

作者丨郭   思

編輯丨陳彩嫻

書生浦語靈筆開源之后,「007作家」能否走向工位?

目前,開源大模型已經(jīng)成為AI領(lǐng)域中的熱門話題。

中信所報(bào)告近期指出,目前超過一半國內(nèi)發(fā)布的大模型已經(jīng)實(shí)現(xiàn)了開源,其中開源的主力是高校和科研機(jī)構(gòu),如清華大學(xué)的ChatGLM-68、復(fù)旦大學(xué)的MOSS以及百度的文心系列大模型。在這其中,自然語言處理是大模型研發(fā)最活躍的領(lǐng)域。

易于使用、開放性、高質(zhì)量、免費(fèi)是開源大模型現(xiàn)階段備受追捧的顯著特征。

開源一個(gè)7B或20B的大模型成為了不那么稀奇的事件,但技術(shù)發(fā)展行至深處,人們猛然發(fā)現(xiàn),同質(zhì)化競爭之下,開源大模型能否從空中樓閣變成實(shí)際的生產(chǎn)力,成為了賽事角逐的關(guān)鍵。

近日,在開源浪潮之下,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)推出圖文混合創(chuàng)作大模型書生·浦語靈筆(InternLM-XComposer,以下簡稱“浦語靈筆”)。

目前,浦語靈筆已開源其中的智能創(chuàng)作和對話(InternLM-XComposer-7B)及多任務(wù)預(yù)訓(xùn)練(InternLM-XComposer-VL-7B)版本,并提供免費(fèi)商用。

相比起市面上千篇一律的聊天助手,浦語靈筆另辟蹊徑,沒有選擇拓寬做對話形式,而是轉(zhuǎn)向了大語言模型的長文本能力以及圖文多模態(tài)能力?,F(xiàn)階段,浦語靈筆能接受視覺和語言模態(tài)輸入,不僅在圖文對話方面表現(xiàn)優(yōu)秀,更具備圖文并茂文章的“一鍵生成”能力。

簡而言之,搭載了浦語靈筆的應(yīng)用,將會(huì)變得會(huì)寫長文,也會(huì)根據(jù)文章內(nèi)容進(jìn)行插圖,儼然一幅AI坐在工位上開始充當(dāng)小編的模樣。更為重要的是,這個(gè)小編是007工作制,可以24小時(shí)不用休息。

而當(dāng)書生浦語靈筆團(tuán)隊(duì)打響開源大模型在實(shí)際應(yīng)用的第一槍之后,幾個(gè)值得思考的問題涌入了大眾的腦海,開源大模型從技術(shù)到應(yīng)用存在哪些壁壘?又該如何突破?面對同質(zhì)化競爭,如浦語靈筆團(tuán)隊(duì)一般走出一條創(chuàng)新之路需要哪些要素?


1、當(dāng)大模型學(xué)會(huì)文配圖


人工智能寫文章難嗎?

其實(shí)也不難,只要輸入關(guān)鍵詞,提出需求,絕大多數(shù)的產(chǎn)品都能丟出一份500字的小作文。

但是一旦將需求改成1000字或者2000字,大部分產(chǎn)品都會(huì)顯示無法執(zhí)行。

現(xiàn)在主流的大語言模型大都只支持短文本的輸入(LLaMa支持2k tokens、Llama2支持4k tokens)。

而日常生活中,長文其實(shí)會(huì)更加嚴(yán)肅,也更符合工作需求。

只是不斷趨近于人類的大模型也有人類普遍擁有的「懶」病。

早在今年6月份斯坦福大學(xué)、加州大學(xué)伯克利分校和 Samaya AI 的研究者發(fā)布了一篇實(shí)證研究論文,深入探討了大模型的懶病問題,如果上下文過長,LLM會(huì)更多地關(guān)注起始和末尾部分,而幾乎忽略中間部分的信息。這種現(xiàn)象導(dǎo)致模型難以找到并利用放在長文中部的相關(guān)信息。

大眾苦大模型長文本能力久矣。

長文本能力也是各家發(fā)力的重點(diǎn),10月,楊植麟創(chuàng)業(yè)AI公司月之暗面(Moonshot AI)推出了首款大模型產(chǎn)品智能助手Kimi Chat,主打的就是,千億參數(shù)大模型,支持輸入的長文本首次達(dá)20萬x字。香港中文大學(xué)賈佳亞團(tuán)隊(duì)聯(lián)合MIT近期也宣布了一項(xiàng)新研究,發(fā)布全球首個(gè)70B參數(shù)的長文本開源大語言模型——LongAlpaca。

從今年7月起,上海AI實(shí)驗(yàn)室便陸續(xù)開源了書生·浦語大語言模型的7B(InterLM-7B)及20B(InternLM-20B)版本。

模型參數(shù)雖然沒有那么大,但是書生浦語20B(InternLM-20B)版本硬是憑著先進(jìn)的性能以及應(yīng)用的便捷性達(dá)到了當(dāng)前被視為開源模型標(biāo)桿的Llama2-70B的能力水平。

現(xiàn)階段書生·浦語——InternLM-20B最高支持16k語境長度,對長文本理解能力更強(qiáng)。InternLM-20B 在超過 2.3T Tokens 、包含高質(zhì)量英文、中文和代碼的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。

基于書生·浦語大語言模型(InternLM),浦語靈筆也有強(qiáng)大的長文理解能力。

如果說長文本能力是大模型寫作各家追逐的一個(gè)卡點(diǎn),那么如何讓AI更好的像人一樣掌握全流程工作技能,便是模擬一個(gè)真正的工種的關(guān)鍵。

信息化時(shí)代,一篇成品的文章,很少會(huì)只有一段文字。

無圖無真相,是大眾對信息傳播新的要求與期待。

普遍的寫文需求是,當(dāng)寫完了一篇長文之后,人們往往需要判斷,在哪個(gè)地方需要插圖。

對人而言,這很簡單,但是對大模型而言,這意味很高的要求。為這個(gè)任務(wù)足夠主觀,同樣一篇文章交給不同的編輯會(huì)有不同的呈現(xiàn)效果。

怎樣讓大模型去理解這個(gè)任務(wù)呢,其實(shí)這便要求書生浦語靈筆有強(qiáng)大的圖文多模態(tài)理解能力。

首先,這需要大模型對文章的內(nèi)容有一個(gè)很好的理解。也需要對整個(gè)候選圖庫里面幾千萬張圖有很好的認(rèn)識。比如涉及最近熱門的科學(xué)養(yǎng)寵的話題,大模型需要根據(jù)文章類別判斷,整篇文章是需要寵物的圖片還是狗糧的圖片。

另一方面,大模型也需要對整體文章風(fēng)格有充分的認(rèn)識。一篇輕松歡快的文章最好能配上明亮、快樂的照片,如果討論的話題比較沉重,就應(yīng)該偏嚴(yán)肅,帶灰調(diào)。

按照這個(gè)理解,這就要求在在技術(shù)實(shí)現(xiàn)上,大模型必須實(shí)現(xiàn)像人類一樣多步思考,把握全局的能力。

為了實(shí)現(xiàn)這一點(diǎn),浦語靈筆采用了多階段的訓(xùn)練策略,在大規(guī)模的圖文數(shù)據(jù)集上進(jìn)行多模態(tài)預(yù)訓(xùn)練,學(xué)習(xí)圖文之間的關(guān)聯(lián)和對齊,然后在多個(gè)具體的任務(wù)數(shù)據(jù)集上進(jìn)行多任務(wù)訓(xùn)練,提升模型在各個(gè)任務(wù)上的性能。

預(yù)訓(xùn)練和多任務(wù)訓(xùn)練的過程中,浦語靈筆使用了多種自定義的損失函數(shù)和評價(jià)指標(biāo),以適應(yīng)不同的任務(wù)需求。

靈筆的「三步走」的算法流程也正是模擬人類進(jìn)行工作的多階段細(xì)化。

書生浦語靈筆開源之后,「007作家」能否走向工位?

浦語靈筆圖文文章創(chuàng)作流程

浦語靈筆會(huì)先去理解用戶指令,創(chuàng)作符合主題要求的長文章,然后會(huì)進(jìn)行智能分析文章,模型自動(dòng)規(guī)劃插圖的理想位置,并生成所需圖像的內(nèi)容要求。

進(jìn)行完這兩步之后,如果人類作為一個(gè)監(jiān)工去審查大模型的工作,我們會(huì)發(fā)現(xiàn)結(jié)果可能還是不夠理想,有可能模型規(guī)劃的位置不對,也可能選取的圖像與描述不相符合。

浦語靈筆團(tuán)隊(duì)在進(jìn)行構(gòu)思時(shí),也考慮到了這一可能,多層次智能篩選,便是浦語靈筆能做到的第三步,也是極為關(guān)鍵的一步。

利用多模態(tài)大模型強(qiáng)大的圖像理解能力,浦語靈筆會(huì)從圖庫粗選出來4張或者 8 張候選圖,之后模型會(huì)根據(jù)文章上下文,基于對圖像內(nèi)容的精細(xì)理解,從所有的候選圖里挑選一張他認(rèn)為最合適的,完成選圖過程。

在這一步,浦語靈筆的圖文混合創(chuàng)作能力得以完美體現(xiàn),而這個(gè)能力的先決條件便是得先有圖文理解能力?,F(xiàn)有的 NLP 模型能理解文字,但是無法做到理解圖像,這是浦語靈筆與市面上其他語言大模型最核心的區(qū)別之一。

現(xiàn)階段,靈筆的圖像理解能力在多個(gè)多模態(tài)大模型的評測上都達(dá)到了最高的性能。

足夠智能的底層其實(shí)是十分扎實(shí)與卓越的基礎(chǔ)能力。

書生浦語靈筆開源之后,「007作家」能否走向工位?

浦語靈筆與其他開源模型的性能對比


2、開源大模型走向應(yīng)用需要幾步走?

大模型落地的產(chǎn)品形態(tài)同質(zhì)化已經(jīng)成為了中國市場的無形枷鎖。

這件事情在沒有大模型開源模式還沒出現(xiàn)之前是如此,在大模型陸續(xù)開源之后也是如此。

將ChatGPT單詞拆分,絕大多數(shù)都關(guān)注到了Chat,于是對話式產(chǎn)品層出不窮。百模大戰(zhàn),100個(gè)產(chǎn)品里有90個(gè)都是對話形式。

AI產(chǎn)品仿佛陷入了一個(gè)魔咒,一邊是熱絡(luò)的行業(yè)氛圍和資本市場,一邊是大量AI產(chǎn)品以同質(zhì)化、雷同化的形象出現(xiàn)在市場上。

其實(shí)這也折射出新興技術(shù)轉(zhuǎn)化為生產(chǎn)力的必經(jīng)歷程。

頂層的設(shè)計(jì)往往充滿著不確定性,而市場的判斷卻是樸素而直接的:誰能給我?guī)硎找婧透嗟膬r(jià)值,誰就是對于我有用的。

所以產(chǎn)業(yè)界才會(huì)一窩蜂的追尋噱頭與熱點(diǎn)。市面也才會(huì)出現(xiàn)那么多大大小小的聊天機(jī)器人。

而我們回歸問題本身,會(huì)發(fā)現(xiàn)產(chǎn)品同質(zhì)化是表現(xiàn),隨波逐流的思維定式本身才是疾病。

正如ChatGPT出現(xiàn)時(shí),大家最先關(guān)注的只是Chat一樣,如果只圍著一種形式發(fā)展與思考,出來的東西必然沒有創(chuàng)新的靈魂。

但如果關(guān)注ChatGPT的內(nèi)核,便可以發(fā)現(xiàn)大模型體現(xiàn)出來的是更強(qiáng)的泛化性能力,能夠在更多領(lǐng)域帶來通用的智能化變革。大模型帶來的革命最終還是要回歸到技術(shù)本身的價(jià)值,要應(yīng)用和落地,不會(huì)永遠(yuǎn)的只是一個(gè)聊天的Demo。

開源大模型走向應(yīng)用的第一步先得從思維上打破定式。

在進(jìn)行大模型開源的時(shí)候,我們?nèi)绾慰创竽P停?/p>

眾所周知,大語言模型的基本原理是仿生——用“數(shù)學(xué)參數(shù)”模擬人腦的“神經(jīng)元突觸”,當(dāng)參數(shù)超過1000億個(gè),就可以認(rèn)為它是“大”模型了。

普遍的認(rèn)知是,參數(shù)夠大便是大語言模型。

但如果重讀大語言模型的基本原理,會(huì)發(fā)現(xiàn),模擬人腦也是大語言模型的一個(gè)顯著特征。

而在上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華看來,如果把大語言模型看成是某一個(gè)模態(tài)對世界的理解與感知的模型,就會(huì)相當(dāng)局限,看待大語言模型,我們應(yīng)該將它理解成為一個(gè)中樞的大腦,可以調(diào)用各種工具,跟這個(gè)世界發(fā)生各種各樣的交互。

比如說跟一個(gè)機(jī)器人結(jié)合,讓機(jī)器人從原來只有小腦變成多了一個(gè)大腦,能干很多很豐富的事情。也可以和具體的提供服務(wù)的網(wǎng)站去結(jié)合,電商也好,購物也好,用戶可以對跟網(wǎng)站進(jìn)行交互,從一個(gè)簡單的檢索變成了更豐富的獲取信息的方式等等。

浦語靈筆的構(gòu)想最開始來自于團(tuán)隊(duì)成員的真實(shí)需求。

書生浦語靈筆的團(tuán)隊(duì)負(fù)責(zé)人王佳琦在一次使用ChatGPT之時(shí),發(fā)現(xiàn)自己大多時(shí)候都只想用ChatGPT來創(chuàng)造文本。

「要是生成完文章之后,可以直接配圖就好?!?/p>

借由這個(gè)思考,上海人工智能實(shí)驗(yàn)室從4月開始便著手構(gòu)建了書生·浦語靈筆的項(xiàng)目。

而在打破思維定式之后,開源大模型走向應(yīng)用還得在技術(shù)設(shè)計(jì)上「立」得住。

眾所周知,開源為技術(shù)創(chuàng)新提供了廣闊的舞臺。通過開源,企業(yè)可以共享自身研發(fā)的技術(shù)成果,促進(jìn)技術(shù)的交流和融合。因?yàn)橹挥衼碜缘讓邮褂谜叩男穆暎攀沁M(jìn)行技術(shù)改進(jìn)最好的源動(dòng)力。

Github、阿里的魔搭、百度文心一言的AI Studio星河大模型社區(qū),都是想在活躍的社區(qū)氛圍中探索商業(yè)變現(xiàn)的渠道。

此前在世界互聯(lián)網(wǎng)大會(huì)數(shù)字文明尼山對話上,百度創(chuàng)始人李彥宏就曾曾指出“新的國際競爭戰(zhàn)略關(guān)鍵點(diǎn),不是一個(gè)國家有多少個(gè)大模型,而是你的大模型上有多少原生的AI應(yīng)用,這些應(yīng)用在多大程度上提升了生產(chǎn)效率”。顯然,開源大模型要想立住自己的核心競爭力,開發(fā)者社群是一個(gè)非常關(guān)鍵的要素。

在與AI科技評論的交流中,浦語靈筆團(tuán)隊(duì)反復(fù)多次提到“用戶說”“社群反饋”這樣的字樣,然后解釋浦語靈筆后階段會(huì)如何根據(jù)這些信息進(jìn)行性能上的提升。

從這一點(diǎn)上而言,當(dāng)一個(gè)研究團(tuán)隊(duì)沒有閉門造車,而是不斷地與產(chǎn)業(yè)界交流,思考自己的方向的改進(jìn),看似很理所當(dāng)然,卻又是十分影響成敗的關(guān)鍵細(xì)節(jié)。

現(xiàn)階段,浦語靈筆的角色定位十分清晰,產(chǎn)生的影響也十分明顯。

「靈筆做好之后,確實(shí)能夠成為有效的生產(chǎn)力工具,能夠讓大家去進(jìn)行一個(gè)很好的文字圖文創(chuàng)作工具,有一個(gè)小編他可能要寫一個(gè)知乎專欄,或者要寫微信公眾號,需要這種圖文交錯(cuò)的創(chuàng)作情況下,靈筆能做得很好。我們的角色相當(dāng)于是給大家去做示范,這個(gè)事情是可行的?!?/p>

原子彈最有用的價(jià)值,是他能被造出來。

書生浦語靈筆的開源,也同樣為了讓整個(gè)行業(yè)有多一點(diǎn)點(diǎn)的思考。

究竟自己在整個(gè)浪潮中處于怎么樣的定位,如何走出自己的路?

思考清楚了,開源大模型從技術(shù)走向應(yīng)用或許也就不遠(yuǎn)了。

(本文作者郭思 微信號:lionceau2046,長期關(guān)注大模型領(lǐng)域前沿技術(shù)與產(chǎn)品,歡迎大家共同交流,互通有無。)

雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說