0
大模型,不再僅僅是娛樂的工具,它正在變成解決日常問題的生產(chǎn)工具。
這是AI掘金志看完商湯最新發(fā)布的日日新5.0后的感慨。
在商湯最新推出的日日新5.0版本中,在語言、知識、推理、數(shù)學(xué)、代碼等領(lǐng)域的能力有明顯提升,在主流客觀評測上達到或超越GPT-4 Turbo。
作為文科生,日日新5.0在開放問答場景做了重點優(yōu)化,在聊天、多輪對話、信息提取、寫作等場景達到業(yè)內(nèi)領(lǐng)先水平。
作為理科生,日日新5.0的知識、數(shù)學(xué)、推理、代碼能力,與GPT-4 Turbo不相上下。
我們能直觀感覺到,多模態(tài)大模型在急劇變化。
行業(yè)和打工人的福音,要來了?
商湯日日新多模態(tài)5.0,不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內(nèi)容。
既能跟你談詩詞歌賦,也能聊聊數(shù)理化,還能嘮嘮生活應(yīng)用,有文科生的才華,也有理科生的縝密。
穿搭建議、食品分析、文案創(chuàng)作、烹飪建議等,在諸多日常場景下,它已經(jīng)是一個“懂事”的日常助手。
文案創(chuàng)作(寫詩、寫作文、寫好評)是在行的
解釋表情包,它也懂梗圖
幫助辨別食物是否適用(健身減肥人士最愛)
圖片內(nèi)容理解準確,還能根據(jù)環(huán)境判斷這是商業(yè)區(qū)
馬桶水箱醒花,花藝也略懂一些啦(花藝小白新的知識增加了)
廚藝好像也不錯
截圖內(nèi)容理解準確且極為詳細
商湯日日新5.0的文生圖和文生視頻也不賴。比如文生大象中,商湯秒畫生成老象的效果更為自然,而友商中有出現(xiàn)三條腿的大象。
現(xiàn)場播放的三段視頻完全由大模型生成,效果逼真視頻,其實文生視頻中的人物、動作和場景的可控性非常難把握,但商湯文生視頻平臺依然保持視頻內(nèi)容的連貫性和一致性。
這一次,商湯的確讓人驚艷。
一切似乎在眨眼間,中國的大模型是從哪個步驟開始變得智能的?
上文都是多模態(tài)任務(wù),多模態(tài)能力是AGI決勝之戰(zhàn),也是中國彎道超車的關(guān)鍵一役,但這道城門頗為難攻。
多模態(tài)最大的挑戰(zhàn),是不同模態(tài)之間存在語義鴻溝,這種語言理解的鴻溝,會讓一些重要的視覺信息缺失,例如物體形狀、空間關(guān)系、情感表征能力以及重合等。
比如,文生圖模型畫一個熊貓,難點在于,文字信號指示詞語,而視覺信號是像素點,而這層次結(jié)構(gòu)不同,很難對齊,匹配要局部細節(jié)。此外,還有計算的效能、存儲等系列問題。
了解了這些,方能理解上文中展示的商湯多模態(tài)大模型的實力。
商湯為什么能在多模態(tài)大模型上跑得如此快?其實一直都有跡可循。
強大的算力供應(yīng)、算法和數(shù)據(jù)
AI三要素,算力、算法、數(shù)據(jù)依然是入場券。
首先,強大的算力供應(yīng),是如今最稀缺,也最有競爭力的要素。
短短2年內(nèi),中國的大模型百家爭鳴,但作為一項強技術(shù)、強資源、強投入導(dǎo)向的技術(shù),本質(zhì)上是大廠的游戲。
具備強大的算力基礎(chǔ)設(shè)施的計算硬件集群、資源調(diào)度等能力,能夠更高效的利用計算資源、降低模型的邊際成本的企業(yè),才有資格站在高處。
商湯是業(yè)內(nèi)少有的算力供應(yīng)大戶。
商湯從2017年、2018年起一直在AI基礎(chǔ)設(shè)施上進行了大手筆投入,這讓商湯AI大裝置SenseCore成為業(yè)內(nèi)稀缺的大模型專用基礎(chǔ)設(shè)施,總算力規(guī)模達12000P。
其中,上海臨港AIDC全新升級后可輸出8400P算力,是國內(nèi)最大的人工智能計算平臺。
擁有45000張GPU對外提供大模型訓(xùn)練與推理服務(wù),具備從“千卡千參”到“萬卡萬參”的大規(guī)模并行訓(xùn)練的能力。此外,商湯AI大裝置SenseCore已完成58款國產(chǎn)芯片的適配與應(yīng)用,國產(chǎn)化算力達1500P。
天下武功,為快不破,誰能更快優(yōu)化技術(shù),誰就能先一批找到商業(yè)化落地的大道。
模型迭代也取決于算力的供應(yīng)。在訓(xùn)練的階段,算力越大,可做出的模型就越大,更新迭代的速度就越快。
商湯在如此強大的算力供應(yīng)下,能夠在7B、20B、100B各個模型檔位上都能以最快的速度迭代。
日日新沒有辜負這個名字。自2023年4月發(fā)布“日日新”以來,商湯大模型以2個月至3個月一個版本的速度快速迭代,在短短1年,就迭代了5個版本。
再看算法。
前文提到,多模態(tài)最大的挑戰(zhàn)是不同模態(tài)之間的語義鴻溝。
不同模態(tài)的布局和對齊,不是每個模態(tài)的數(shù)據(jù)清洗完,輸入進入就能運行。
模態(tài)越多,對齊就越難做。每個環(huán)節(jié)都需要對每個模態(tài)的數(shù)據(jù)充分的理解和大量的積累。
因此商湯在算法模型設(shè)計下足了功夫。
業(yè)內(nèi)規(guī)模最大的視覺基礎(chǔ)模型,是谷歌220億參數(shù)大模型,用的是內(nèi)部JFT數(shù)據(jù),這個超大的內(nèi)部積累的圖片數(shù)據(jù)量,業(yè)內(nèi)難以匹敵。
商湯2023年下半年發(fā)布了一個60億大模型,僅用了四分之一的參數(shù),就在典型的檢測分割等能力上與之看齊。
以大分辨率長圖為例,給到一些多模態(tài)窗口,因圖像分辨率太大,窗口無法識別,但商湯的模型給出了非常大的分辨率接口,能識別2K??1萬分辨率的圖片,這成為商湯多模態(tài)區(qū)別于與友商的核心。
能支持這么高的分辨率,是算法模型設(shè)計的功勞。
過去的路線,需要基于語言大模型基座,做視覺等多模態(tài)的整合訓(xùn)練,把結(jié)果轉(zhuǎn)化成更高的維度,比如文本,再給到語言模型,所以也需要語言大模型有更強的認知理解能力。
過去的大語言模型只需要關(guān)注文本,多模態(tài)的數(shù)據(jù)分布、表達形式都不一樣,因此需要在模型設(shè)計上給更多的交互信息,這需要很精巧設(shè)計。
去年,商湯巧妙地設(shè)計預(yù)訓(xùn)練模型來讓模型挖掘不同模態(tài)之間的關(guān)聯(lián),將每一層信息帶入,并且做映射對齊,能力的提升直接體現(xiàn)在原生多模態(tài)大模型,能做到圖文、音頻、視覺抽取理解,得到了更強的提升和突破。
商湯算法模型設(shè)計精密相連的交互能力也很強。
商湯的一大優(yōu)勢是底層互通,整個模型設(shè)計是一體的。
“不少公司的產(chǎn)品是單一的,圖文理解、文生視頻都分屬不同的團隊,互相之間沒有連通,可能最多調(diào)用了同一個工具,只是把這個文檔拷貝到另外一個工具里,交互性很弱?!?/p>
商湯科技研發(fā)高級總監(jiān)盧樂煒表示,商湯的日日新商量5.0,同一個團隊,模型設(shè)計是一體的,交互能力有極大提升,能夠動態(tài)理解輸入的需求,理解圖片,并給到非常詳細的解釋。
再看數(shù)據(jù)。
AI領(lǐng)域十年,商湯落地了眾多行業(yè),城市智能、商業(yè)、醫(yī)療、金融、自動駕駛,甚至在鋼鐵、煤礦、電力等工業(yè)場景,商湯在各個行業(yè)積累了大量的多模態(tài)數(shù)據(jù)。
「量」有了,「質(zhì)」也要保證。
日日新5.0最重要的提升除了模型采用混合專家(MoE)之外,解決了數(shù)據(jù)質(zhì)量的瓶頸。商湯在知識層面上采用超過10T的Tokens,使得高質(zhì)量數(shù)據(jù)的完備性能夠得以保持。
除此之外,商湯還合成構(gòu)造了思維鏈數(shù)據(jù),這是真正意義上保障模型能力提升的關(guān)鍵。如果每一個行業(yè)思維鏈數(shù)據(jù)都能夠被輕松構(gòu)造的話,推理能力就會大幅度提升,在這個過程中構(gòu)造數(shù)千億的知識鏈數(shù)據(jù),從而使得模型能力可以對標(biāo)GPT-4 Turbo。
去年開始,商湯也建立了一個非常強大的數(shù)據(jù)處理引擎,每天可以處理超過兩萬億個token的數(shù)據(jù)清洗和蒸餾任務(wù),這也讓大模型數(shù)據(jù)供應(yīng)進行不斷地迭代,結(jié)合商湯獨特的算法設(shè)計去完成人工智能大模型算法、數(shù)據(jù)、算力三位一體的閉環(huán)。
多模態(tài)感知積淀
感知能力是多模態(tài)能力核心中的核心。
廢話不多說,直接上數(shù)據(jù)。
這個擁有超過千億參數(shù)的多模態(tài)大模型的圖文感知能力達到全球領(lǐng)先水平,具有全面知識系統(tǒng),對現(xiàn)實世界的理解大幅提升。
不僅在多模態(tài)大模型權(quán)威綜合基準測試MMBench中綜合得分排名首位,82.3(超過GPT-4V的77),在多個知名多模態(tài)榜單MathVista,AI2D,ChartQA,TextVQA,DocVQA,MMMU也取得領(lǐng)先成績。
這不是一日之功。
多年前手機相冊的“去年今日”、“歡樂時光”功能,根據(jù)某一時段的一些照片設(shè)定一個主題,自動配樂生成一段專屬MV,這可能是“自動化生成視頻”最初的樣式。
而商湯科技創(chuàng)始人湯曉鷗可能是最早一批探索視頻生成的人之一。
2012年,在那個互聯(lián)網(wǎng)主要流行媒體還是音樂和圖像的年代,湯曉鷗以第一作者就創(chuàng)新性提出論文《自動音樂視頻生成:音樂和圖像的交叉匹配》,該論文也入選2012年的ACM Multimedia(世界多媒體領(lǐng)域最重要的頂級會議)。
當(dāng)時的挑戰(zhàn)在于如何找到適配的圖像讓他們與歌曲對齊,團隊提出一個自動為給定歌曲生成音樂視頻的系統(tǒng),以歌詞關(guān)鍵字作為查詢檢索互聯(lián)網(wǎng)中的相關(guān)圖像,并使用基于學(xué)習(xí)的方法來估計圖像和音樂片段之間的語義分數(shù),自然語言處理技術(shù)在生成視頻中的作用開始顯露。
2014-2015年,商湯發(fā)布數(shù)據(jù)集CelebA,包含表情、情緒、長相、頭發(fā)等。這是引領(lǐng)生成模型發(fā)展的標(biāo)桿數(shù)據(jù)集,催生了第一代GAN對抗生成網(wǎng)絡(luò)發(fā)展。
2019-2020年,商湯將視覺算法積累和GAN技術(shù)結(jié)合,啟動如影數(shù)字人研究,并推動文生圖的相關(guān)研究。
多模態(tài)需要數(shù)據(jù)組織理解能力,有多視覺信息、音頻、視頻的理解。其實,作為以計算機視覺智能起家,曾經(jīng)的商湯有太多的光環(huán)和積累。
文生視頻和文生圖一脈相承,如今商湯的生成式AI領(lǐng)域持續(xù)迸發(fā),得益于此前多年持續(xù)不斷地探索與積累。
商湯具備高清長圖的解析和理解以及文生圖交互式生成,還可以實現(xiàn)復(fù)雜的跨文檔知識抽取及總結(jié)問答展示,還具備豐富的多模態(tài)交互能力也不足為奇了。
完善的服務(wù)
此外,商湯的知識庫、知識融合、微調(diào)等服務(wù)能力也更一步完善。
多模態(tài)大模型5.0新增知識融合接口,可基于知識庫能力優(yōu)化,大幅降低模型幻覺的出現(xiàn)。
商湯對行業(yè)知識進行系統(tǒng)的整理,每個行業(yè)大模型都會結(jié)合客戶知識、政策法規(guī)、前沿論文等梳理知識圖譜,形成豐富的、高時效性行業(yè)知識儲備。
在模型維度,研究團隊基于海量的圖文數(shù)據(jù)采用預(yù)訓(xùn)練和監(jiān)督微調(diào)的方式,可以處理多種類型的任務(wù),包括常規(guī)的圖文任務(wù)和開放式的長尾任務(wù)。
此外,多模態(tài)大模型5.0還搭建了完善的服務(wù)流程,支持QA和純文本數(shù)據(jù)的知識庫外掛,并可實現(xiàn)PDF、Word文檔等格式輸入;外接多個embedding模型,可提供知識融合服務(wù),并支持Prompt、SFT、Lora多種模型微調(diào)方法。
理論上,當(dāng)一個人同時具備數(shù)個維度的能力,有戰(zhàn)斗力儲備,有高智力和成熟的思考能力、邏輯、擴展能力,如果他還懂各行業(yè)各業(yè)的知識,服務(wù)還強,他能做到“上知天文下知地理”。
一個頂級高手,背后是各種單點技能和底層實力的環(huán)環(huán)相扣。
三、通用AI和生成式AI的商湯路徑
當(dāng)下的百模大戰(zhàn),有一種混亂的激烈。
業(yè)內(nèi)有大牛專家所言,目前的國產(chǎn)大模型有三類:原創(chuàng)大模型、套殼國外的開源大模型、拼裝大模型,即把過去的小模型們拼在一起,變成參數(shù)量看起來很大的“大模型”。
業(yè)內(nèi)多數(shù)公司,都是后兩者,要么只有模型,沒有算力,要么有算力,但算力缺乏運營,大模型缺乏差異化。
進入大模型的商業(yè)化落地競爭年,明面上的白熱化大模型戰(zhàn)場,其實是原創(chuàng)大模型之爭。
沒有足夠強的技術(shù)積累、持續(xù)的高投入和工程化能力,商業(yè)化落地就是裸泳。
商湯似乎走出一條通用大模型的產(chǎn)業(yè)化路徑。不但有“大模型+大算力”的雙輪驅(qū)動下的大模型即服務(wù),還有大模型的云、端、邊全棧布局。
2024年,百模大戰(zhàn)下半場,大參數(shù)、多模態(tài)、長文本百舸爭流,多模態(tài)的競爭更是按下了加速鍵。
也許在不久的將來,你可以打開電腦,輸入需求,大模型直接生成了PPT和文檔,如果你覺得不夠,你只需要說出需求,它就能不斷修改,比如某個圖表,怎么能畫得更好看。
生成PPT、生成影視作品分鏡頭、根據(jù)用戶需求直接寫代碼、生成程序......這些,是大模型研究團隊一直在努力的方向。
這份福利,未來日日新能帶給我們嗎,我們?nèi)f分期待。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。