0
年初 Sora 橫空出世,驗(yàn)證了 Scalling Law 在視頻生成方面的有效性。但 Sora 始終止步于公開的 60 秒 demo,產(chǎn)品落地計(jì)劃遲遲未有公開。
隨后的半年時(shí)間,不少“玩家”繼續(xù)在AI視頻生成賽道展開角逐,并逐步實(shí)現(xiàn)落地。今年6月,快手打“前鋒”,發(fā)布即可用的“可靈”成為國內(nèi)視頻生成賽道的“黑馬”。
緊隨其后,國外知名 3D 建模平臺(tái) Luma AI 也高調(diào)入局,發(fā)布文生視頻模型 ,并宣布對(duì)所有用戶免費(fèi)開放使用,再掀波瀾。
昨日,快手進(jìn)一步宣布全面開放內(nèi)測(cè),同時(shí)推進(jìn)商業(yè)化,上線了會(huì)員付費(fèi)體系。
而就在今日,智譜也正式上線了AI視頻生成功能清影(Ying),正式入局文生視頻及圖生視頻賽道,生成6秒視頻僅需30秒的時(shí)間。首發(fā)測(cè)試期間,可以免費(fèi)試用。
值得關(guān)注的是,智譜是目前國內(nèi)超 200 億估值的大模型公司中、第一家發(fā)布視頻生成成果的創(chuàng)業(yè)團(tuán)隊(duì)。
此前,智譜在外界傳遞的技術(shù)優(yōu)勢(shì)以文本、檢索為先,Tier 1 中多模態(tài)能力被寄予眾望的兩家是月之暗面、MiniMax,但在視頻生成上,智譜卻先人一步,率先亮出了耀眼的成績(jī)。
快速的多模態(tài)能力成長(zhǎng),不僅得益于行業(yè)的技術(shù)進(jìn)步,展露了智譜在多模態(tài)算法、算力儲(chǔ)備上少為人關(guān)注的“肌肉”,更歸功于智譜的扎實(shí)積累:
實(shí)際上,智譜在 all in 大模型之初就開始布局多模態(tài),且在2022年率先發(fā)布了基于大模型的文本到視頻生成模型 CogVideo。
智譜清影便是基于這一模型的升級(jí)版——CogVideoX 實(shí)現(xiàn)的。
“CogVideoX能將文本、時(shí)間、空間三個(gè)維度融合起來,參考了Sora的算法設(shè)計(jì),它也是一個(gè)DiT架構(gòu),通過優(yōu)化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我們將繼續(xù)努力迭代,在后續(xù)版本中,陸續(xù)推出更高分辨率、更長(zhǎng)時(shí)長(zhǎng)的生成視頻功能?!敝亲V AI CEO 張鵬說道。
智譜“清影”正式上線
今日,智譜在Open Day 上正式發(fā)布“清影”后,當(dāng)前,在智譜清言平臺(tái)上,該功能已正式開放內(nèi)測(cè),支持PC、APP及小程序。
目前,清影所能生成的視頻時(shí)長(zhǎng)為 6s,渲染時(shí)長(zhǎng)在 30s 左右。此外,所生成視頻的分辨率已達(dá)1440p。
(鏈接:https://chatglm.cn/video )
從文生視頻的具體操作來看,輸入一段文字后(俗稱“Prompt”),便可以自主選擇想要生成的風(fēng)格,包括卡通3D、黑白、油畫、電影感等,再疊加清影自帶的音樂,隨即生成視頻。
同步上線的還有圖生視頻功能,包括表情包梗圖、廣告制作、劇情創(chuàng)作、短視頻創(chuàng)作等。同時(shí),基于清影的“老照片動(dòng)起來”小程序也將上線,清影在讓老照片“復(fù)活”方面表現(xiàn)可觀,且能夠自動(dòng)實(shí)現(xiàn)上色:
原圖為未上色黑白版
https://sfile.chatglm.cn/testpath/video/6954cc06-7293-5144-a410-dc53c980a9b6_0.mp4
生成后視頻(指令為:圖中的奶奶帶上頭戴式耳機(jī))
從生成視頻的類型維度上看,清影主要在風(fēng)景、動(dòng)物、超現(xiàn)實(shí)、人文歷史類需求上表現(xiàn)更好;在視頻風(fēng)格維度上,皮克斯風(fēng)格、卡通風(fēng)格、攝影風(fēng)格、動(dòng)漫風(fēng)格均能夠自主選擇;鏡頭畫面實(shí)現(xiàn)效果最好的是近景。
需要注意的是,在實(shí)操過程中,提示詞作為重要一環(huán),會(huì)對(duì)生成視頻的效果產(chǎn)生一定影響。
例如,描述為“小男孩喝咖啡”與“攝影機(jī)平移,一個(gè)小男孩坐在公園的長(zhǎng)椅上,手里拿著一杯熱氣騰騰的咖啡。他穿著一件藍(lán)色的襯衫,看起來很愉快,背景是綠樹成蔭的公園,陽光透過樹葉灑在男孩身上?!彼_(dá)成的效果便不盡相同。
此外,為了使提示詞更加清晰可執(zhí)行,智譜還相應(yīng)地提供了文生視頻及圖生視頻的prompt智能體,輔助達(dá)成更好的視頻生成效果。在圖生視頻界面,直接點(diǎn)擊“幫我想一條”即可快速獲得提示詞。
從價(jià)格上來看,此次首發(fā)測(cè)試期間,所有用戶均可免費(fèi)使用。
當(dāng)前,清影生成視頻需要排隊(duì)等待 1 分鐘以上,而如需走 VIP 通道快速“提貨”,則需要購買加速包。清影界面顯示,解鎖一天(24小時(shí))的高速通道權(quán)益收費(fèi)5元,付費(fèi)199元解鎖一年付費(fèi)高速通道權(quán)益。
值得一提的是,智譜還將成為國內(nèi)首個(gè)面向開發(fā)者開放視頻生成大模型的廠商。在 CogVideoX 上線開放平臺(tái)后,開發(fā)者可以通過調(diào)用API的方式,體驗(yàn)和使用文生視頻以及圖生視頻的模型能力。
依托自研提質(zhì)增效
清影主要依托于智譜團(tuán)隊(duì)自研的視頻生成大模型 CogVideoX。
而從技術(shù)維度進(jìn)行深度剖析來看,首先,智譜自研了一個(gè)高效的三維變分自編碼器結(jié)構(gòu)(3D VAE)來解決內(nèi)容連貫性的問題,將原視頻空間壓縮至2%大小,以減少視頻擴(kuò)散生成模型的訓(xùn)練成本及訓(xùn)練難度。
模型結(jié)構(gòu)方面,采用因果三維卷積(Causal 3D convolution)為主要模型組件,移除了自編碼器中常用的注意力模塊,使得模型具備不同分辨率遷移使用的能力。
同時(shí),在時(shí)間維度上因果卷積的形式也使得模型具備視頻編解碼具備從前向后的序列獨(dú)立性,便于通過微調(diào)的方式向更高幀率與更長(zhǎng)時(shí)間泛化。
從工程部署的角度,基于時(shí)間維度上的序列并行(Temporal Sequential Parallel)對(duì)變分自編碼器進(jìn)行微調(diào)及部署,使其具備支持在更小的顯存占用下支持極高幀數(shù)視頻的編解碼的能力。
其次,針對(duì)目前的視頻數(shù)據(jù)大多缺乏對(duì)應(yīng)的描述性文本或者描述質(zhì)量低下的情況,智譜自研了一個(gè)端到端的視頻理解模型,用于為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述,增強(qiáng)模型的文本理解和指令遵循能力,使生成的視頻更符合用戶的輸入,能夠理解超長(zhǎng)復(fù)雜prompt指令。
最后,智譜還自研了一個(gè)將文本、時(shí)間、空間三個(gè)維度全部融合起來的 transformer 架構(gòu),摒棄了傳統(tǒng)的 cross attention 模塊,在輸入階段就將文本 embedding 和視頻 embedding concat 起來,以便更充分地進(jìn)行兩種模態(tài)的交互。
由于兩種模態(tài)的特征空間存在很大差異,智譜進(jìn)一步通過 expert adaptive layernorm 對(duì)文本和視頻兩個(gè)模態(tài)分別進(jìn)行處理來彌補(bǔ),更有效地利用擴(kuò)散模型中的時(shí)間步信息,使得模型能夠高效利用參數(shù)來更好地將視覺信息與語義信息對(duì)齊。
其中,注意力模塊采用了 3D 全注意力機(jī)制,先前的研究通常使用分離的空間和時(shí)間注意力,或者分塊時(shí)空注意力,需要大量隱式傳遞視覺信息,大大增加了建模難度,同時(shí),也無法與現(xiàn)有的高效訓(xùn)練框架適配。位置編碼模塊設(shè)計(jì)了 3D RoPE,更有利于在時(shí)間維度上捕捉幀間關(guān)系,建立起視頻中的長(zhǎng)程依賴。
多模態(tài)領(lǐng)域厚積薄發(fā)
多模態(tài)大模型技術(shù)底座的支撐,讓智譜發(fā)布“清影”,成為積淀已久的使然。2021年,智譜正式發(fā)布文生圖大模型 CogView,次年迭代至 CogView2,并在今年發(fā)布 CogView3。
而實(shí)際上,早在2022年,基于CogView,智譜團(tuán)隊(duì)便已正式推出了文生視頻大模型 CogVideo。
據(jù)介紹,CogVideo 采用多幀率分層訓(xùn)練策略生成高質(zhì)量的視頻片段,提出一種基于遞歸插值的方法,逐步生成與每個(gè)子描述相對(duì)應(yīng)的視頻片段,并將這些視頻片段逐層插值得到最終的視頻片段。
過去一年多,智譜在多模態(tài)大模型發(fā)展上一路狂飆。2023 年3月,智譜推出了千億開源基座對(duì)話模型 ChatGLM ,5月,又發(fā)布了圖文對(duì)話大模型VisualGLM,隨后,迅速在6 月、10 月推出迭代版的 ChatGLM2 與 ChatGLM3,并在今年 1 月迭代至 GLM-4 。
去年年末,智譜還推出了多模態(tài)對(duì)話模型 CogVLM,今年逐步迭代至 CogVLM2。
智譜 GLM 大模型團(tuán)隊(duì)認(rèn)為,“文本是構(gòu)建大模型的關(guān)鍵基礎(chǔ),下一步則應(yīng)該把文本、圖像、視頻、音頻等多種模態(tài)混合在一起訓(xùn)練,構(gòu)建真正原生的多模態(tài)模型?!蔽磥泶竽P偷募夹g(shù)突破方向之一就是原生多模態(tài)大模型。
當(dāng)前,“多模態(tài)模型的探索還處于非常初級(jí)的階段”。從生成視頻的效果看,對(duì)物理世界規(guī)律的理解、高分辨率、鏡頭動(dòng)作連貫性以及時(shí)長(zhǎng)等,都有非常大的提升空間。而從模型本身角度看,需要更具突破式創(chuàng)新的新模型架構(gòu),能夠更高效壓縮視頻信息,更充分融合文本和視頻內(nèi)容,貼合用戶指令的同時(shí),讓生成內(nèi)容真實(shí)感更高。
而在生成式視頻模型的研發(fā)中,Scaling Law 將繼續(xù)在算法和數(shù)據(jù)兩方面發(fā)揮作用?!拔覀兎e極在模型層面探索更高效的scaling方式?!睆堸i表示,“隨著算法、數(shù)據(jù)不斷迭代,相信Scaling Law將繼續(xù)發(fā)揮強(qiáng)有力作用。”雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。