0
本文作者: 曉楠 | 2024-07-10 11:06 |
年初,OpenAI 推出文本-視頻生成模型 Sora,只需輸入提示文本描述,或輸入一張圖片,Sora 就能生成類似電影大片的逼真場景視頻,前所未有的新奇觀感,讓大眾直呼「現(xiàn)實不存在了」。
驚嘆之余,Sora 所展現(xiàn)出的神奇「魔法」,也讓業(yè)界意識到 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力與價值。
此后,AI 視頻生成模型搖身一變成為科技圈新的寵兒,并一改之前大語言模型一家獨大的格局為兩者的分庭抗禮。
「Sora熱」開始席卷全球,直到現(xiàn)在,國內(nèi)外相關(guān)的 AI 視頻生成模型或產(chǎn)品工具都將 Sora 奉為業(yè)界標桿,沿著一條類 Sora、比肩 Sora、超越 Sora 的道路狂奔。
但不可否認,相較于大語言模型的「狂飆」,目前 AI 視頻生成技術(shù)還處于早期階段,距離「ChatGPT」式的爆發(fā)仍有一段距離。即便強大如 Sora,也并非完美,在技術(shù)端依舊存在著許多未解的問題與挑戰(zhàn)。
為此,在當下, 如何利用大模型技術(shù)的強大能力,破解 AI 視頻生成領(lǐng)域的難題,更大程度上地釋放 AI 生產(chǎn)力,助推 AI 視頻生成再往前進一步,是業(yè)界在不斷思考和探索的重心。
前幾天,在世界人工智能大會上,阿里達摩院發(fā)布了一站式 AI 視頻創(chuàng)作平臺——尋光,似乎為 AI 視頻生成的發(fā)展帶來了新的范式。
可控編輯、一致性難以實現(xiàn),現(xiàn)有 AI 工作流亟待重塑
關(guān)注 Sora 的業(yè)界從業(yè)者應(yīng)該都知道幾個月前的著名「打假貼」事件。
簡單來說,當時 Sora 一經(jīng)發(fā)布,OpenAI 為了展示其強大能力和維持話題熱度,邀請了一些專業(yè)創(chuàng)作者、行業(yè) KOL 等試用 Sora,并時不時放出雙方合作生成的創(chuàng)意視頻,吸引大眾目光。
其中,有一個合作方是來自于多倫多的 Shy Kids 團隊,他們使用 Sora 制作的《Air Head(氣球人)》短片,因為創(chuàng)意新穎、將藝術(shù)與 AI 技術(shù)的完美結(jié)合,得到了大眾的一致贊美,更有甚者將之稱為「Sora 史上最佳短片作品」。
可是令人意想不到的是,后來制作團隊發(fā)文稱,《Air Head》并非由 Sora 一鍵生成,在實際的制作過程中,有大量的視覺效果是經(jīng)過人工后期編輯而成,才呈現(xiàn)出最終效果。
據(jù)他們介紹,整個短片是由多個視頻片段組成的,但是在生成不同的視頻片段時,很難保證主角始終是個長著黃色氣球腦袋的人,有時候氣球上會自動「長出」一張人臉,或者依照常識給主角安裝一個不符合劇情的腦袋,等等,bug多到創(chuàng)作人員頻頻吐槽「生成過程很難控制」。
另外,還有角色對象一致性的問題。
在短片中,主角的衣服和那頂標志性的黃色氣球腦袋充斥著劇情的始終,「絲滑」到看不出這是由多個視頻片段組成的。但實際上,Sora 并不能夠保證不同分鏡頭之間的主體一致性,僅僅依靠輸入提示詞,就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。
彼時新聞一出,業(yè)界在感到震驚之余,也意識到,即便是 Sora,生成內(nèi)容都需要大量的人工參與,難以為這些問題提供良好的解決方案,那么可想而知在整個領(lǐng)域中這些問題的普遍性。
的確如此。
據(jù)達摩院視覺技術(shù)實驗室高級算法專家陳威華介紹,在尋光平臺的研發(fā)過程中,團隊對當下的一眾現(xiàn)有視頻創(chuàng)作工具進行了大量的調(diào)研,并走訪了許多視頻創(chuàng)作者,對目前業(yè)界存在的問題匯總、分析之后發(fā)現(xiàn),當前在 AI 視頻生成領(lǐng)域,對于生成內(nèi)容的可控編輯、一致性等問題是創(chuàng)作過程中的重要需求,也是當前算法面臨的最大挑戰(zhàn)。
「現(xiàn)有 AI 工作流亟待重塑?!?/p>
在他看來,如今各種視頻生成大模型已經(jīng)讓大家感受到了 AI 技術(shù)帶來的福利,給短視頻制作提供了各種各樣的素材。而在素材齊全之后,接下來要做的就是進一步提升視頻制作的效率,解決視頻后期編輯中存在的各種問題。
而這也正是達摩院推出尋光平臺的初衷。
據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解,此次達摩院發(fā)布的尋光平臺,定位為 PUGC 一站式 AI 視頻創(chuàng)作平臺,能夠解決 AI 視頻編輯不夠精準可控的痛點,可支持接入多種視頻生成模型,并在行業(yè)首次落地基于圖層的視頻編輯,為復雜視頻創(chuàng)作提供了更高效、易用的 AI 工作流。
「我們的目標是用 AI 能力去重塑傳統(tǒng)視頻制作的整個流程,打造 AI 時代的全新視頻工作流。尋光視頻創(chuàng)作平臺,最大的特點是讓用戶實現(xiàn)對視頻內(nèi)容的精準控制,同時可以保持多個視頻中角色和場景的一致性。」陳威華說道。
「讓編輯像操作PPT一樣簡潔直觀,容易上手」
在發(fā)布現(xiàn)場,陳威華形容尋光平臺的推出,會對當前的視頻創(chuàng)作工作流進行優(yōu)化,使得 AI 視頻生成的工作范式發(fā)生新的變革,「讓編輯像操作 PPT 一樣簡潔直觀,容易上手」。
那么,尋光平臺具體是怎么做到的呢?其實可以通過幾個關(guān)鍵詞來認識它。
一個是「一站式 AI 視頻創(chuàng)作平臺」,如何理解?
大家都知道,當前市面上存在各種各樣的 AI 視頻生成工具,但是仔細看下來,當創(chuàng)作者想要創(chuàng)作一個視頻時,可能需要不同的工具來生成文字、圖片、分鏡頭等素材,最后再把它們匯總放在一起,生成最終的視頻。但在這個過程中,創(chuàng)作者往往需要在不同工具間流轉(zhuǎn),獲取不同的素材,不僅耗時,而且容易出錯,對創(chuàng)作者來說十分不友好。
而有了尋光平臺,直接可以一步到位,不再需要再多個平臺中間來回「轉(zhuǎn)場」。
比如,用戶在創(chuàng)作時,從劇本創(chuàng)作、分鏡生成到素材編輯等全套操作,都可以在尋光平臺上完成。另外,通過工作流整合提升了創(chuàng)作全流程的效率,支持對生成及上傳素材進行豐富的 AI 編輯,提供人物控制、場景控制、風格遷移、運鏡控制、目標新增/消除/修改等十多種 AI 編輯功能,讓視頻中的元素和對象精準可控。
舉例來說,對于視頻中的分鏡頭,用戶可以選擇在平臺上通過劇本自動生成,也可以選擇自己上傳原始視頻素材,由算法切分成多個分鏡頭。
另外,在創(chuàng)作空間中,如果用戶在查看分鏡頭的時候,發(fā)現(xiàn)有些細節(jié)需要完善,那么就可以通過編輯工具欄對分鏡頭做進一步的編輯,不再像傳統(tǒng)的視頻制作過程那樣,需要專門的工具來制作,然后再進行復制粘貼等操作。
可以說,一站式的工作流程,體現(xiàn)了尋光在用戶交互上面的友好,而這正是它的一大亮點所在。
據(jù)了解,尋光平臺是目前業(yè)界首個一站式 AI 視頻創(chuàng)作平臺。
第二個關(guān)鍵詞是首創(chuàng)「基于圖層的視頻編輯」。
前面在 Sora 的案例中提到,AI 視頻生成創(chuàng)作中,多個分鏡頭之間的場景與人物的一致性是至關(guān)重要的,其中的一個關(guān)鍵因素就在于分鏡頭中的視頻圖層,如果能夠基于圖層,在語義層面而不是像素層面實現(xiàn)可控編輯,是不是就能保證內(nèi)容的一致性呢?尋光就是這樣做的。
具體來看,尋光平臺是通過把視頻圖層相關(guān)的各項能力以一個系統(tǒng)性的方式完整地呈現(xiàn)給用戶,讓用戶基于圖層進行視頻的編輯、創(chuàng)作,主要包括前景圖層的生成、圖層拆解、圖層融合等環(huán)節(jié),從而保證視頻的一致性。
比如,尋光平臺上有個前景圖層功能,用戶可以通過輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。
另外,尋光平臺還提供圖層拆解功能,即如果用戶想從自己的已有視頻素材中提取需要的圖層,那么就可以使用拆解功能,算法就會把整段視頻中對應(yīng)物體的內(nèi)容拆解出來,然后形成一個獨立的帶透明背景的視頻圖層。
獲得了視頻圖層后,針對不同的創(chuàng)作需求,用戶就可以通過尋光平臺上的「圖層融合」功能,將前景圖層與不同的背景進行融合,從而生成各種各樣的視頻。
比如,以「小和尚練功」的視頻為例。
在原視頻中,小和尚正在練功,背景環(huán)境中有寺廟、竹林。那么,如果想要讓小和尚在不同的背景環(huán)境中練功,就可以通過尋光平臺的圖層拆解功能,將小和尚作為一個整體圖層拆解出來,然后根據(jù)具體的創(chuàng)作需求,將小和尚與不同的背景環(huán)境融合,生成新的視頻。
寫在最后
看到尋光平臺居然可以實現(xiàn)這么強大的功能,是不是有被震撼到?原來 AI 視頻生成也可以這么簡單。
如今,類 Sora 產(chǎn)品層出不窮。在世界人工智能大會上,不少國內(nèi)廠商的視頻生成模型也展示出令人驚艷的效果。但不可否認的是,它們距離廣泛應(yīng)用還有很長的距離,原因就在于AI視頻編輯流程復雜、門檻高,并不是人人都可以流暢玩轉(zhuǎn)。
而達摩院推出的尋光平臺,定位為解決當前業(yè)界類 Sora 產(chǎn)品涌現(xiàn)之后的編輯與創(chuàng)作問題,聚焦該如何滿足人類日益增長的想象力與 AI 生產(chǎn)力之間的需求,希望借此真正釋放 AI 生產(chǎn)力。
按照官方所展示的功能,尋光平臺將對傳統(tǒng)視頻制作的整個流程進行重塑,在不久的將來,每個人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時候,我們或許會距離 AI 視頻生成迎來「ChatGPT」式爆發(fā)再近一步。
「我們希望尋光視頻創(chuàng)作平臺就是每一個人手中的利器,是 AIGC 時代,每一個人的專屬視頻工作室?!龟愅A說。
據(jù)雷峰網(wǎng)了解,尋光平臺將于近期開放內(nèi)測,感興趣的創(chuàng)作者們可以來試用!
官網(wǎng)地址:https://xunguang.damo-vision.com/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。