達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

本文作者：曉楠

2024-07-10 11:06

導(dǎo)語(yǔ)： AI 生產(chǎn)力與人類(lèi)日益增長(zhǎng)的想象力之間的需求還有多久才能滿足？

年初，OpenAI 推出文本-視頻生成模型 Sora，只需輸入提示文本描述，或輸入一張圖片，Sora 就能生成類(lèi)似電影大片的逼真場(chǎng)景視頻，前所未有的新奇觀感，讓大眾直呼「現(xiàn)實(shí)不存在了」。

驚嘆之余，Sora 所展現(xiàn)出的神奇「魔法」，也讓業(yè)界意識(shí)到 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力與價(jià)值。

此后，AI 視頻生成模型搖身一變成為科技圈新的寵兒，并一改之前大語(yǔ)言模型一家獨(dú)大的格局為兩者的分庭抗禮。

「Sora熱」開(kāi)始席卷全球，直到現(xiàn)在，國(guó)內(nèi)外相關(guān)的 AI 視頻生成模型或產(chǎn)品工具都將 Sora 奉為業(yè)界標(biāo)桿，沿著一條類(lèi) Sora、比肩 Sora、超越 Sora 的道路狂奔。

但不可否認(rèn)，相較于大語(yǔ)言模型的「狂飆」，目前 AI 視頻生成技術(shù)還處于早期階段，距離「ChatGPT」式的爆發(fā)仍有一段距離。即便強(qiáng)大如 Sora，也并非完美，在技術(shù)端依舊存在著許多未解的問(wèn)題與挑戰(zhàn)。

為此，在當(dāng)下，如何利用大模型技術(shù)的強(qiáng)大能力，破解 AI 視頻生成領(lǐng)域的難題，更大程度上地釋放 AI 生產(chǎn)力，助推 AI 視頻生成再往前進(jìn)一步，是業(yè)界在不斷思考和探索的重心。

前幾天，在世界人工智能大會(huì)上，阿里達(dá)摩院發(fā)布了一站式 AI 視頻創(chuàng)作平臺(tái)——尋光，似乎為 AI 視頻生成的發(fā)展帶來(lái)了新的范式。

可控編輯、一致性難以實(shí)現(xiàn)，現(xiàn)有 AI 工作流亟待重塑

關(guān)注 Sora 的業(yè)界從業(yè)者應(yīng)該都知道幾個(gè)月前的著名「打假貼」事件。

簡(jiǎn)單來(lái)說(shuō)，當(dāng)時(shí) Sora 一經(jīng)發(fā)布，OpenAI 為了展示其強(qiáng)大能力和維持話題熱度，邀請(qǐng)了一些專(zhuān)業(yè)創(chuàng)作者、行業(yè) KOL 等試用 Sora，并時(shí)不時(shí)放出雙方合作生成的創(chuàng)意視頻，吸引大眾目光。

其中，有一個(gè)合作方是來(lái)自于多倫多的 Shy Kids 團(tuán)隊(duì)，他們使用 Sora 制作的《Air Head（氣球人）》短片，因?yàn)閯?chuàng)意新穎、將藝術(shù)與 AI 技術(shù)的完美結(jié)合，得到了大眾的一致贊美，更有甚者將之稱(chēng)為「Sora 史上最佳短片作品」。

可是令人意想不到的是，后來(lái)制作團(tuán)隊(duì)發(fā)文稱(chēng)，《Air Head》并非由 Sora 一鍵生成，在實(shí)際的制作過(guò)程中，有大量的視覺(jué)效果是經(jīng)過(guò)人工后期編輯而成，才呈現(xiàn)出最終效果。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

據(jù)他們介紹，整個(gè)短片是由多個(gè)視頻片段組成的，但是在生成不同的視頻片段時(shí)，很難保證主角始終是個(gè)長(zhǎng)著黃色氣球腦袋的人，有時(shí)候氣球上會(huì)自動(dòng)「長(zhǎng)出」一張人臉，或者依照常識(shí)給主角安裝一個(gè)不符合劇情的腦袋，等等，bug多到創(chuàng)作人員頻頻吐槽「生成過(guò)程很難控制」。

另外，還有角色對(duì)象一致性的問(wèn)題。

在短片中，主角的衣服和那頂標(biāo)志性的黃色氣球腦袋充斥著劇情的始終，「絲滑」到看不出這是由多個(gè)視頻片段組成的。但實(shí)際上，Sora 并不能夠保證不同分鏡頭之間的主體一致性，僅僅依靠輸入提示詞，就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。

彼時(shí)新聞一出，業(yè)界在感到震驚之余，也意識(shí)到，即便是 Sora，生成內(nèi)容都需要大量的人工參與，難以為這些問(wèn)題提供良好的解決方案，那么可想而知在整個(gè)領(lǐng)域中這些問(wèn)題的普遍性。

的確如此。

據(jù)達(dá)摩院視覺(jué)技術(shù)實(shí)驗(yàn)室高級(jí)算法專(zhuān)家陳威華介紹，在尋光平臺(tái)的研發(fā)過(guò)程中，團(tuán)隊(duì)對(duì)當(dāng)下的一眾現(xiàn)有視頻創(chuàng)作工具進(jìn)行了大量的調(diào)研，并走訪了許多視頻創(chuàng)作者，對(duì)目前業(yè)界存在的問(wèn)題匯總、分析之后發(fā)現(xiàn)，當(dāng)前在 AI 視頻生成領(lǐng)域，對(duì)于生成內(nèi)容的可控編輯、一致性等問(wèn)題是創(chuàng)作過(guò)程中的重要需求，也是當(dāng)前算法面臨的最大挑戰(zhàn)。

「現(xiàn)有 AI 工作流亟待重塑。」

在他看來(lái)，如今各種視頻生成大模型已經(jīng)讓大家感受到了 AI 技術(shù)帶來(lái)的福利，給短視頻制作提供了各種各樣的素材。而在素材齊全之后，接下來(lái)要做的就是進(jìn)一步提升視頻制作的效率，解決視頻后期編輯中存在的各種問(wèn)題。

而這也正是達(dá)摩院推出尋光平臺(tái)的初衷。

據(jù)雷峰網(wǎng)了解，此次達(dá)摩院發(fā)布的尋光平臺(tái)，定位為 PUGC 一站式 AI 視頻創(chuàng)作平臺(tái)，能夠解決 AI 視頻編輯不夠精準(zhǔn)可控的痛點(diǎn)，可支持接入多種視頻生成模型，并在行業(yè)首次落地基于圖層的視頻編輯，為復(fù)雜視頻創(chuàng)作提供了更高效、易用的 AI 工作流。

「我們的目標(biāo)是用 AI 能力去重塑傳統(tǒng)視頻制作的整個(gè)流程，打造 AI 時(shí)代的全新視頻工作流。尋光視頻創(chuàng)作平臺(tái)，最大的特點(diǎn)是讓用戶實(shí)現(xiàn)對(duì)視頻內(nèi)容的精準(zhǔn)控制，同時(shí)可以保持多個(gè)視頻中角色和場(chǎng)景的一致性?！龟愅A說(shuō)道。

「讓編輯像操作PPT一樣簡(jiǎn)潔直觀，容易上手」

在發(fā)布現(xiàn)場(chǎng)，陳威華形容尋光平臺(tái)的推出，會(huì)對(duì)當(dāng)前的視頻創(chuàng)作工作流進(jìn)行優(yōu)化，使得 AI 視頻生成的工作范式發(fā)生新的變革，「讓編輯像操作 PPT 一樣簡(jiǎn)潔直觀，容易上手」。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

那么，尋光平臺(tái)具體是怎么做到的呢？其實(shí)可以通過(guò)幾個(gè)關(guān)鍵詞來(lái)認(rèn)識(shí)它。

一個(gè)是「一站式 AI 視頻創(chuàng)作平臺(tái)」，如何理解？

大家都知道，當(dāng)前市面上存在各種各樣的 AI 視頻生成工具，但是仔細(xì)看下來(lái)，當(dāng)創(chuàng)作者想要?jiǎng)?chuàng)作一個(gè)視頻時(shí)，可能需要不同的工具來(lái)生成文字、圖片、分鏡頭等素材，最后再把它們匯總放在一起，生成最終的視頻。但在這個(gè)過(guò)程中，創(chuàng)作者往往需要在不同工具間流轉(zhuǎn)，獲取不同的素材，不僅耗時(shí)，而且容易出錯(cuò)，對(duì)創(chuàng)作者來(lái)說(shuō)十分不友好。

而有了尋光平臺(tái)，直接可以一步到位，不再需要再多個(gè)平臺(tái)中間來(lái)回「轉(zhuǎn)場(chǎng)」。

比如，用戶在創(chuàng)作時(shí)，從劇本創(chuàng)作、分鏡生成到素材編輯等全套操作，都可以在尋光平臺(tái)上完成。另外，通過(guò)工作流整合提升了創(chuàng)作全流程的效率，支持對(duì)生成及上傳素材進(jìn)行豐富的 AI 編輯，提供人物控制、場(chǎng)景控制、風(fēng)格遷移、運(yùn)鏡控制、目標(biāo)新增/消除/修改等十多種 AI 編輯功能，讓視頻中的元素和對(duì)象精準(zhǔn)可控。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

舉例來(lái)說(shuō)，對(duì)于視頻中的分鏡頭，用戶可以選擇在平臺(tái)上通過(guò)劇本自動(dòng)生成，也可以選擇自己上傳原始視頻素材，由算法切分成多個(gè)分鏡頭。

另外，在創(chuàng)作空間中，如果用戶在查看分鏡頭的時(shí)候，發(fā)現(xiàn)有些細(xì)節(jié)需要完善，那么就可以通過(guò)編輯工具欄對(duì)分鏡頭做進(jìn)一步的編輯，不再像傳統(tǒng)的視頻制作過(guò)程那樣，需要專(zhuān)門(mén)的工具來(lái)制作，然后再進(jìn)行復(fù)制粘貼等操作。

可以說(shuō)，一站式的工作流程，體現(xiàn)了尋光在用戶交互上面的友好，而這正是它的一大亮點(diǎn)所在。

據(jù)了解，尋光平臺(tái)是目前業(yè)界首個(gè)一站式 AI 視頻創(chuàng)作平臺(tái)。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

第二個(gè)關(guān)鍵詞是首創(chuàng)「基于圖層的視頻編輯」。

前面在 Sora 的案例中提到，AI 視頻生成創(chuàng)作中，多個(gè)分鏡頭之間的場(chǎng)景與人物的一致性是至關(guān)重要的，其中的一個(gè)關(guān)鍵因素就在于分鏡頭中的視頻圖層，如果能夠基于圖層，在語(yǔ)義層面而不是像素層面實(shí)現(xiàn)可控編輯，是不是就能保證內(nèi)容的一致性呢？尋光就是這樣做的。

具體來(lái)看，尋光平臺(tái)是通過(guò)把視頻圖層相關(guān)的各項(xiàng)能力以一個(gè)系統(tǒng)性的方式完整地呈現(xiàn)給用戶，讓用戶基于圖層進(jìn)行視頻的編輯、創(chuàng)作，主要包括前景圖層的生成、圖層拆解、圖層融合等環(huán)節(jié)，從而保證視頻的一致性。

比如，尋光平臺(tái)上有個(gè)前景圖層功能，用戶可以通過(guò)輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。

另外，尋光平臺(tái)還提供圖層拆解功能，即如果用戶想從自己的已有視頻素材中提取需要的圖層，那么就可以使用拆解功能，算法就會(huì)把整段視頻中對(duì)應(yīng)物體的內(nèi)容拆解出來(lái)，然后形成一個(gè)獨(dú)立的帶透明背景的視頻圖層。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

獲得了視頻圖層后，針對(duì)不同的創(chuàng)作需求，用戶就可以通過(guò)尋光平臺(tái)上的「圖層融合」功能，將前景圖層與不同的背景進(jìn)行融合，從而生成各種各樣的視頻。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

比如，以「小和尚練功」的視頻為例。

在原視頻中，小和尚正在練功，背景環(huán)境中有寺廟、竹林。那么，如果想要讓小和尚在不同的背景環(huán)境中練功，就可以通過(guò)尋光平臺(tái)的圖層拆解功能，將小和尚作為一個(gè)整體圖層拆解出來(lái)，然后根據(jù)具體的創(chuàng)作需求，將小和尚與不同的背景環(huán)境融合，生成新的視頻。

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

寫(xiě)在最后

看到尋光平臺(tái)居然可以實(shí)現(xiàn)這么強(qiáng)大的功能，是不是有被震撼到？原來(lái) AI 視頻生成也可以這么簡(jiǎn)單。

如今，類(lèi) Sora 產(chǎn)品層出不窮。在世界人工智能大會(huì)上，不少?lài)?guó)內(nèi)廠商的視頻生成模型也展示出令人驚艷的效果。但不可否認(rèn)的是，它們距離廣泛應(yīng)用還有很長(zhǎng)的距離，原因就在于AI視頻編輯流程復(fù)雜、門(mén)檻高，并不是人人都可以流暢玩轉(zhuǎn)。

而達(dá)摩院推出的尋光平臺(tái)，定位為解決當(dāng)前業(yè)界類(lèi) Sora 產(chǎn)品涌現(xiàn)之后的編輯與創(chuàng)作問(wèn)題，聚焦該如何滿足人類(lèi)日益增長(zhǎng)的想象力與 AI 生產(chǎn)力之間的需求，希望借此真正釋放 AI 生產(chǎn)力。

按照官方所展示的功能，尋光平臺(tái)將對(duì)傳統(tǒng)視頻制作的整個(gè)流程進(jìn)行重塑，在不久的將來(lái)，每個(gè)人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時(shí)候，我們或許會(huì)距離 AI 視頻生成迎來(lái)「ChatGPT」式爆發(fā)再近一步。

「我們希望尋光視頻創(chuàng)作平臺(tái)就是每一個(gè)人手中的利器，是 AIGC 時(shí)代，每一個(gè)人的專(zhuān)屬視頻工作室?！龟愅A說(shuō)。

據(jù)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))了解，尋光平臺(tái)將于近期開(kāi)放內(nèi)測(cè)，感興趣的創(chuàng)作者們可以來(lái)試用！

官網(wǎng)地址：https://xunguang.damo-vision.com/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

曉楠

主筆

發(fā)私信

當(dāng)月熱門(mén)文章

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」

達(dá)摩院跨入 AIGC 深水區(qū)，發(fā)布一站式 AI 視頻創(chuàng)作平臺(tái)「尋光」