0
雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息,7月28日晚,阿里電影級視頻生成模型通義萬相Wan2.2正式開源,并全面接入通義APP。手機用戶只需在通義APP中輸入文本或圖片,即可化身“AI導(dǎo)演”,借助Wan2.2首創(chuàng)的美學(xué)控制系統(tǒng),生成具備電影級質(zhì)感的1080P高清視頻。
目前,用戶單次可生成5秒視頻,并可通過多輪提示詞進一步完成短劇制作。未來,通義萬相還將繼續(xù)提升單次視頻生成的時長,讓視頻創(chuàng)作更高效。
據(jù)介紹,Wan2.2首創(chuàng)的美學(xué)控制系統(tǒng),直接將光影、色彩、鏡頭語言三大電影美學(xué)元素裝進模型,可以隨意組合60多個直觀可控的參數(shù),在構(gòu)圖、微表情、復(fù)雜調(diào)度等能力上媲美專業(yè)電影水平。例如,用戶輸入“黃昏”“柔光”“邊緣光”“暖色調(diào)”“中心構(gòu)圖”等關(guān)鍵詞,模型可自動生成落日余暉的浪漫畫面;使用“冷色調(diào)”“硬光”“平衡構(gòu)圖”“低角度”的組合,則可以生成接近科幻片的畫面效果。同時,Wan2.2還支持智能美學(xué)詞響應(yīng)、智能參數(shù)聯(lián)動,用戶只需簡單描述,模型即可解析創(chuàng)作意圖,并自動協(xié)調(diào)相關(guān)參數(shù),大幅提升生成效率。
此外,Wan2.2在人物面部表情、多人交互、復(fù)雜運動等維度上也實現(xiàn)了顯著提升。例如,模型不僅能生成“大笑”“驚恐”等經(jīng)典情緒,還能更細膩地刻畫“思考時不經(jīng)意的挑眉”“強忍淚水時的嘴唇顫抖”等精細微表情,增強畫面的情緒表現(xiàn)力。Wan2.2還深度優(yōu)化了對力學(xué)、光學(xué)、流體力學(xué)等物理規(guī)律的模擬,可精準(zhǔn)還原物體碰撞、光影折射、流體流動等真實動態(tài),顯著提升了視頻生成的真實感與可控性。
案例1-輸入提示詞:視頻展示了一位三十多歲的黑人女性在黃昏色調(diào)的復(fù)古濾鏡下,平靜地坐在行駛中的地鐵車廂內(nèi)。周圍人群來回走動,形成明顯的運動模糊,而她始終保持清晰,象征著混亂中的靜止。柔和的光線與電影畫質(zhì)營造出喜怒無常的環(huán)境氛圍,突顯她在喧囂世界中的沉穩(wěn)與內(nèi)斂,呈現(xiàn)出強烈的現(xiàn)實主義風(fēng)格。通義萬相Wan2.2即可精準(zhǔn)理解提示詞中的美學(xué)詞,并生成一段復(fù)古且富有文藝感的視頻。
案例2-輸入提示詞:白天,晴天光,邊緣光,暖色調(diào),低飽和度,極端全景,平衡構(gòu)圖,畫面中有兩名穿著宇航服的人,他們正站在一片廣闊的水域中。他們都穿著白色為主、帶有深色拼接和標(biāo)記的厚重宇航服,并頭戴配有面罩的頭盔。位于前方的人正朝著觀看者的方向涉水前行,水面淹及他的大腿,他的面部表情嚴(yán)肅。另一人站在他身后稍遠的位置,同樣身處水中。在他們身后,一艘外形具有未來感的飛行器停泊在水面上。這艘飛行器有著扁平、寬大的機翼和棱角分明的設(shè)計。整個場景的背景是布滿云彩的天空和無邊無際的水面。通義萬相Wan2.2可生成一段復(fù)刻電影《星際穿越》中宇航員在米勒星球的經(jīng)典畫面。
Wan2.2此次開源的文生視頻模型和圖生視頻模型均為業(yè)界首個使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B,均由高噪聲專家模型和低噪專家模型組成,分別負責(zé)視頻的整體布局和細節(jié)完善,在同等參數(shù)規(guī)模下,計算資源消耗降低約50%,有效緩解了視頻生成處理Token過長帶來的算力壓力,可進一步提升生成效率和用戶體驗。
自今年2月以來,通義萬相已連續(xù)開源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型,相關(guān)功能均可在通義APP直接體驗。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。