0
本文作者: 聰聰 | 2024-10-12 12:44 |
國慶期間,抖音上一款名為“AI治愈繪本”的特效吸引了數(shù)百萬用戶投稿。該特效采用了動態(tài)繪本的擬物玩法,首次使用了3D立體翻書的形式,巧妙地將首張用戶圖作為書皮呈現(xiàn),玩法新穎有趣。截至目前,基于該特效投稿的“成為繪本里的溫暖主角”話題播放量超過11億。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,“AI治愈繪本”特效底層使用了字節(jié)跳動豆包大模型的圖像生成能力,技術(shù)團(tuán)隊(duì)通過多項(xiàng)自研算法,保證了模型有更好的風(fēng)格響應(yīng)度、畫面美觀度,讓風(fēng)格化效果更富有表現(xiàn)力,并且更大程度還原了人物面部特征、服裝款式、顏色、配飾等主體特征,在“美且像”的維度上取得了良好的效果。
為呈現(xiàn)更好的交互方式,技術(shù)團(tuán)隊(duì)使用了自研的主體抹除、擴(kuò)圖能力,對風(fēng)格化結(jié)果圖進(jìn)行后處理,使得多張結(jié)果圖可以在端上進(jìn)行切換。上述過程中應(yīng)用到的IP保持技術(shù) RealCustom 和 AI擴(kuò)圖和AI消除技術(shù)ByteEdit,兩項(xiàng)成果分別入選CVPR2024和ECCV2024。
RealCustom :生成效果又美又像本人的IP保持技術(shù)
RealCustom是一種個(gè)性化定制技術(shù)即IP保持,對于任意開放域物體或人物 IP 均可實(shí)現(xiàn)無需微調(diào)的實(shí)時(shí)定制化生成,在AI繪本中主要起到保持輸入圖片特征的作用。
不同于以往風(fēng)格化特效中用的圖片特征保持方法, RealCustom不僅能夠還原圖片的細(xì)節(jié)特征,還具有對圖片的抽象語義理解,從而可以根據(jù)文本輸入自適應(yīng)地做出變化,并生成更加和諧的效果。
為了更好的還原主體外觀,RealCustom 使用了多個(gè)層次的圖片信息融合,為了讓視覺信息跟文本信息能更好的融合,RealCustom 通過自適應(yīng)模塊學(xué)習(xí)了視覺條件與文本條件之間的對齊能力,并根據(jù)不同時(shí)刻的狀態(tài)準(zhǔn)確地推導(dǎo)出相應(yīng)的視覺條件。從而能對用戶多種多樣的輸入做出自適應(yīng)的處理,在保證好看的風(fēng)格化效果的同時(shí),穩(wěn)定的保持圖片特征。
ByteEdit:讓填充背景更自然和諧的AI擴(kuò)圖和AI消除能力
特效中用到了AI擴(kuò)圖和AI消除的能力,其中AI消除是指消除圖像中指定的某個(gè)物體或區(qū)域,并根據(jù)周圍的背景來填充消除位置的內(nèi)容;AI擴(kuò)圖則根據(jù)指定的擴(kuò)展比例來延展原圖像的內(nèi)容。這兩個(gè)任務(wù)本質(zhì)上都是根據(jù)已知圖像的內(nèi)容去填充周圍的區(qū)域,重點(diǎn)在于如何讓填充的內(nèi)容和原圖沒有違和感。
為了達(dá)到這個(gè)目的,首先,技術(shù)團(tuán)隊(duì)增大了訓(xùn)練數(shù)據(jù)量級,讓模型「看到」更多泛化場景。此外,ByteEdit 提出了一種創(chuàng)新的框架,利用反饋學(xué)習(xí)來增強(qiáng)生成性圖像編輯任務(wù)。ByteEdit 通過集成圖像獎勵(lì)模型來提升美學(xué)質(zhì)量、圖像與文本的一致性,并引入密集的像素級獎勵(lì)模型以增強(qiáng)輸出的一致性,讓希望填充的區(qū)域和非填充區(qū)域更加的和諧。此外,提出了一種對抗性和漸進(jìn)式反饋學(xué)習(xí)策略,以加快模型的推理速度。
除此之外,“AI治愈繪本”特效可以支持用戶上傳多張圖,在做能力部署時(shí),技術(shù)團(tuán)隊(duì)針對該場景單獨(dú)做了一套多服務(wù)并行邏輯以及性能加速策略,最大程度保障了在流量高峰期時(shí),能夠在最短時(shí)間內(nèi)將風(fēng)格化結(jié)果圖、后處理結(jié)果圖等順利返回到端上。端上獲取多張結(jié)果圖后,技術(shù)團(tuán)隊(duì)依托自研的書本3D運(yùn)動和陰影跟隨算法,對書內(nèi)各個(gè)物體的運(yùn)動曲線進(jìn)行參數(shù)自動化調(diào)整,在模擬書本翻頁以及內(nèi)頁跳出的過程中,陰影效果可以隨書頁自然移動,更大程度保留了書頁翻動的立體感與自然感,邊緣的陰影過渡相對流暢。
國慶期間,抖音特效團(tuán)隊(duì)上線了同樣是溫暖治愈系的“金秋繪本風(fēng)特效”,特效投稿已超百萬,相關(guān)話題播放超過1.8億。
未來,隨著豆包大模型日趨成熟,抖音平臺或?qū)⒒诖苏Q生更多有趣玩法。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。