字節(jié)最新OmniHuman數(shù)字人模型即將上線即夢

本文作者： Nemo

2025-02-08 10:14

導語：用戶僅需輸入一張圖片和一段音頻，就可以生成一條生動的AI視頻

近期，即夢AI在官方社交媒體上發(fā)布了一條新功能上線預告片。視頻顯示，采用了全新的多模態(tài)視頻生成模型OmniHuman，用戶僅需輸入一張圖片和一段音頻，就可以生成一條生動的AI視頻，有望大幅提升AI短片的制作效率和質量。

圖片來自即夢AI視頻號內容截圖

OmniHuman技術主頁信息顯示，該模型為字節(jié)跳動自研的閉源模型，可支持肖像、半身以及全身等不同尺寸的圖片輸入，并根據(jù)輸入的音頻，在視頻中讓人物生成與之匹配的動作，包括演講、唱歌、樂器演奏以及移動。對于人物視頻生成中常見的手勢崩壞，也相比現(xiàn)有方法取得了顯著的改善。此外，對動漫、3D卡通等非真人圖片輸入的支持效果也較為出色，生成的視頻能保持特定風格和原有的運動模式。

根據(jù)技術主頁展示的演示效果來看，OmniHuman的生成效果已經(jīng)具有較高的自然度。為防止該項技術被不當利用，字節(jié)跳動技術團隊在主頁中特別標注稱，OmniHuman將不會對外提供下載。

字節(jié)最新OmniHuman數(shù)字人模型即將上線即夢

即夢AI相關負責人透露，該模型目前已具備較好的表現(xiàn)，但在生成影視真實級別的視頻上仍存在一定的提升空間。由其支持的多模態(tài)視頻生成功能會在即夢上以小范圍內測的形式進行調優(yōu)調整，并逐步開放。該負責人同時表示，即夢還會對這一功能設置嚴格的安全審核機制，并且對輸出的視頻標注水印以作提醒，從而確保AI發(fā)揮正面、積極的作用，助力視頻創(chuàng)作者更好地實現(xiàn)想象力的表達。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

Nemo

編輯

發(fā)私信

當月熱門文章