火山引擎發(fā)布大模型訓(xùn)練視頻預(yù)處理方案，已應(yīng)用于豆包視頻生成模型

本文作者：聰聰

2024-10-15 17:16

導(dǎo)語：字節(jié)自研視頻編解碼芯片將于近期正式對外開放測試

10月15日，火山引擎在視頻云技術(shù)大會上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案，助力解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。目前，該技術(shù)方案已應(yīng)用于豆包視頻生成模型。

火山引擎總裁譚待在活動致辭表示，在AIGC、多模態(tài)等技術(shù)的共同推動下，用戶體驗在多個維度上經(jīng)歷著深刻轉(zhuǎn)變，“基于抖音業(yè)務(wù)實踐和與行業(yè)客戶共創(chuàng)，火山引擎視頻云正積極探索AI大模型與視頻技術(shù)的深度融合，在技術(shù)底座、處理鏈路和業(yè)務(wù)增長層面為企業(yè)尋找解法?！弊T待說。

自研多媒體處理框架BMF ，助力豆包視頻生成模型突破業(yè)界難題

據(jù)介紹，對訓(xùn)練視頻進(jìn)行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息，從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識，提升訓(xùn)練效果和效率。

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅表示，對大模型廠商而言，上述過程中面臨著諸多挑戰(zhàn)。

“首先，超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計算和處理成本激增，”王悅說，“其次是視頻樣本數(shù)據(jù)參差不齊，然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜，最后還面臨著對GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署?！?/p>

火山引擎發(fā)布大模型訓(xùn)練視頻預(yù)處理方案，已應(yīng)用于豆包視頻生成模型

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅介紹火山引擎大模型訓(xùn)練視頻預(yù)處理方案

借助Intel的CPU等資源，火山引擎此次發(fā)布的大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架BMF，能有效應(yīng)對模型訓(xùn)練的算力成本挑戰(zhàn)。此外，該方案還在算法和工程方面進(jìn)行了調(diào)優(yōu)，可以對海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理，短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同，提高模型訓(xùn)練效率。值得一提的是，火山引擎本次還發(fā)布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速，更加輕量、通用。

Bytedance Research 負(fù)責(zé)人李航介紹，豆包視頻生成模型PixelDance在訓(xùn)練過程中采用了火山引擎的大模型訓(xùn)練視頻預(yù)處理方案，充分利用了大量潮汐資源，為模型訓(xùn)練提供了有力支撐?；鹕揭嬉曨l云團(tuán)隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù)，讓模型的商業(yè)化應(yīng)用有了保障。

據(jù)了解，豆包視頻生成模型PixelDance于9月24日發(fā)布，該模型采用 DiT 架構(gòu)，通過高效的DiT融合計算單元和全新設(shè)計的擴(kuò)散模型訓(xùn)練方法，突破了多主體運動的復(fù)雜交互、多鏡頭切換的內(nèi)容一致性難題，在業(yè)界引起廣泛關(guān)注。目前，豆包視頻生成模型已通過火山引擎面向企業(yè)開啟邀測。

多項“音視頻+AI”技術(shù)方案，助力企業(yè)全鏈路適配AIGC時代

此次活動中，火山引擎還發(fā)布了跨語言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案，從視頻的生產(chǎn)端、交互端到消費端，全鏈路融入了AI的能力。

火山引擎視頻云負(fù)責(zé)人Yongyuan 指出，在AI視頻時代，人和AI交互變得更加動態(tài)和生動，這要求處理鏈路更加智能和交互。

以對話式AI實時交互方案為例，依托豆包大模型和火山引擎視頻云自研的多項算法，火山引擎為用戶提供了智能對話和自然語言處理的強(qiáng)大能力，可實現(xiàn)毫秒級人聲檢測和打斷響應(yīng)，以及絲滑穩(wěn)定的端到端響應(yīng)體驗。

在沉浸式消費體驗方面，火山引擎通過AI生成3D內(nèi)容和大場景重建方案，為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn)，并以虛擬直播間的形式應(yīng)用于抖音的戲曲直播場景。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))了解到，大會上，王悅還透露了字節(jié)自研視頻編解碼芯片的最新進(jìn)展，經(jīng)過抖音集團(tuán)內(nèi)部的實踐驗證，該芯片在同等視頻壓縮效率下，成本節(jié)省了95%以上，還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。

王悅表示，該芯片將于近期正式對外開放測試，招募首批種子用戶，共同探索商業(yè)價值的可復(fù)制性。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

聰聰

主筆

個人微信：Congc_a，歡迎添加交流。

發(fā)私信

當(dāng)月熱門文章

火山引擎發(fā)布大模型訓(xùn)練視頻預(yù)處理方案，已應(yīng)用于豆包視頻生成模型

火山引擎發(fā)布大模型訓(xùn)練視頻預(yù)處理方案，已應(yīng)用于豆包視頻生成模型