0
10月15日,火山引擎在視頻云技術大會上發(fā)布了大模型訓練視頻預處理方案,助力解決視頻大模型訓練的成本、質量和性能等方面的技術挑戰(zhàn)。目前,該技術方案已應用于豆包視頻生成模型。
火山引擎總裁譚待在活動致辭表示,在AIGC、多模態(tài)等技術的共同推動下,用戶體驗在多個維度上經(jīng)歷著深刻轉變,“基于抖音業(yè)務實踐和與行業(yè)客戶共創(chuàng),火山引擎視頻云正積極探索AI大模型與視頻技術的深度融合,在技術底座、處理鏈路和業(yè)務增長層面為企業(yè)尋找解法?!弊T待說。
自研多媒體處理框架BMF ,助力豆包視頻生成模型突破業(yè)界難題
據(jù)介紹,對訓練視頻進行預處理是保障大模型訓練效果的重要前提。預處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質量、實現(xiàn)數(shù)據(jù)標準化、減少數(shù)據(jù)量以及處理標注信息,從而使模型能更高效地學習視頻中的特征和知識,提升訓練效果和效率。
抖音集團視頻架構負責人王悅表示,對大模型廠商而言,上述過程中面臨著諸多挑戰(zhàn)。
“首先,超大規(guī)模視頻訓練數(shù)據(jù)集導致計算和處理成本激增,”王悅說,“其次是視頻樣本數(shù)據(jù)參差不齊,然后是處理鏈路環(huán)節(jié)多、工程復雜,最后還面臨著對GPU、CPU、ARM等多種異構算力資源的調度部署?!?/p>
抖音集團視頻架構負責人王悅介紹火山引擎大模型訓練視頻預處理方案
借助Intel的CPU等資源,火山引擎此次發(fā)布的大模型訓練視頻預處理方案依托于自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰(zhàn)。此外,該方案還在算法和工程方面進行了調優(yōu),可以對海量視頻數(shù)據(jù)高質量預處理,短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同,提高模型訓練效率。值得一提的是,火山引擎本次還發(fā)布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側大模型接入和算子加速,更加輕量、通用。
Bytedance Research 負責人李航介紹,豆包視頻生成模型PixelDance在訓練過程中采用了火山引擎的大模型訓練視頻預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐?;鹕揭嬉曨l云團隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉碼、分發(fā)、播放的全生命周期一站式服務,讓模型的商業(yè)化應用有了保障。
據(jù)了解,豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用 DiT 架構,通過高效的DiT融合計算單元和全新設計的擴散模型訓練方法,突破了多主體運動的復雜交互、多鏡頭切換的內(nèi)容一致性難題,在業(yè)界引起廣泛關注。目前,豆包視頻生成模型已通過火山引擎面向企業(yè)開啟邀測。
多項“音視頻+AI”技術方案,助力企業(yè)全鏈路適配AIGC時代
此次活動中,火山引擎還發(fā)布了跨語言同聲復刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生產(chǎn)端、交互端到消費端,全鏈路融入了AI的能力。
火山引擎視頻云負責人Yongyuan 指出,在AI視頻時代,人和AI交互變得更加動態(tài)和生動,這要求處理鏈路更加智能和交互。
以對話式AI實時交互方案為例,依托豆包大模型和火山引擎視頻云自研的多項算法,火山引擎為用戶提供了智能對話和自然語言處理的強大能力,可實現(xiàn)毫秒級人聲檢測和打斷響應,以及絲滑穩(wěn)定的端到端響應體驗。
在沉浸式消費體驗方面,火山引擎通過AI生成3D內(nèi)容和大場景重建方案,為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應用于抖音的戲曲直播場景。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,大會上,王悅還透露了字節(jié)自研視頻編解碼芯片的最新進展,經(jīng)過抖音集團內(nèi)部的實踐驗證,該芯片在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。
王悅表示,該芯片將于近期正式對外開放測試,招募首批種子用戶,共同探索商業(yè)價值的可復制性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。