0
本文作者: 包永剛 | 2020-08-24 18:42 |
AI給我們的生活帶來了許多樂趣,從AI美顏到AI變臉,再到今年火爆全網(wǎng)的AI修復(fù)1929年老北京生活的3分鐘影像資料和全球首個3D版AI合成主播。這些新鮮有趣的應(yīng)用為什么在2020年火爆全網(wǎng)?背后推動力是什么?
火爆B站的AI修復(fù)老北京影像--盲人"爵士"樂隊
全球首個3D版AI合成主播新小微,圖片來自新華社
北京國際廣播電影電視展覽會(BIRTV)2020期間的一場媒體活動上,NVIDIA專業(yè)可視化亞太區(qū)業(yè)務(wù)主管沈威表示,傳統(tǒng)“離線式”渲染、預(yù)錄式的內(nèi)容無法加入更多互動和特效的直播視頻內(nèi)容已經(jīng)不能夠滿足當(dāng)前廣播電視行業(yè)的需求,尤其是當(dāng)下的AI時代。利用NVIDA GPU的實時光線追蹤技術(shù)及深度學(xué)習(xí)技術(shù),可以為廣播電影電視行業(yè)帶來更多不一樣的體驗。
AI帶給廣電行業(yè)的兩大變革
修復(fù)老北京生活影像和3D AI主播恰好代表了AI給廣播電影電視行業(yè)帶來的兩個變革——對過去缺損畫面、素材殘缺像素的“無中生有”,以及實時渲染帶來的更強互動性。
NVIDIA 中國區(qū)高級技術(shù)市場經(jīng)理施澄秋表示:“我們看到廣電行業(yè)的趨勢是從OTT(流媒體服務(wù))向SVOD(視頻點播)過渡,并且市場也在蓬勃壯大。在這個增長過程中,要么內(nèi)容極劇爆炸、要么讓老影片有更高分辨率?!?/strong>
GPU“無中生有”修復(fù)過去
7月份火遍全網(wǎng)的1929年的老北京生活視頻,不僅用AI對視頻進(jìn)行上色、補幀、提升了分辨率,還通過時代原聲還原了老北京味。這個視頻的火爆離不開新的AI算法DeepRemaster,當(dāng)然也需要有強大硬件作為支撐。
為圖像處理而生的GPU是不二的選擇。據(jù)悉,NVIDIA有一項叫做NGX的技術(shù),先用像DeepRemaster這樣自動完成畫面修補、美化和降噪的AI算法對GPU進(jìn)行訓(xùn)練,然后NGX就能“無中生有”來做畫面插幀、超級分辨率、慢動作等。
施澄秋對雷鋒網(wǎng)表示,對于插幀而言,如果用傳統(tǒng)的人工方式來做,一天只能做2-3幀,借助基于GPU的AI技術(shù)后,一天的插幀和修復(fù)可以達(dá)到百萬幀級別,這是一個巨大的效率提升。
AI插幀還能在大幅縮短周期的同時實現(xiàn)更好效果。施澄秋以很多電影中都有千軍萬馬的場面舉例,如果用一匹馬復(fù)制,不僅呆板而且運動軌跡都一樣。但用人工的方式周期長且成本高,借助NGX技術(shù),就可以得到形態(tài)各異的馬。
AI插幀能讓老視頻有更好的流暢度,達(dá)到1080P甚至4K、8K。借助AI插幀和著色技術(shù),還能夠?qū)崿F(xiàn)超級慢動作。超級慢動作是用超高幀率的攝像機(jī)(120楨/秒、240楨/秒)拍攝視頻,然后再以低幀率(30楨/秒、40楨/秒)播放。
但很多素材比如用手機(jī)拍攝的突發(fā)新聞本身就只有30楨/秒的幀率,如果做慢動作就會像放幻燈片一樣卡頓。利用NVIDIA NGX的“無中生有”技術(shù)生成幀間像素,就可以得到非常平滑逼真的慢動作。
幀率決定著視頻的流暢度,分辨率更直接的影響著觀感。“SUPER-RES(超級分辨率)不是新概念,以前要實現(xiàn)SUPER-RES可能需要非常昂貴的硬件,且制作周期非常長,現(xiàn)在利用我們的NGX AI技術(shù)就可以做實時4K分辨率的超級分辨率?!?施澄秋表示。
那效果如何?當(dāng)虹科技就基于NVIDIA圖靈(Turing)架構(gòu)GPU推出了離線超級分辨率產(chǎn)品,支持標(biāo)清轉(zhuǎn)高清/4K、高清轉(zhuǎn)4K/8K等。借助AI算法訓(xùn)練高頻細(xì)節(jié),實現(xiàn)高保真縮放。
當(dāng)虹科技AI超分技術(shù)
還有強氧科技的DaVinci Resolve,這是一款融合了專業(yè)8K剪輯、調(diào)色、視覺特效和音頻后期制作工具。能夠通過插補幀做慢動作,驚艷的自動調(diào)色,也能做匹配內(nèi)容、物體自動移除等。
值得注意的是,當(dāng)虹科技和強氧科技都提到了NVIDIA實時光線追蹤GPU的性能優(yōu)勢。根據(jù)當(dāng)虹科技給出的數(shù)據(jù),不同的NVIDIA GPU的AI超分深度學(xué)習(xí)推理性能相比CPU有10倍到25倍不等的性能優(yōu)勢。
強氧科技給出的4K BRAW、6K BRAW、8K BRAW的測試顯示,NVIDIA的Quadro RTX 6000相比CPU也有2倍左右的性能優(yōu)勢。
GPU實時渲染增強互動性
“無中生有”技術(shù)更多的是對已有視頻素材的增強,面向未來,GPU帶來的是互動效果的增強,讓廣電的單向推薦也借GPU的AI功能變成雙向智能推薦。
文中開頭提到的AI合成的主播,其實2018年就已經(jīng)有,但受限于當(dāng)時的AI技術(shù)以及計算、渲染能力,那時的AI主播只有面部表情,沒有肢體動作等。因此,今年全國兩會期間進(jìn)行新聞資訊播報的3D版AI主播新小微一亮相就獲得了極大的關(guān)注。
圖片來自新華社
GPU的實時渲染能力決定著數(shù)字人的逼真程度,據(jù)悉,要實現(xiàn)一個特別寫實的數(shù)字人,臉部的模型、加上毛發(fā)等面數(shù)接近500-600萬。這個量級上,要做到面部表情、整個身體實時驅(qū)動,需要幀率保持在50-60幀之間,因此算力是主要的瓶頸所在。
博采傳媒前期部總監(jiān)沈辰奇也表示:“2017年我們推出了國內(nèi)第一部全部用GPU渲染而成的動畫電影《昆塔:反轉(zhuǎn)星球》,GPU渲染比以前用CPU渲染的成本優(yōu)秀太多,但仍然是我們制作流程的一個瓶頸?!?/p>
施澄秋說:“GPU在3D建模、3D圖形圖像電視廣電素材的片源制作中非常有優(yōu)勢。圖靈架構(gòu)的RTX GPU非常擅長實時渲染,能夠滿足數(shù)字人的渲染能力和算力要求。另外,交互式、對話式AI也可以應(yīng)用到數(shù)字人中?!?/p>
嘗到了GPU渲染整片的甜頭,博采傳媒在繼續(xù)探索純第二部GPU渲染動畫時,想要實現(xiàn)基于Unreal Engine(虛幻引擎)實現(xiàn)虛擬場景的反向投射。投射屏的尺寸規(guī)劃是800平米,驅(qū)動這個巨型屏用NVIDIA GPU進(jìn)行實時渲染測試還是有點慢。
“我們最后選擇了NVIDIA RTX 8000,利用nDisplay技術(shù),實時驅(qū)動1.8億個像素點。在實際拍攝時,攝影基地的景深和透視的變化完全同步匹配。這其中革命性的意義在于把后期合成的環(huán)節(jié)砍掉,做到所見即所得?!鄙虺狡嬷赋觥?/strong>
解決了拍攝背景的問題,博采傳媒開發(fā)了一個基于超寫實的數(shù)字人項目,可以用于代言、直播等。
基于虛幻引擎的天氣播報,圖片來自unrealengine
數(shù)字人是給觀眾帶來不一樣的體驗,Epic Games的虛幻引擎則幫助創(chuàng)作者更好的創(chuàng)新,它被越來越多地用來做實時預(yù)覽、特效預(yù)中期預(yù)演、后期預(yù)演等。Epic Games China商務(wù)發(fā)展經(jīng)理徐良安表示:“虛幻引擎不僅可以讓所有參與制作的人員都可以實時修改,實時看到效果,具有很大的靈活性,還能大大節(jié)約成本?!?/strong>
虛幻引擎和nDisplay技術(shù)不僅可以用于線性內(nèi)容拍攝,還可以把場景分單元或者分組投射到不同屏幕上并進(jìn)行融合,在演唱會上讓觀眾和表演者能夠更好的互動。Epic Games也和美國著名說唱歌手Travis Scott合作,在《堡壘之夜》游戲中進(jìn)行演出,讓粉絲可以一邊玩游戲一邊觀看演唱會,實現(xiàn)了很好的傳播。
實時渲染正在打破行業(yè)的邊界。新奧特產(chǎn)品中心總監(jiān)王寧也表示:“去年開始,4K、8K的內(nèi)容越來越廣泛。以前我們是通過CPU進(jìn)行渲染加速,CPU能處理更多線程,但實時渲染能力不強,所以我們選擇了NVIDIA的RTX系列GPU。特別是像我們石墨超清在線需要實時呈現(xiàn)到大屏幕的,需要GPU的顯存能力?!?/p>
除此之外,基于GPU的AI也能應(yīng)用到智能插播廣告,通過AI算法插入5-10秒的廣告,既不影響觀眾的收看體驗,也讓廣電的互動變成雙向互動。
SDI轉(zhuǎn)向IP,高清視頻的時代即將到來
性能更強的圖靈架構(gòu)RTX GPU是讓老北京視頻、數(shù)字人在2020年備受關(guān)注的重要因素,但這些AI應(yīng)用能否普及還有一個關(guān)鍵因素——視頻傳輸。NVIDIA Mellanox 高級市場開發(fā)經(jīng)理陳龍指出,1080P以前,廣電行業(yè)的視頻傳輸靠SDI (Serial Digital Interface,數(shù)字分量串行接口)。隨著4K和8K業(yè)務(wù)的興起,SDI不能滿足4K視頻8G-9G的傳輸帶寬需求。
如果用4根3G帶寬的SDI傳輸4K視頻,成本變高且組網(wǎng)復(fù)雜。直接換12G帶寬的SDI,由于高速信號在SDI銅纜中傳輸距離和速率成反比,只能傳輸大概50米的距離,不能滿足廣電行業(yè)需求。8K的最低帶寬需求將達(dá)到25G-140G,SDI更難以滿足需求。
“我們判斷,SDI轉(zhuǎn)向數(shù)據(jù)中心里的IP解決方案是大概率事件,后者不僅成本比定制化SDI成本更低,帶寬也更高?!?陳龍介紹。
但SDI轉(zhuǎn)換為IP解決方案之后,終端CPU處理協(xié)議棧的負(fù)載就會大幅上升。為此,Mellanox的網(wǎng)卡集成了Rivermax技術(shù),解決SDI轉(zhuǎn)IP化之后傳輸標(biāo)準(zhǔn)的問題,也就是通過這個技術(shù)發(fā)送符合SDI要求的數(shù)據(jù)。另外,借助是Kernel Bypass技術(shù),將協(xié)議棧的大量負(fù)載放在網(wǎng)卡,大幅降低CPU的負(fù)載。
還有Frames技術(shù),網(wǎng)卡把接收到的每一行像素整合成一張圖片后再傳輸給CPU,也可以降低CPU的使用率。Mellanox的網(wǎng)卡也支持虛擬化和云化,能夠滿足高清視頻傳輸?shù)姆€(wěn)定性要求,也有助于開拓更廣闊的市場。
IP解決方案優(yōu)勢明顯,但也面臨一層的鏈路、二層的邏輯鏈路、三層路由轉(zhuǎn)發(fā)、報文緩存等問題,帶來了故障的排查就非常復(fù)雜。這需要What Just Happened技術(shù),實時監(jiān)測交換機(jī)的狀態(tài),以及網(wǎng)卡內(nèi)部的一些信息,有助于故障的診斷和排查。
陳龍說:“要IP化,只需要將價格昂貴的SDI加速卡換為Mellanox的網(wǎng)卡,可以支持10G、25G、50G、100G、200G乃至400G的傳輸帶寬。當(dāng)設(shè)備IP化之后,不僅解決了傳輸帶寬不夠、傳輸距離過短的主要的痛點,還降低了整個設(shè)備的采購成本。除此之外,因為本身IP是一個彈性的管道,在IP之上能夠傳輸任意格式的報文?!?/strong>
雷鋒網(wǎng)了解到,Mellanox已經(jīng)與全球各大視頻解決方案合作商開發(fā)了不同的產(chǎn)品,打入了NBC、BBC、CNN等著名的視頻內(nèi)容提供商。
雷鋒網(wǎng)小結(jié)
廣電行業(yè)正在越來越多地探索與AI的結(jié)合,基于更強大的GPU和優(yōu)化的技術(shù),AI正越來越多的應(yīng)用于提升分辨率,包括降噪、插幀、插植等應(yīng)用中,讓珍貴的舊視頻煥發(fā)新的生命力,再次吸引大家的注意力。同時,GPU更強大的實時渲染能力也讓直播或者視頻內(nèi)容的制作增加了更多互動和特效,更加靈活和高效的創(chuàng)作方式打破了行業(yè)的邊界,為未來的創(chuàng)新奠定基礎(chǔ),當(dāng)然,這里面還需要SDI專向IP解決方案,滿足4K/8K的視頻傳輸需求。
面向數(shù)據(jù)中心的安培架構(gòu)A100 GPU已經(jīng)在5月推出,安培架構(gòu)游戲GPU+Mellanox網(wǎng)卡又會把專業(yè)可視化行業(yè)引向何方?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。