沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

本文作者：貝爽

2021-01-29 13:49

導(dǎo)語(yǔ)：刷新紀(jì)錄！騰訊光影研究室GYSeg算法斬獲MIT場(chǎng)景解析世界第一。

昨晚做了一個(gè)夢(mèng)，夢(mèng)里的我變成漫畫里的人物，正在為參與選秀苦練舞蹈，期待著萬眾矚目登上舞臺(tái)的一天。

然而一覺醒來，這個(gè)美夢(mèng)竟然成“真”了！

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

大眼睛，飽滿蘋果肌，擺著離出道還有億點(diǎn)點(diǎn)距離的律動(dòng)~妥妥的漫畫女主角既視感。

沒錯(cuò)，這項(xiàng)黑科技就是手機(jī)QQ相機(jī)里的熱門AI玩法——漫畫臉。從畫面來看，哪怕受拍攝人物大幅度動(dòng)作，融合感依舊滿分。

類似的，一經(jīng)上線便備受用戶們追捧的還有“童話臉”等多個(gè)AI特效玩法。

AI特效看似操作簡(jiǎn)單，但要想一秒內(nèi)達(dá)到如此效果，其背后的技術(shù)支撐可并不簡(jiǎn)單。

細(xì)心的朋友可能會(huì)發(fā)現(xiàn)，漫畫臉的AI特效get了一項(xiàng)技能——實(shí)時(shí)摳圖。在動(dòng)態(tài)場(chǎng)景下，無論是人像的頭部、面部，還是半身像，都能夠被精準(zhǔn)識(shí)別，并轉(zhuǎn)化為漫畫版，看不出一點(diǎn)破綻。

這項(xiàng)技能在學(xué)術(shù)上叫做語(yǔ)義分割技術(shù)。而這些特效背后使用的語(yǔ)義分割技術(shù)叫做GYSeg，它是騰訊光影研究室（Tencent GYLab）在計(jì)算機(jī)視覺領(lǐng)域的自研算法。最近GYSeg算法剛剛參加完MIT Scene Parsing Benchmark 場(chǎng)景解析國(guó)際競(jìng)賽，從多個(gè)參賽團(tuán)隊(duì)中脫穎而出，以0.6140的成績(jī)斬獲了冠軍。值得一提的是，近兩周團(tuán)隊(duì)持續(xù)優(yōu)化算法，并再次刷線最新成績(jī)至0.6235，仍處榜單第一名。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

專業(yè)科普一下，MIT Scene Parsing Benchmark 是全球公認(rèn)的最具挑戰(zhàn)性、權(quán)威性的場(chǎng)景解析、語(yǔ)義分割評(píng)測(cè)集。其發(fā)布的ADE20K數(shù)據(jù)集是計(jì)算機(jī)視覺三大頂會(huì)（CVPR、ICCV和ECCV）語(yǔ)義分割論文的權(quán)威基準(zhǔn)數(shù)據(jù)集。

每年有眾多國(guó)際頂尖企業(yè)、學(xué)術(shù)機(jī)構(gòu)參加這項(xiàng)國(guó)際賽事，比如本屆參賽的團(tuán)隊(duì)還有商湯科技、亞馬遜、復(fù)旦、北大、MIT等國(guó)內(nèi)外研究機(jī)構(gòu)和高校。

實(shí)時(shí)摳圖神器：GYSeg算法

簡(jiǎn)單理解，語(yǔ)義分割技術(shù)就是讓計(jì)算機(jī)能夠識(shí)別出圖像場(chǎng)景中每一個(gè)像素所代表的語(yǔ)義類別。

以人像圖像為例，人像的全身、半身、頭部、頭發(fā)、多人/單人以及多樣化的背景都是其需要識(shí)別的目標(biāo)。

而從更大范圍來講，現(xiàn)實(shí)生活場(chǎng)景十分豐富、目標(biāo)復(fù)雜、尺度范圍大，如本次比賽所使用的ADE20K數(shù)據(jù)集包含了150個(gè)類別，涉及人類生活各個(gè)方面的場(chǎng)景。這對(duì)于AI語(yǔ)義識(shí)別本身提出了較高的挑戰(zhàn)。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

更重要的是，同種類的物體在不同場(chǎng)景中很可能表現(xiàn)出不同的大小、比例和姿態(tài)；不同物體之間可能存在相互遮擋問題，由此會(huì)帶來嚴(yán)重的語(yǔ)義混淆。

為了克服以上難點(diǎn)，GYSeg算法在數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)設(shè)計(jì)、訓(xùn)練、推斷方面進(jìn)行了一系列創(chuàng)新，并建立了一套通用的整體分割架構(gòu)。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

在網(wǎng)絡(luò)設(shè)計(jì)方面，GYSeg算法采用自研的GYNet作為backbone，并接入ASPP模塊進(jìn)行特征的增強(qiáng)與融合，獲得了更多的Context以及感受野，同時(shí)，整體結(jié)構(gòu)達(dá)到了很好的速度跟精度的平衡。
在分割head方面，為提高不同尺度物體和小物體的分割精度，采用基于Multi-scale Attention的方式使網(wǎng)絡(luò)在不同尺度上自適應(yīng)的學(xué)習(xí)。
在推斷階段，GYSeg算法采用了多種不同尺度級(jí)聯(lián)式推斷融合。在此基礎(chǔ)上，使用ADE訓(xùn)練集數(shù)據(jù)搭建SegFix網(wǎng)絡(luò)，對(duì)Multi-scale Attention的輸出結(jié)果進(jìn)行精修，以提升邊緣分割的一致性。同時(shí)，在訓(xùn)練過程，加入OHEM提升困難樣本學(xué)習(xí)能力，在多物體分割中采用gradient loss對(duì)物體邊緣進(jìn)行約束來提升邊緣的準(zhǔn)確性。
在數(shù)據(jù)增強(qiáng)方面，除了針對(duì)復(fù)雜場(chǎng)景使用隨機(jī)縮放、crop、對(duì)比度、blur等常規(guī)操作外，對(duì)于語(yǔ)義明確、數(shù)量較少的類別，GYSeg算法還采用了“復(fù)制-粘貼”的方式進(jìn)行擴(kuò)充。如動(dòng)物、摩托車、自行車等。
在loss約束方面，借助OHEM進(jìn)行在線困難樣本挖掘，GYSeg算法在validation集上Miou提升0.4%，優(yōu)于focalloss(提升0.26%)。

如上述案例所見，在人像分割方面，GYSeg算法憑借對(duì)人像半身、全身，室內(nèi)、室外，單人/多人等多復(fù)雜場(chǎng)景的需求的不斷的打磨和優(yōu)化，成功應(yīng)用到了騰訊QQ、騰訊微視等多個(gè)產(chǎn)品中。其結(jié)合發(fā)布器技術(shù)中臺(tái)強(qiáng)大的圖形圖像渲染引擎，通過為前景人像和背景添加不同的濾鏡特效或更酷的背景效果，實(shí)現(xiàn) “七夕卡通畫“、“怪獸護(hù)體”等各種特效玩法。

全棧式AI，落地泛娛樂場(chǎng)景

當(dāng)然，GYSeg自研算法只是騰訊光影研究室AI能力的局部體現(xiàn)。

伴隨新技術(shù)的不斷發(fā)展和進(jìn)步，AI在泛娛樂領(lǐng)域的應(yīng)用場(chǎng)景變得更加豐富。在此基礎(chǔ)上，光影研究室圍繞計(jì)算機(jī)視覺技術(shù)展開了全棧式布局。

從技術(shù)能力上來講，目前主要分為兩大方面：應(yīng)用AI能力和基礎(chǔ)AI能力。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

值得一提的是，依托騰訊龐大和豐富的內(nèi)容產(chǎn)業(yè)，以上幾乎所有AI能力都在移動(dòng)端找到了落地場(chǎng)景，并成功覆蓋到了手機(jī)QQ相機(jī)、手機(jī)QQ音視頻通話、騰訊微視等20多條業(yè)務(wù)線中，為用戶帶來了全新的數(shù)字化娛樂體驗(yàn)。

1、應(yīng)用AI能力

應(yīng)用AI能力隸屬于"基礎(chǔ)美"的范疇，其主要目的是實(shí)現(xiàn)人像照片的系列美化功能，包含人臉的各種美顏/美妝/捏臉，不同場(chǎng)景的濾鏡，以及底層的拍攝質(zhì)量提升等。

具體表現(xiàn)為GAN的生成， 3D的重建，以及AR/交互AI等技術(shù)。

很多朋友應(yīng)該知道，前段時(shí)間火爆全網(wǎng)的“童話臉”特效，不僅有李雪琴親傳童話世界基本生存須知“公主病”，更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

童話臉特效背后依靠的便是GAN技術(shù)，它是騰訊光影研究室首次將GAN與3D卡通風(fēng)格相結(jié)合的應(yīng)用嘗試，同時(shí)也是業(yè)內(nèi)的第一次嘗試。

據(jù)了解，從算法研究到上線首發(fā)，研究團(tuán)隊(duì)僅用了兩周的時(shí)間，并成功克服了用戶ID生成，StyleGAN穩(wěn)定性，移動(dòng)端實(shí)時(shí)化三大落地挑戰(zhàn)。而且，基于自研的GYNet，其在移動(dòng)端的網(wǎng)絡(luò)計(jì)算量降低了200倍。目前這項(xiàng)AI能力仍在持續(xù)積累和迭代中。

在3D重建方面，光影研究室推出了3D捏臉能力，它可以根據(jù)用戶給定的照片自動(dòng)化捏出一個(gè)3D的人臉效果。從臉部的shape，五官的細(xì)節(jié)，到頭發(fā)的效果，在最大限度保留用戶ID的基礎(chǔ)上，提供了最佳體驗(yàn)效果。

沒想到，這個(gè)AI特效背后還隱藏著個(gè)“世界冠軍”

同時(shí)，在硬件適配方面，研究室團(tuán)隊(duì)針對(duì)低端機(jī)多了大量?jī)?yōu)化工作，包括底層使用TNN Inference框架，模型結(jié)構(gòu)的小型化，模型的量化、裁剪，工程Pipeline的設(shè)計(jì)等。最終按照機(jī)型進(jìn)行分發(fā)，保證了效果與速度的trade-off在高中低檔機(jī)型的全面覆蓋。

2、基礎(chǔ)AI能力

這方面主要涉及檢測(cè)&關(guān)鍵點(diǎn)、分割、分類三大類。上述語(yǔ)義分割算法GYSeg的研發(fā)屬于這一范疇。值得一提的是，關(guān)于分割技術(shù)，光影研究室團(tuán)隊(duì)發(fā)表的論文《Context Prior for Scene Segmentation》，還登上了計(jì)算機(jī)視覺頂會(huì)CVPR2020。

在落地方面，除了泛娛樂場(chǎng)景外，以上前沿技術(shù)在圖像處理、自動(dòng)駕駛，自動(dòng)醫(yī)療診斷等領(lǐng)域也有著極大地應(yīng)用價(jià)值。比如語(yǔ)義分割算法GYSeg，在自動(dòng)駕駛領(lǐng)域可用于區(qū)分路面陰影和真正的障礙物，以減少汽車誤判率等。

據(jù)光影研究室介紹，團(tuán)隊(duì)定位為PCG的發(fā)布器技術(shù)中臺(tái)，也承接了移動(dòng)端的拍攝/相機(jī)/玩法類的AI能力，旨在通過前沿的AI能力、先進(jìn)的玩法引擎和3D渲染技術(shù)，為騰訊的社交、短視頻等產(chǎn)品用戶提供服務(wù)。總體而言，業(yè)務(wù)方向更偏向To C端，更注重提升用戶的娛樂體驗(yàn)。

透過光影研究室的技術(shù)布局和應(yīng)用落地，可見其身上有兩個(gè)顯著的標(biāo)簽，一是聚焦“泛娛樂化場(chǎng)景”，二是“移動(dòng)端部署”，后者從目前的落地成果來看，在行業(yè)內(nèi)已具備核心競(jìng)爭(zhēng)力。在整個(gè)騰訊AI產(chǎn)業(yè)布局中，這兩個(gè)標(biāo)簽，也是騰訊光影研究室區(qū)別于騰訊優(yōu)圖、騰訊AI Lab最顯著的差異化特征。

自閉環(huán)的技術(shù)團(tuán)隊(duì)，讓光影內(nèi)容更有趣

作為專注于研究前沿影像處理技術(shù)的團(tuán)隊(duì)，騰訊光影研究室曾孕育出“全民武媚娘”、“小學(xué)生證件照”、“軍裝照”等現(xiàn)象級(jí)刷屏玩法；在探索泛娛樂綜合解決方案上，其愿景是讓拍攝特效更豐富，讓創(chuàng)作編輯更便捷，讓光影內(nèi)容更有趣。

據(jù)研究室負(fù)責(zé)人介紹，這支團(tuán)隊(duì)是一個(gè)從算法研究到工程落地自閉環(huán)的技術(shù)團(tuán)隊(duì)，具備CV，AR，3D引擎，特效玩法引擎，配套特效制作工具等完整的研發(fā)組織，強(qiáng)大的工程能力，這些都為光影CV算法的研究提供了有力支撐。

談及未來的研發(fā)方向，光影研究室團(tuán)隊(duì)表示，未來在算法側(cè)將會(huì)重點(diǎn)投入交互AI & 3D重建兩方向，為騰訊社交內(nèi)容生態(tài)提供持續(xù)不斷的創(chuàng)新驅(qū)動(dòng)力。在工程側(cè)將會(huì)繼續(xù)打磨、優(yōu)化特效玩法，包括引擎的功能和性能，更靈活的特效玩法，同時(shí)持續(xù)優(yōu)化素材創(chuàng)意制作工具，為業(yè)務(wù)的創(chuàng)意玩法生產(chǎn)發(fā)布進(jìn)行提效。

最后關(guān)于AI特效，你有什么創(chuàng)意玩法？可評(píng)論區(qū)在線提需求[手動(dòng)狗頭]

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。