0
本文作者: 貝爽 | 2021-01-29 13:49 |
昨晚做了一個(gè)夢(mèng),夢(mèng)里的我變成漫畫里的人物,正在為參與選秀苦練舞蹈,期待著萬眾矚目登上舞臺(tái)的一天。
然而一覺醒來,這個(gè)美夢(mèng)竟然成“真”了!
大眼睛,飽滿蘋果肌,擺著離出道還有億點(diǎn)點(diǎn)距離的律動(dòng)~妥妥的漫畫女主角既視感。
沒錯(cuò),這項(xiàng)黑科技就是手機(jī)QQ相機(jī)里的熱門AI玩法——漫畫臉。從畫面來看,哪怕受拍攝人物大幅度動(dòng)作,融合感依舊滿分。
類似的,一經(jīng)上線便備受用戶們追捧的還有“童話臉”等多個(gè)AI特效玩法。
AI特效看似操作簡(jiǎn)單,但要想一秒內(nèi)達(dá)到如此效果,其背后的技術(shù)支撐可并不簡(jiǎn)單。
細(xì)心的朋友可能會(huì)發(fā)現(xiàn),漫畫臉的AI特效get了一項(xiàng)技能——實(shí)時(shí)摳圖。在動(dòng)態(tài)場(chǎng)景下, 無論是人像的頭部、面部,還是半身像,都能夠被精準(zhǔn)識(shí)別,并轉(zhuǎn)化為漫畫版,看不出一點(diǎn)破綻。
這項(xiàng)技能在學(xué)術(shù)上叫做語義分割技術(shù)。而這些特效背后使用的語義分割技術(shù)叫做GYSeg,它是騰訊光影研究室(Tencent GYLab)在計(jì)算機(jī)視覺領(lǐng)域的自研算法。最近GYSeg算法剛剛參加完MIT Scene Parsing Benchmark 場(chǎng)景解析國際競(jìng)賽,從多個(gè)參賽團(tuán)隊(duì)中脫穎而出,以0.6140的成績斬獲了冠軍。值得一提的是,近兩周團(tuán)隊(duì)持續(xù)優(yōu)化算法,并再次刷線最新成績至0.6235,仍處榜單第一名。
專業(yè)科普一下,MIT Scene Parsing Benchmark 是全球公認(rèn)的最具挑戰(zhàn)性、權(quán)威性的場(chǎng)景解析、語義分割評(píng)測(cè)集。其發(fā)布的ADE20K數(shù)據(jù)集是計(jì)算機(jī)視覺三大頂會(huì)(CVPR、ICCV和ECCV)語義分割論文的權(quán)威基準(zhǔn)數(shù)據(jù)集。
每年有眾多國際頂尖企業(yè)、學(xué)術(shù)機(jī)構(gòu)參加這項(xiàng)國際賽事,比如本屆參賽的團(tuán)隊(duì)還有商湯科技、亞馬遜、復(fù)旦、北大、MIT等國內(nèi)外研究機(jī)構(gòu)和高校。
簡(jiǎn)單理解,語義分割技術(shù)就是讓計(jì)算機(jī)能夠識(shí)別出圖像場(chǎng)景中每一個(gè)像素所代表的語義類別。
以人像圖像為例,人像的全身、半身、頭部、頭發(fā)、多人/單人以及多樣化的背景都是其需要識(shí)別的目標(biāo)。
而從更大范圍來講,現(xiàn)實(shí)生活場(chǎng)景十分豐富、目標(biāo)復(fù)雜、尺度范圍大,如本次比賽所使用的ADE20K數(shù)據(jù)集包含了150個(gè)類別,涉及人類生活各個(gè)方面的場(chǎng)景。 這對(duì)于AI語義識(shí)別本身提出了較高的挑戰(zhàn)。
更重要的是,同種類的物體在不同場(chǎng)景中很可能表現(xiàn)出不同的大小、比例和姿態(tài);不同物體之間可能存在相互遮擋問題,由此會(huì)帶來嚴(yán)重的語義混淆。
為了克服以上難點(diǎn),GYSeg算法在數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)設(shè)計(jì)、訓(xùn)練、推斷方面進(jìn)行了一系列創(chuàng)新,并建立了一套通用的整體分割架構(gòu)。
在網(wǎng)絡(luò)設(shè)計(jì)方面,GYSeg算法采用自研的GYNet作為backbone,并接入ASPP模塊進(jìn)行特征的增強(qiáng)與融合,獲得了更多的Context以及感受野,同時(shí),整體結(jié)構(gòu)達(dá)到了很好的速度跟精度的平衡。
在分割head方面,為提高不同尺度物體和小物體的分割精度,采用基于Multi-scale Attention的方式使網(wǎng)絡(luò)在不同尺度上自適應(yīng)的學(xué)習(xí)。
在推斷階段,GYSeg算法采用了多種不同尺度級(jí)聯(lián)式推斷融合。在此基礎(chǔ)上,使用ADE訓(xùn)練集數(shù)據(jù)搭建SegFix網(wǎng)絡(luò),對(duì)Multi-scale Attention的輸出結(jié)果進(jìn)行精修,以提升邊緣分割的一致性。同時(shí),在訓(xùn)練過程,加入OHEM提升困難樣本學(xué)習(xí)能力,在多物體分割中采用gradient loss對(duì)物體邊緣進(jìn)行約束來提升邊緣的準(zhǔn)確性。
在數(shù)據(jù)增強(qiáng)方面,除了針對(duì)復(fù)雜場(chǎng)景使用隨機(jī)縮放、crop、對(duì)比度、blur等常規(guī)操作外,對(duì)于語義明確、數(shù)量較少的類別,GYSeg算法還采用了“復(fù)制-粘貼”的方式進(jìn)行擴(kuò)充。如動(dòng)物、摩托車、自行車等。
在loss約束方面,借助OHEM進(jìn)行在線困難樣本挖掘,GYSeg算法在validation集上Miou提升0.4%,優(yōu)于focalloss(提升0.26%)。
如上述案例所見,在人像分割方面,GYSeg算法憑借對(duì)人像半身、全身,室內(nèi)、室外,單人/多人等多復(fù)雜場(chǎng)景的需求的不斷的打磨和優(yōu)化,成功應(yīng)用到了騰訊QQ、騰訊微視等多個(gè)產(chǎn)品中。其結(jié)合發(fā)布器技術(shù)中臺(tái)強(qiáng)大的圖形圖像渲染引擎,通過為前景人像和背景添加不同的濾鏡特效或更酷的背景效果,實(shí)現(xiàn) “七夕卡通畫“、“怪獸護(hù)體”等各種特效玩法。
當(dāng)然,GYSeg自研算法只是騰訊光影研究室AI能力的局部體現(xiàn)。
伴隨新技術(shù)的不斷發(fā)展和進(jìn)步,AI在泛娛樂領(lǐng)域的應(yīng)用場(chǎng)景變得更加豐富。在此基礎(chǔ)上,光影研究室圍繞計(jì)算機(jī)視覺技術(shù)展開了全棧式布局。
從技術(shù)能力上來講,目前主要分為兩大方面:應(yīng)用AI能力和基礎(chǔ)AI能力。
值得一提的是,依托騰訊龐大和豐富的內(nèi)容產(chǎn)業(yè),以上幾乎所有AI能力都在移動(dòng)端找到了落地場(chǎng)景,并成功覆蓋到了手機(jī)QQ相機(jī)、手機(jī)QQ音視頻通話、騰訊微視等20多條業(yè)務(wù)線中,為用戶帶來了全新的數(shù)字化娛樂體驗(yàn)。
1、應(yīng)用AI能力
應(yīng)用AI能力隸屬于"基礎(chǔ)美"的范疇,其主要目的是實(shí)現(xiàn)人像照片的系列美化功能,包含人臉的各種美顏/美妝/捏臉,不同場(chǎng)景的濾鏡,以及底層的拍攝質(zhì)量提升等。
具體表現(xiàn)為GAN的生成, 3D的重建,以及AR/交互AI等技術(shù)。
很多朋友應(yīng)該知道,前段時(shí)間火爆全網(wǎng)的“童話臉”特效,不僅有李雪琴親傳童話世界基本生存須知“公主病”,更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。
童話臉特效背后依靠的便是GAN技術(shù),它是騰訊光影研究室首次將GAN與3D卡通風(fēng)格相結(jié)合的應(yīng)用嘗試,同時(shí)也是業(yè)內(nèi)的第一次嘗試。
據(jù)了解,從算法研究到上線首發(fā),研究團(tuán)隊(duì)僅用了兩周的時(shí)間,并成功克服了用戶ID生成,StyleGAN穩(wěn)定性,移動(dòng)端實(shí)時(shí)化三大落地挑戰(zhàn)。而且,基于自研的GYNet,其在移動(dòng)端的網(wǎng)絡(luò)計(jì)算量降低了200倍。目前這項(xiàng)AI能力仍在持續(xù)積累和迭代中。
在3D重建方面,光影研究室推出了3D捏臉能力,它可以根據(jù)用戶給定的照片自動(dòng)化捏出一個(gè)3D的人臉效果。從臉部的shape,五官的細(xì)節(jié),到頭發(fā)的效果,在最大限度保留用戶ID的基礎(chǔ)上,提供了最佳體驗(yàn)效果。
同時(shí),在硬件適配方面,研究室團(tuán)隊(duì)針對(duì)低端機(jī)多了大量優(yōu)化工作,包括底層使用TNN Inference框架,模型結(jié)構(gòu)的小型化,模型的量化、裁剪,工程Pipeline的設(shè)計(jì)等。最終按照機(jī)型進(jìn)行分發(fā),保證了效果與速度的trade-off在高中低檔機(jī)型的全面覆蓋。
2、基礎(chǔ)AI能力
這方面主要涉及檢測(cè)&關(guān)鍵點(diǎn)、分割、分類三大類。上述語義分割算法GYSeg的研發(fā)屬于這一范疇。值得一提的是,關(guān)于分割技術(shù),光影研究室團(tuán)隊(duì)發(fā)表的論文《Context Prior for Scene Segmentation》,還登上了計(jì)算機(jī)視覺頂會(huì)CVPR2020。
在落地方面,除了泛娛樂場(chǎng)景外,以上前沿技術(shù)在圖像處理、自動(dòng)駕駛,自動(dòng)醫(yī)療診斷等領(lǐng)域也有著極大地應(yīng)用價(jià)值。比如語義分割算法GYSeg,在自動(dòng)駕駛領(lǐng)域可用于區(qū)分路面陰影和真正的障礙物,以減少汽車誤判率等。
據(jù)光影研究室介紹,團(tuán)隊(duì)定位為PCG的發(fā)布器技術(shù)中臺(tái),也承接了移動(dòng)端的拍攝/相機(jī)/玩法類的AI能力,旨在通過前沿的AI能力、先進(jìn)的玩法引擎和3D渲染技術(shù),為騰訊的社交、短視頻等產(chǎn)品用戶提供服務(wù)。總體而言,業(yè)務(wù)方向更偏向To C端,更注重提升用戶的娛樂體驗(yàn)。
透過光影研究室的技術(shù)布局和應(yīng)用落地,可見其身上有兩個(gè)顯著的標(biāo)簽,一是聚焦“泛娛樂化場(chǎng)景”,二是“移動(dòng)端部署”,后者從目前的落地成果來看,在行業(yè)內(nèi)已具備核心競(jìng)爭(zhēng)力。在整個(gè)騰訊AI產(chǎn)業(yè)布局中,這兩個(gè)標(biāo)簽,也是騰訊光影研究室區(qū)別于騰訊優(yōu)圖、騰訊AI Lab最顯著的差異化特征。
作為專注于研究前沿影像處理技術(shù)的團(tuán)隊(duì),騰訊光影研究室曾孕育出“全民武媚娘”、“小學(xué)生證件照”、“軍裝照”等現(xiàn)象級(jí)刷屏玩法;在探索泛娛樂綜合解決方案上,其愿景是讓拍攝特效更豐富,讓創(chuàng)作編輯更便捷,讓光影內(nèi)容更有趣。
據(jù)研究室負(fù)責(zé)人介紹,這支團(tuán)隊(duì)是一個(gè)從算法研究到工程落地自閉環(huán)的技術(shù)團(tuán)隊(duì),具備CV,AR,3D引擎,特效玩法引擎,配套特效制作工具等完整的研發(fā)組織,強(qiáng)大的工程能力,這些都為光影CV算法的研究提供了有力支撐。
談及未來的研發(fā)方向,光影研究室團(tuán)隊(duì)表示,未來在算法側(cè)將會(huì)重點(diǎn)投入交互AI & 3D重建兩方向,為騰訊社交內(nèi)容生態(tài)提供持續(xù)不斷的創(chuàng)新驅(qū)動(dòng)力。 在工程側(cè)將會(huì)繼續(xù)打磨、優(yōu)化特效玩法,包括引擎的功能和性能,更靈活的特效玩法,同時(shí)持續(xù)優(yōu)化素材創(chuàng)意制作工具,為業(yè)務(wù)的創(chuàng)意玩法生產(chǎn)發(fā)布進(jìn)行提效。
最后關(guān)于AI特效,你有什么創(chuàng)意玩法?可評(píng)論區(qū)在線提需求[手動(dòng)狗頭]
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。