1
本文作者: 李秀琴 | 2017-06-06 17:07 | 專題:雷峰網(wǎng)公開課 |
雷鋒網(wǎng)按:視頻直播行業(yè)在前幾年迎來了井噴式爆發(fā),隨著人工智能技術(shù)的逐漸成熟,視頻的解決方案也在不斷完善,例如大數(shù)據(jù)、智能追蹤、直播互動(dòng)、廣告精準(zhǔn)推薦等,這些都在潛移默化中提升視頻的用戶體驗(yàn),并且也給視頻行業(yè)帶來了新的商業(yè)模式。
那么人工智能在視頻應(yīng)用場景中究竟能發(fā)揮哪些作用?二者結(jié)合能帶來哪些新的商業(yè)應(yīng)用?
本期硬創(chuàng)公開課,雷鋒網(wǎng)邀請(qǐng)到了Video++人工智能事業(yè)部研發(fā)Team Leader張奕為大家講解人工智能在消費(fèi)級(jí)視頻場景中的應(yīng)用。
嘉賓簡介
張奕:Video++人工智能事業(yè)部研發(fā) Team Leader,中科院博士,研究領(lǐng)域包括深度學(xué)習(xí)、多媒體、計(jì)算機(jī)視覺、模式識(shí)別及視頻處理,原美國Autodesk研究院計(jì)算機(jī)視覺專家,擁有數(shù)項(xiàng)技術(shù)發(fā)明專利,在ICPR、ICVR等知名國際會(huì)議及Journal of Multimedia等國際期刊中發(fā)布過數(shù)篇論文。
Video++專注于消費(fèi)級(jí)視頻大流量場景的AI科技公司,以視覺識(shí)別和大數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)視頻場景匹配和廣告自動(dòng)投放,實(shí)現(xiàn)在視頻中的購物,百科,虛擬植入,卡牌互動(dòng),投票,發(fā)紅包等互動(dòng)功能,為觀眾提供新型的互動(dòng)體驗(yàn)。
截至日前,服務(wù)的10000多家企業(yè)包括樂視視頻、芒果TV、愛奇藝、風(fēng)行網(wǎng)、浙江衛(wèi)視中國藍(lán)等綜合平臺(tái),斗魚直播、戰(zhàn)旗直播、熊貓直播等直播平臺(tái),以及Zealer、日日煮、小李子足球等垂直網(wǎng)站和社區(qū),每月為平臺(tái)提供超過101億次的服務(wù)。
以下內(nèi)容整理自本期公開課,雷鋒網(wǎng)做了不改變?cè)獾木庉嫞?/span>
大家好,我是來自Video++團(tuán)隊(duì)的張奕。Video++成立2年多來,一直致力于消費(fèi)級(jí)視頻領(lǐng)域的技術(shù)產(chǎn)品的研發(fā),利用人工智能技術(shù)實(shí)現(xiàn)視頻內(nèi)容的分析和識(shí)別。今天就給大家分享一下Video++團(tuán)隊(duì)利用人工智能技術(shù)在消費(fèi)級(jí)視頻垂直領(lǐng)域的應(yīng)用的技術(shù)和心得。
一、消費(fèi)級(jí)視頻的特點(diǎn)
消費(fèi)級(jí)視頻作為視頻的一個(gè)子類,當(dāng)然具有相對(duì)于靜態(tài)圖像所具有的特點(diǎn)。即在時(shí)間維度上,能夠?qū)?nèi)容識(shí)別提供重要的幫助,是統(tǒng)計(jì)算法斟酌如何有效利用的重要因素。具體有以下特點(diǎn):
數(shù)據(jù)量大
類別多樣
場景復(fù)雜
一般而言,視頻一般分為兩大類:消費(fèi)級(jí)視頻和工業(yè)級(jí)視頻。工業(yè)級(jí)視頻指的是利用固定設(shè)備在固定條件、固定場景下拍攝的視頻。常見的有安防視頻。很顯然,消費(fèi)級(jí)視頻相對(duì)于前者而言更加復(fù)雜。下面就來看一下其相對(duì)于其他視頻產(chǎn)品的不同。
1、數(shù)據(jù)量大
這是消費(fèi)級(jí)視頻的第一個(gè)特點(diǎn)。隨著互聯(lián)網(wǎng)的發(fā)展壯大,很多產(chǎn)品的數(shù)據(jù)都通過互聯(lián)網(wǎng)和云端進(jìn)行傳輸和存儲(chǔ)。數(shù)據(jù)量大也使得消費(fèi)級(jí)視頻的商業(yè)價(jià)值的潛力變得巨大,與此同時(shí)這也給人工智能算法處理提出了更高的要求。算法運(yùn)行時(shí),必須考慮到計(jì)算的速度,且要在合理的時(shí)間里對(duì)大量的數(shù)據(jù)進(jìn)行分析和處理。
2、類別多樣
再來看消費(fèi)級(jí)視頻的第二個(gè)特點(diǎn)。其實(shí)其本身可分為很多種類,如電影、綜藝、體育和廣告,還有這兩年非?;鸬闹辈?、短視頻等等。這些子類的消費(fèi)者視頻的內(nèi)容形式之間又存在著很大的差異,所以也給不同子類的通用算法提出巨大的挑戰(zhàn)。
3、場景復(fù)雜
上文也提到,工業(yè)級(jí)視頻由于條件固定,所以場景單一,而消費(fèi)者視頻則來源多樣,后期還有很多加工,從而場景更加復(fù)雜。在消費(fèi)者視頻里,經(jīng)常能看到場景的切換、縮放和拼接,還有字幕,淡入淡出等功效設(shè)置。在很多消費(fèi)者視頻中,如舞臺(tái)綜藝節(jié)目的頻繁移動(dòng),交接的改變,都會(huì)對(duì)整體或者局部產(chǎn)生模糊。以上因素都會(huì)對(duì)人工智能分析視頻內(nèi)容產(chǎn)生一定程度的干擾,這就要求人工智能算法需要具備更高的魯棒性,以減少這些因素帶來的干擾。
二、人工智能的發(fā)展與消費(fèi)級(jí)視頻的分析
再來了解一下人工智能技術(shù)在消費(fèi)級(jí)視頻領(lǐng)域的應(yīng)用,以及過去、現(xiàn)在和將來會(huì)達(dá)到什么程度。
人工智能在消費(fèi)級(jí)視頻中最重要的功能是目標(biāo)追蹤、檢測(cè)和識(shí)別。與工業(yè)級(jí)視頻相比,消費(fèi)級(jí)視頻最大的區(qū)別在于其需要編輯、策劃和互動(dòng),這是我們可以介入的地方。像娛樂綜藝、在線直播等還有很大的剩余價(jià)值有待開發(fā)。利用人工智能技術(shù)對(duì)物體、人臉、場景、品牌進(jìn)行系列結(jié)構(gòu)篩選后,就能得到這個(gè)視頻里在何時(shí)何地出現(xiàn)了什么人物、物體、場景和品牌的信息。然后再在這一基礎(chǔ)上對(duì)物體進(jìn)行結(jié)構(gòu)化,就能產(chǎn)生極大的商業(yè)價(jià)值。
目前來看,在視頻中加入廣告等都需要人工操作,如果采用人工智能技術(shù)來完成這些工作,則能很大程度節(jié)省時(shí)間,降低成本。建立視頻結(jié)構(gòu)化數(shù)據(jù)庫以后,經(jīng)過關(guān)鍵詞的篩選,用戶可以批量化、精準(zhǔn)化地進(jìn)行廣告投放,這套系統(tǒng)就能將應(yīng)用市場、廣告電商和消費(fèi)者關(guān)聯(lián)起來,實(shí)現(xiàn)視頻商業(yè)的結(jié)構(gòu)。
從以上可以看出,人工智能在消費(fèi)級(jí)視頻領(lǐng)域具有巨大的商業(yè)價(jià)值。但是,要實(shí)現(xiàn)以上的應(yīng)用設(shè)計(jì),還必須依賴技術(shù)的發(fā)展。人工智能技術(shù)從上世紀(jì)30年代伊始,至今已有80年的發(fā)展歷程,也經(jīng)歷了好幾次的技術(shù)飛躍。具體如上表所示,其中最近也是最重要的一次飛躍是在2010年——深度學(xué)習(xí)技術(shù)在識(shí)別中的應(yīng)用。
在深度學(xué)習(xí)技術(shù)應(yīng)用之前,人工智能識(shí)別技術(shù)也在不斷發(fā)展,但是在實(shí)際應(yīng)用中,算法準(zhǔn)確率與產(chǎn)品商業(yè)化要求之間還存在較大的差距。深度學(xué)習(xí)技術(shù)的出現(xiàn),極大的提升了算法的準(zhǔn)確率,拉低了其與產(chǎn)品商業(yè)化要求的差距,使得人們看到了人工智能技術(shù)近年來在消費(fèi)級(jí)視頻等相關(guān)領(lǐng)域應(yīng)用的希望。
三、如何構(gòu)建基于深度學(xué)習(xí)的消費(fèi)級(jí)視頻分析系統(tǒng)
在這一部分,我將從Video++在消費(fèi)級(jí)視頻領(lǐng)域運(yùn)用人工智能技術(shù)的相關(guān)實(shí)例和心得為大家講述如何構(gòu)建基于深度學(xué)習(xí)的消費(fèi)級(jí)視頻分析系統(tǒng)。
大體來看,構(gòu)建這一系統(tǒng)需要設(shè)計(jì)算法框架和工程化框架。其中,算法框架是基礎(chǔ)。
1、構(gòu)建基于深度學(xué)習(xí)的消費(fèi)級(jí)視頻分析系統(tǒng)的要素
構(gòu)建基于深度學(xué)習(xí)的消費(fèi)級(jí)視頻分析系統(tǒng)主要包括三種算法。
首先第一個(gè)是深度學(xué)習(xí)算法。如圖所示,其中就包括樣本的選擇、識(shí)別和標(biāo)注,模型的設(shè)計(jì)以及訓(xùn)練測(cè)量。
其次是計(jì)算機(jī)視覺&圖像處理。因?yàn)檫@里涉及消費(fèi)級(jí)視頻領(lǐng)域,所以必須借助這一算法對(duì)視頻進(jìn)行必要的預(yù)處理,從而為深度學(xué)習(xí)做儲(chǔ)備。那么這其中就包括目標(biāo)檢測(cè)、跟蹤和圖像變換。
此外還包括其他一些算法,如統(tǒng)計(jì)模型等。
以上算法都是涉及構(gòu)建消費(fèi)級(jí)視頻分析系統(tǒng)需要借助的基礎(chǔ)算法,那么,選擇算法的標(biāo)準(zhǔn)又是什么?主要與以下兩個(gè)因素有關(guān):
準(zhǔn)確率
速度
消費(fèi)級(jí)視頻分析系統(tǒng)除了對(duì)準(zhǔn)確率要求高之外,由于要分析規(guī)模龐大的數(shù)據(jù),對(duì)處理速度要求也非常的高。不過,這兩項(xiàng)指標(biāo)本身是存在沖突的。因?yàn)闇?zhǔn)確率更高的系統(tǒng)通常需要消耗更高的計(jì)算時(shí)間,而處理速度快的算法相對(duì)而言準(zhǔn)確率會(huì)更低,所以在設(shè)計(jì)算法框架時(shí)需要在二者之間找到最優(yōu)的平衡點(diǎn)。
下面我將從深度學(xué)習(xí)算法框架開始,具體談?wù)勥@個(gè)算法中的設(shè)計(jì)要點(diǎn)。
1)深度學(xué)習(xí):樣本采集和標(biāo)注
在研究深度學(xué)習(xí)算法中,往往最主要關(guān)注深度神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì),而訓(xùn)練和測(cè)試樣本一般是采用公共的數(shù)據(jù)集,以便和其他的算法進(jìn)行比較。所以訓(xùn)練樣本的采集和標(biāo)注也不是那么的重要。但是在消費(fèi)級(jí)視頻分析系統(tǒng)運(yùn)用到具體場景的應(yīng)用中,訓(xùn)練樣本的采集和選擇就顯得尤為重要。這是由深度學(xué)習(xí)的特點(diǎn)來決定的。
訓(xùn)練一個(gè)深度學(xué)習(xí)模型,需要大量經(jīng)過良好訓(xùn)練標(biāo)注的樣本。這些樣本的質(zhì)量直接決定了訓(xùn)練所得到的模型的泛化的程度。沒有足夠多的標(biāo)注的數(shù)據(jù),即使有好的網(wǎng)絡(luò)模型,也是巧婦難為無米之炊,無法訓(xùn)練出好的結(jié)果。
Video++在數(shù)據(jù)收集和標(biāo)注上積累了大量的數(shù)據(jù)。數(shù)據(jù)的收集包括兩類重要的方式,一是由專業(yè)的團(tuán)隊(duì)進(jìn)行離線的數(shù)據(jù)收集和標(biāo)注,作為初始模型的訓(xùn)練數(shù)據(jù)。二是由離線收集的訓(xùn)練數(shù)據(jù)得到初始模型,然后在線上測(cè)試得到反饋數(shù)據(jù),從中挑選錯(cuò)分的樣本,再經(jīng)過人工的標(biāo)注后,將其加入訓(xùn)練數(shù)據(jù)集里面,對(duì)模型模型進(jìn)行持續(xù)的訓(xùn)練和分析。我們認(rèn)為在不久的將來,待標(biāo)注的數(shù)據(jù)將成為一項(xiàng)技術(shù)壁壘,因?yàn)樗苯記Q定了訓(xùn)練模型得到的數(shù)據(jù)的準(zhǔn)確率。
樣本的收集中還有一個(gè)值得注意的問題采集的訓(xùn)練樣本必須與應(yīng)用環(huán)境中的樣本分布盡量保持一致。以消費(fèi)級(jí)視頻分析為例,訓(xùn)練樣本必須盡量從消費(fèi)級(jí)視頻里收集,最大限度地使訓(xùn)練樣本與應(yīng)用環(huán)境樣本分布保持一致。如果從其他數(shù)據(jù)源,如工業(yè)級(jí)視頻或靜態(tài)圖像中獲取訓(xùn)練樣本,則會(huì)降低在消費(fèi)級(jí)視頻的測(cè)試的準(zhǔn)確率。
2)深度學(xué)習(xí):模型的選擇與設(shè)計(jì)
標(biāo)注樣本數(shù)據(jù)之后,我們就要針對(duì)應(yīng)用的類別和樣本的特點(diǎn)選擇對(duì)應(yīng)的模型類型和訓(xùn)練方式。如單禎的分類應(yīng)用通常選擇卷積神經(jīng)網(wǎng)絡(luò)模型,時(shí)間序列建模相關(guān)的分類應(yīng)用則選擇遞歸神經(jīng)網(wǎng)絡(luò)模型。選定模型類別之后,根據(jù)應(yīng)用的復(fù)雜程度和訓(xùn)練樣本的大小選擇模型的深度。
原則上來說,越深的模型應(yīng)用效果更好,但前提是要有足夠多的樣本來支持。另外,更深的模型也會(huì)對(duì)硬件容量大小提出更高的要求。對(duì)于硬件愛好者或者創(chuàng)業(yè)初期的公司來說,硬件條件也是選擇訓(xùn)練模型的深度需要考量的一個(gè)因素。
而訓(xùn)練方式中面臨的一個(gè)困難選擇在于,是用訓(xùn)練樣本從頭開始訓(xùn)練模型,還是在大規(guī)模訓(xùn)練集上得到的通用訓(xùn)練模型的基礎(chǔ)之上,再用樣本進(jìn)行數(shù)據(jù)的微調(diào)。這個(gè)微調(diào)是由訓(xùn)練收集的樣本大小來決定的。如果訓(xùn)練樣本規(guī)模不足,那么可以考慮采用以通用模型作為初始化參數(shù),然后再在收集的樣本上進(jìn)行數(shù)據(jù)微調(diào)的方案。具體有哪些層的參數(shù)可以進(jìn)行微調(diào)呢?也是由訓(xùn)練樣本規(guī)模和應(yīng)用問題來決定的。
2、視頻分析算法總體框架的設(shè)計(jì)
在訓(xùn)練好了深度學(xué)習(xí)模型之后,我們并不能完整解決消費(fèi)級(jí)視頻的問題。一個(gè)端到端的視頻分析系統(tǒng),必須需要計(jì)算機(jī)視覺和深度學(xué)習(xí)識(shí)別技術(shù)的配合。
計(jì)算機(jī)視覺算法主要負(fù)責(zé)視頻的預(yù)處理,包括
視頻結(jié)構(gòu)的分割
目標(biāo)軌跡的提取
目標(biāo)圖像的處理
識(shí)別結(jié)果的處理
這些工作為深度學(xué)習(xí)網(wǎng)絡(luò)模型提供數(shù)據(jù)輸入、計(jì)算機(jī)視覺和統(tǒng)計(jì)算法,還負(fù)責(zé)對(duì)深度網(wǎng)絡(luò)模型輸出的結(jié)構(gòu)進(jìn)行后處理,生成最真的視頻分析結(jié)果。
3、工程化
在有了算法架構(gòu)之后,已經(jīng)能夠?qū)崿F(xiàn)應(yīng)用所要求的功能,做成演示系統(tǒng),但要滿足產(chǎn)品化的要求還需要精心設(shè)計(jì)后的工程構(gòu)架。工程化的構(gòu)架所要解決的問題是讓算法在生產(chǎn)的高密發(fā)狀態(tài)下生成快速的運(yùn)行,提供穩(wěn)定的服務(wù)。為了達(dá)到這一目的,工程化可以從以下方面進(jìn)行優(yōu)化:
首先是算法的并行化。這其中就包括單一算法內(nèi)部代碼的優(yōu)化和多算法模塊之間的并行化。
此外,為了處理高并發(fā),需要設(shè)置有效的分布式系統(tǒng)和多任務(wù)調(diào)度系統(tǒng)。
由于不同的算法模塊對(duì)GPU/CPU的計(jì)算資源分配不同,需要對(duì)算法模塊進(jìn)行分割,分配不同的GPU/CPU資源。
最后還要還需要設(shè)置合理的任務(wù)優(yōu)先級(jí)處理程序,對(duì)高優(yōu)先級(jí)的任務(wù)進(jìn)行及時(shí)的相應(yīng)。
4、以消費(fèi)級(jí)視頻中的人臉識(shí)別為例
前面談到了很多設(shè)計(jì)思路,下面我想要借助消費(fèi)級(jí)視頻中的人臉識(shí)別技術(shù)來說明下前面提到的設(shè)計(jì)原則是如何在場景具體應(yīng)用的。
我們?cè)谀玫揭粋€(gè)具體應(yīng)用中,需要明確系統(tǒng)的“輸入”和“輸出”。其實(shí)“輸入”很簡單,就是消費(fèi)級(jí)視頻具有場景多樣、數(shù)據(jù)量大等特點(diǎn),系統(tǒng)的“輸出”是視頻結(jié)構(gòu)化的信息,結(jié)構(gòu)化的基準(zhǔn)是人臉的軌跡和軌跡識(shí)別標(biāo)簽。整個(gè)輸出是整個(gè)人臉的一個(gè)列表,列表中的每一個(gè)元素就是一條人臉軌跡。每條人臉軌跡可用一系列的標(biāo)簽來描述,如起始禎號(hào)、軌跡長度、人臉坐標(biāo)列表、識(shí)別結(jié)果標(biāo)簽和識(shí)別結(jié)果置信度等。總結(jié)這些屬性,總共包括兩方面。一是軌跡出現(xiàn)的位置和時(shí)間,第二是軌跡識(shí)別的標(biāo)簽。
由此我們可以想到,一個(gè)初步的算法設(shè)計(jì)框架,由計(jì)算機(jī)視覺的人臉檢測(cè)跟蹤算法來獲得人臉軌跡的位置時(shí)間信息,再由深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來識(shí)別人臉的標(biāo)簽。
在開始算法設(shè)計(jì)前,需要牢記消費(fèi)級(jí)視頻場景負(fù)責(zé)、數(shù)據(jù)量大、類別多樣的特點(diǎn),以及識(shí)別準(zhǔn)確率和處理速度的要求。
1)模塊一:視頻結(jié)構(gòu)化,將視頻用鏡頭分割
對(duì)于消費(fèi)級(jí)視頻而言,鏡頭的切換非常頻繁,而任何軌跡目標(biāo)的提取都應(yīng)該在單一鏡頭里面進(jìn)行的。所以鏡頭分割成為一項(xiàng)重要的預(yù)處理環(huán)節(jié)。在設(shè)計(jì)鏡頭分割模塊算法的時(shí)候,我們依然要權(quán)衡準(zhǔn)確率和處理數(shù)據(jù)速度的指標(biāo)。
在這一環(huán)節(jié)中,通常采用全局特征和局部特征相結(jié)合的方法。全局特征檢測(cè)全局顏色的分布突變,然后借用局部特征獲得的人臉識(shí)別的跟蹤結(jié)果、跟蹤軌跡的斷續(xù)來判斷視頻是否具有鏡頭切換。跟蹤來判斷鏡頭切換有一個(gè)很大的優(yōu)點(diǎn),因?yàn)楹罄m(xù)的步驟也會(huì)采用相似的算法,所以這一步驟所需的算法是可以重復(fù)使用的。
2)模塊二:人臉軌跡提取
完成了鏡頭分割以后,就可以分割好的單一鏡頭里進(jìn)行人臉軌跡提取。在軌跡提取的算法上,同樣要考慮準(zhǔn)確率和速度的指標(biāo)。要實(shí)現(xiàn)速度和準(zhǔn)確率的平衡,可以有以下兩種途徑:
1. 間隔采樣 or 逐幀處理
2. 檢測(cè) & 跟蹤的配合
間隔采樣僅僅需要處理時(shí)間點(diǎn)上的幀,這樣就能大大降低處理的數(shù)據(jù)量,從而提升處理的速度。但是這一方法也同時(shí)丟失了時(shí)間序列的前后幀的關(guān)聯(lián)信息,會(huì)影響后續(xù)視頻的準(zhǔn)確率。由于消費(fèi)級(jí)視頻場景復(fù)雜的特點(diǎn),單幀圖像的質(zhì)量往往比較差,所以我們摒棄了提取關(guān)鍵幀作為識(shí)別依據(jù)的做法,所以我們采用檢測(cè)跟蹤和逐幀的處理整條人臉軌跡進(jìn)行分析。
我們的設(shè)計(jì)思路是盡量獲得更多的幀,來彌補(bǔ)單禎質(zhì)量的不足。而在逐幀處理的策略下,我們采用的是跟蹤模塊,能夠最大限度地利用時(shí)間信息來降低獲取人臉位置的開銷。因?yàn)楦櫛葯z測(cè)的計(jì)算量要小很多。
接下來,我們?cè)O(shè)計(jì)了檢測(cè)和跟蹤算法的配合策略,同樣是為了實(shí)現(xiàn)準(zhǔn)確率和速度的平衡。在等間隔時(shí)間等量進(jìn)行人臉的檢測(cè),以發(fā)現(xiàn)新出現(xiàn)的人臉目標(biāo),然后對(duì)其進(jìn)行跟蹤。在跟蹤的時(shí)候,會(huì)在跟蹤框周圍進(jìn)行簡單的檢測(cè),用檢測(cè)框?qū)z測(cè)結(jié)果進(jìn)行修正,提高檢測(cè)的準(zhǔn)確度。從而在這一情況下實(shí)現(xiàn)速度和準(zhǔn)確率的平衡的目標(biāo)。
然而,在人臉軌跡提取中還存在一些復(fù)雜情況。一個(gè)是多目標(biāo),另一個(gè)是要注意尺度的變化。這些情況在消費(fèi)級(jí)視頻中還挺常見,需要額外的計(jì)算開銷,這也是在算法設(shè)計(jì)中需要權(quán)衡的變化。
3)模塊三:人臉識(shí)別
有了人臉軌跡之后,我們就可以開始進(jìn)行人臉的識(shí)別了。但是在將人臉數(shù)據(jù)輸入深度網(wǎng)絡(luò)之前,還需要對(duì)其進(jìn)行必要的變換和處理。其中一部分變換在針對(duì)人臉這一部分非常重要,尤其是在消費(fèi)級(jí)視頻里,那就是人臉的對(duì)齊。人臉對(duì)齊是利用人臉的特征點(diǎn)檢測(cè)定位,將各種姿勢(shì)的人臉圖像還原矯正為正臉的過程。這需要對(duì)齊的原因是,人臉識(shí)別的模型是從人的正臉圖片訓(xùn)練得到的。為了讓訓(xùn)練模型保持和應(yīng)用的一致性,人臉對(duì)齊在消費(fèi)級(jí)視頻里是必不可少的步驟。
在識(shí)別之前,對(duì)人臉數(shù)據(jù)的預(yù)處理還包括人臉質(zhì)量的評(píng)估。這一模塊的設(shè)計(jì)也是與消費(fèi)級(jí)視頻的特點(diǎn)息息相關(guān)的。由于消費(fèi)級(jí)視頻里的圖片同樣出現(xiàn)參差不齊的現(xiàn)象,所以一些低質(zhì)量的人臉識(shí)別的結(jié)果是不可信的,這將干擾最終的視頻結(jié)果。因此我們?cè)谒惴蚣苤?,加入了人臉質(zhì)量評(píng)估的算法,以過濾低質(zhì)量的人臉圖片,保證人臉數(shù)據(jù)的準(zhǔn)確率。
傳統(tǒng)的人臉質(zhì)量評(píng)估,包括客觀評(píng)價(jià)指標(biāo)和主觀評(píng)價(jià)指標(biāo)。就此,我們采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來進(jìn)行評(píng)估。主要分為三個(gè)步驟。
標(biāo)注人臉數(shù)據(jù)。從互聯(lián)網(wǎng)獲取到有信息量的圖片,截取出人臉框,根據(jù)角度、旋轉(zhuǎn)、尺度、光照等因素對(duì)樣本的質(zhì)量進(jìn)行打分,記錄分值,并將人臉截圖和分值配對(duì),建立訓(xùn)練處理集。
利用標(biāo)注的人臉數(shù)據(jù)離線訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入是人臉框,輸出是質(zhì)量評(píng)估分值。神經(jīng)網(wǎng)絡(luò)采用后續(xù)可以使用人臉識(shí)別相同的結(jié)果,這樣可以共享部分的權(quán)值。
將每一張待輸入的人臉圖片直接輸入到質(zhì)量評(píng)估網(wǎng)絡(luò)里,再把網(wǎng)絡(luò)的輸出作為該圖片的質(zhì)量評(píng)分。這一評(píng)分可用于后續(xù)人臉識(shí)別樣本的過濾和置信度的參考。
經(jīng)過一系列的人臉識(shí)別和變換,現(xiàn)在可以開始訓(xùn)練人臉識(shí)別模型。樣本的準(zhǔn)備依然是模型訓(xùn)練最基礎(chǔ)也是最重要的一個(gè)環(huán)節(jié)。
針對(duì)消費(fèi)級(jí)視頻里的女性識(shí)別這一應(yīng)用,我們征集了超過6000位女性一共50萬張圖片進(jìn)行標(biāo)注。另外還采用了公開人臉數(shù)據(jù)集,大約涉及1萬人,50萬樣本,總的數(shù)據(jù)規(guī)模超過100萬張。根據(jù)不同的應(yīng)用要求,選擇不同的卷積神經(jīng)網(wǎng)絡(luò)模型,以平衡計(jì)算的難度和精確度。
由于新的樣本達(dá)到了足夠的規(guī)模,可以采用直接訓(xùn)練的方式。Video++利用訓(xùn)練得到的模型對(duì)人臉樣本進(jìn)行特征提取,在測(cè)試的時(shí)候,在視頻中檢測(cè)到的人臉后,同樣將其輸入到生成的特征向量里,與人臉互動(dòng)的特征向量進(jìn)行匹配,從而找到在特征空間中最接近的一個(gè)樣本。
4)模塊四:識(shí)別結(jié)果融合
以上提到的人臉識(shí)別都是針對(duì)單幀識(shí)別的圖片而言的,之前說到的系統(tǒng)識(shí)別結(jié)果都是針對(duì)整個(gè)人臉軌跡而言。因此,最后需要將人臉識(shí)別的結(jié)果與整條人臉軌跡融合起來,得到整個(gè)軌跡的識(shí)別結(jié)果。
識(shí)別結(jié)果的融合策略也有很多。簡單的有投票策略,即將尾幀的識(shí)別結(jié)果是為一票,識(shí)別結(jié)果票數(shù)最高者則為軌跡的最終識(shí)別結(jié)果。也有用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)這一融合,可以訓(xùn)練一個(gè)時(shí)間維度上的神經(jīng),將每一幀識(shí)別出的特征向量作為網(wǎng)絡(luò)的輸入,經(jīng)過在時(shí)間維度上的一系列的參數(shù)變換得到最終的特征向量。
總結(jié)各個(gè)模塊,可以得到消費(fèi)級(jí)視頻中明星產(chǎn)品——人臉識(shí)別的總體框架??偠灾?,可有四個(gè)步驟:
視頻結(jié)構(gòu)的預(yù)處理,目的是把視頻按鏡頭瓜分;
人臉軌跡的生成。用監(jiān)測(cè)跟蹤結(jié)合的策略生成單一鏡頭內(nèi)人臉的軌跡;
人臉的識(shí)別。人臉圖像經(jīng)過對(duì)齊、質(zhì)量評(píng)估后,輸入人臉識(shí)別網(wǎng)絡(luò),生成單幀識(shí)別的結(jié)果;
對(duì)軌跡上各幀的識(shí)別結(jié)果進(jìn)行融合,得到軌跡的最終識(shí)別結(jié)果。
(關(guān)于技術(shù)講解的部分就到這里,下面第四部分的內(nèi)容則由Video++視頻產(chǎn)品負(fù)責(zé)人魏傳勇先生來為大家分享)
四、基于人工智能的消費(fèi)級(jí)視頻分析產(chǎn)品
Video++在技術(shù)領(lǐng)域已經(jīng)投入了很多,也有了一定的研發(fā)實(shí)力,所以給大家分享一下我們團(tuán)隊(duì)已經(jīng)商業(yè)化的AI產(chǎn)品。
Video++現(xiàn)在的AI應(yīng)用主要集中在一些國內(nèi)主流的視頻平臺(tái),像芒果TV、樂視TV、搜狐視頻等,也有一些直播平臺(tái),如斗魚、熊貓等。
如張奕博士在前文提及到的,Video++團(tuán)隊(duì)在消費(fèi)級(jí)視頻里借用人工智能技術(shù),通過對(duì)人臉進(jìn)行識(shí)別以及跟蹤監(jiān)測(cè),從而將廣告與視頻建立起相應(yīng)的關(guān)聯(lián)性,算出廣告插入的最佳時(shí)間以及位置,從而增加用戶對(duì)該品牌的好感度。
這是Video++本次分享帶來的第一個(gè)產(chǎn)品——“劇情卡牌”。該產(chǎn)品利用人工智能技術(shù)對(duì)視頻中的場景、物體等進(jìn)行辨識(shí),然后去抓住與場景節(jié)點(diǎn)可以結(jié)合的點(diǎn)去設(shè)置劇情任務(wù)。
如這張圖片所示,該視頻中顯現(xiàn)的是一個(gè)辦公場景,所以“劇情卡牌”可能會(huì)從場景中挑選出現(xiàn)在鏡頭里的某個(gè)品牌的產(chǎn)品,設(shè)置一個(gè)與大家生活契合的主題,擬三個(gè)簡單的問題以供用戶作答。
以該視頻中某個(gè)鏡頭舉例,有一個(gè)場景是女主角在下雨天邊講電話邊撐傘奔跑,那么“劇情卡牌”就會(huì)針對(duì)女主角手中的手機(jī)作為任務(wù)問題,讓用戶答題。事實(shí)上,該手機(jī)品牌正是Video++服務(wù)的一家企業(yè)。
上圖演示的即為Video++的產(chǎn)品——關(guān)聯(lián)云圖。簡單來說,就是關(guān)聯(lián)視頻內(nèi)容推出與之匹配的動(dòng)態(tài)效果廣告,以可視的方式告知用戶其使用該品牌商的產(chǎn)品,可以在哪些場景下使用。
“穿屏貼”也同樣是一則與消費(fèi)級(jí)視頻的廣告投放相關(guān)的AI產(chǎn)品。即將物品與視頻內(nèi)容建立關(guān)聯(lián)性,從而推送動(dòng)效廣告,點(diǎn)擊后可觀看小窗貼片。用戶在觀看視頻的過程中,看見這樣的廣告可能不致于反感,還能建立相關(guān)的趣味性。
此外,“情境中插”也是與前面提到的案例相似的產(chǎn)品。不同的在于,其能同時(shí)分析影視劇與TVC,在匹配度最高的節(jié)點(diǎn)播放中插入廣告。
Video++視頻還有一個(gè)產(chǎn)品,名為“關(guān)聯(lián)海報(bào)”。意如其名,關(guān)聯(lián)視頻內(nèi)容推送提示窗,點(diǎn)擊提示窗可觀看窗口貼片和品牌信息。
精彩問答
Q1:Video++有開放SDK嗎?
答:Video++的AI產(chǎn)品其實(shí)分為兩部分。一部分是對(duì)場景的辨識(shí),這一塊是不需要SDK的,只需要達(dá)到用戶能夠辨識(shí)的使用程度。還有就是可以在播放器上增加可預(yù)選的信息,同時(shí)提供更新的服務(wù)。另一方面就是SDK,這一部分可以實(shí)現(xiàn)各種各樣的開源信息。
Q2:算法現(xiàn)在只是針對(duì)GPU和CPU進(jìn)行優(yōu)化嗎?
答:現(xiàn)在不僅僅是針對(duì)GPU和CPU優(yōu)化。我們需要在線上的基礎(chǔ)上建立多方面的提取,所以不僅要優(yōu)化GPU和CPU的訂單,還要處理各個(gè)集群之間的內(nèi)容,還有任務(wù)之間的調(diào)配。
Q3:老師提到,采集的訓(xùn)練樣本必須要與應(yīng)用環(huán)境中的樣本分布盡量保持一致,但深度學(xué)習(xí)的訓(xùn)練需要采集大量的數(shù)據(jù),那么在數(shù)據(jù)收集方面您有哪些好的建議?
答:由于針對(duì)某一具體應(yīng)用,我們不可能收集到大量的訓(xùn)練樣本,所以在這種情況下就可以采用一個(gè)有效的方式:在一個(gè)基礎(chǔ)的訓(xùn)練之上,首先訓(xùn)練一個(gè)基礎(chǔ)模型,然后再去收集跟你應(yīng)用相關(guān)的數(shù)據(jù),再在這一訓(xùn)練模型上利用相關(guān)數(shù)據(jù)進(jìn)行參數(shù)微調(diào)。這樣就能用少量的標(biāo)注樣本達(dá)到目的。
Q4:Video++現(xiàn)在的人臉識(shí)別的準(zhǔn)確率能達(dá)到多少?
答:70%左右。包括人臉對(duì)齊,人臉檢測(cè)的多個(gè)環(huán)節(jié)。
Q5:Video++除了廣告推薦以外,還有其他的產(chǎn)品嗎?
答:廣告推薦是我們的一個(gè)方向,因?yàn)楝F(xiàn)在一些產(chǎn)品在這一領(lǐng)域的商業(yè)化也比較成熟。未來還會(huì)往新的方向去研究。
Q6:Video++支持多個(gè)人臉識(shí)別嗎?那這一塊的準(zhǔn)確率是多少呢?
答:Video++本身設(shè)計(jì)的就是以多人臉識(shí)別的算法。如前文提到的,準(zhǔn)確率在70%左右。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。