3
本文作者: 程弢 | 2016-07-04 17:42 | 專題:雷峰網(wǎng)公開課 |
今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機(jī)器人峰會(huì)”(CCF-GAIR),屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在逐一拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。雷鋒網(wǎng)
各大搜索引擎已經(jīng)先后推出了以圖搜圖的功能,它可以實(shí)現(xiàn)輸入與圖片名稱或內(nèi)容相似的關(guān)鍵字就可以檢索到相應(yīng)的圖片,例如電商購(gòu)物、微信掃一掃以及百度識(shí)圖等都使用了這一技術(shù)。但是,隨著視頻內(nèi)容的走紅,業(yè)界又衍生出了一種新的技術(shù)——以圖搜視頻,即你能夠通過(guò)這一技術(shù)在海量視頻中搜索到目標(biāo)視頻。
那么問(wèn)題來(lái)了,這又是一種什么樣的技術(shù)?它和以圖搜圖的區(qū)別在哪?有什么技術(shù)難點(diǎn)?
為此本期硬創(chuàng)公開課邀請(qǐng)了圖麟信息科技CEO魏京京來(lái)為大家解答這些疑惑。
魏京京:中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)專業(yè)本科/碩士,畢業(yè)后就職于IBM北京研發(fā)實(shí)驗(yàn)室和美國(guó)硅谷研發(fā)實(shí)驗(yàn)室,擔(dān)任工程師和產(chǎn)品經(jīng)理,隨后就職于咨詢公司和投資公司,曾在同創(chuàng)偉業(yè)做過(guò)4年的風(fēng)險(xiǎn)投資,擔(dān)任投資總監(jiān)?,F(xiàn)為圖麟信息科技CEO。
魏京京:圖麟科技的核心技術(shù)團(tuán)隊(duì)在圖像處理、識(shí)別領(lǐng)域有十幾年的經(jīng)驗(yàn)?,F(xiàn)在主要專注于海量圖像/視頻的搜索、識(shí)別、智能分析處理,核心算法團(tuán)隊(duì)來(lái)自于全球前沿的圖像視頻處理技術(shù)研究機(jī)構(gòu),具有超過(guò)15年的圖像視頻研究經(jīng)驗(yàn)。
在以圖搜視頻領(lǐng)域,我們開創(chuàng)了以視頻為單位來(lái)提取特征,并實(shí)現(xiàn)以圖搜視頻技術(shù)的實(shí)際商用。
魏京京:先說(shuō)作用,以圖搜視頻解決了當(dāng)前針對(duì)海量視頻內(nèi)容的精準(zhǔn)快速檢索的硬傷。
隨著圖片和視頻等數(shù)據(jù)在我們?nèi)粘I钪?、?shí)際應(yīng)用中海量爆發(fā),就像當(dāng)年文字互聯(lián)網(wǎng)的爆發(fā)一樣,我們需要一個(gè)有效的方式對(duì)圖像和視頻內(nèi)容進(jìn)行快速篩選和獲取,為了達(dá)到這個(gè)目標(biāo),海量視頻檢索就是一個(gè)非常必要的工具。
相對(duì)于視頻鑒黃,以圖搜視頻實(shí)現(xiàn)的是針對(duì)通用物體在海量視頻中的快速精準(zhǔn)視頻檢索。
再來(lái)談?wù)勊暮诵募夹g(shù)。
以圖搜視頻的技術(shù)包括經(jīng)典的模式識(shí)別、深度學(xué)習(xí)領(lǐng)域相關(guān)技術(shù),其原理是通過(guò)經(jīng)典的模式識(shí)別技術(shù)和深度學(xué)習(xí)技術(shù)的融合,達(dá)到海量視頻搜索在精準(zhǔn)度、速度上的最佳組合。
而應(yīng)用場(chǎng)景就很好理解了。
視頻搜索的應(yīng)用場(chǎng)景覆蓋很多我們生活和工作中的方方面面,簡(jiǎn)單來(lái)說(shuō),大家目前在各大互聯(lián)網(wǎng)視頻網(wǎng)站、電影視頻網(wǎng)站搜索自己感興趣視頻的時(shí)候,只能通過(guò)文字關(guān)鍵字來(lái)搜索。
而如果集成了以圖搜視頻的技術(shù),就可以通過(guò)某個(gè)電影場(chǎng)景、片段、海報(bào)等等直接的圖片內(nèi)容來(lái)進(jìn)行搜索。
另外,在互聯(lián)網(wǎng)安全領(lǐng)域,目前對(duì)圖像、視頻內(nèi)容的審核,都無(wú)法做到自動(dòng)審核,還很大程度上要依賴人力,通過(guò)以圖搜視頻技術(shù),可以自動(dòng)審核圖片或者視頻中的包含的內(nèi)容信息,這就提高了互聯(lián)網(wǎng)安全領(lǐng)域的圖像以及視頻內(nèi)容的過(guò)濾和審核效率。類似的應(yīng)用場(chǎng)景還存在于安防、電視媒體、個(gè)人圖片以及視頻管理應(yīng)用等諸多領(lǐng)域。
魏京京:其實(shí),“圖像/視頻檢索”和“圖像/物體識(shí)別”是一對(duì)孿生兄弟,在某些時(shí)候,這兩類技術(shù)是可以相互通用的,比如,為了達(dá)到物體識(shí)別,你可以先進(jìn)行圖像檢索,再進(jìn)行圖像識(shí)別來(lái)達(dá)到識(shí)別的效果;為了達(dá)到圖像檢索,也可以先進(jìn)行識(shí)別物體,然后再進(jìn)行檢索來(lái)達(dá)到圖像檢索的效果。
當(dāng)然,它們之間也有很多差異,為了達(dá)到通用范圍的圖像/視頻檢索,目前經(jīng)典的圖像/視頻檢索算法,是沒(méi)有加入圖像識(shí)別技術(shù),這主要有幾方面原因:
一、沒(méi)有加入圖像識(shí)別,可以有效的降低物體遮擋造成的無(wú)法識(shí)別的問(wèn)題,圖像/視頻檢索可以通過(guò)物體的局部特征進(jìn)行有效的匹配并準(zhǔn)確查找到目標(biāo)伍,即使該目標(biāo)物體大部分都被遮擋也不會(huì)妨礙搜索的準(zhǔn)確性。
二、為了達(dá)到通用物體的搜索,目前還無(wú)法加入萬(wàn)事萬(wàn)物的識(shí)別,即使隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,我們?nèi)匀粺o(wú)法對(duì)所有物體進(jìn)行有效識(shí)別。因此,為了檢索的準(zhǔn)確性,依賴對(duì)萬(wàn)事萬(wàn)物的識(shí)別也是不現(xiàn)實(shí)的。視頻鑒黃也是只能對(duì)一類特征目標(biāo)物體來(lái)進(jìn)行識(shí)別,但是我們需要實(shí)現(xiàn)的是所有通用物體的檢索,因此無(wú)法現(xiàn)在就能加入識(shí)別技術(shù)。
但是隨著深度學(xué)習(xí)技術(shù)的發(fā)展,非常好的趨勢(shì)就是把深度學(xué)習(xí)技術(shù)和過(guò)去經(jīng)典的圖像/視頻檢索技術(shù)進(jìn)行結(jié)合。圖麟科技的做法有兩方面:
1.通過(guò)把識(shí)別技術(shù)和檢索技術(shù)進(jìn)行有效的統(tǒng)一,真正把原來(lái)兩步過(guò)程(檢索、識(shí)別分成兩個(gè)單獨(dú)的步驟)變成統(tǒng)一的一個(gè)過(guò)程來(lái)做檢索。這涉及到算法每一個(gè)步驟的兩類技術(shù)的融合統(tǒng)一,包括特征提取、比對(duì)等等細(xì)節(jié)過(guò)程。
2.在某些可以限定的較寬泛的領(lǐng)域,通過(guò)識(shí)別問(wèn)題來(lái)確定范圍,然后在有效識(shí)別的子類中進(jìn)行快速圖像/視頻檢索。視頻鑒黃只是其中某一類場(chǎng)景,還有包括很多客戶特定的應(yīng)用場(chǎng)景,這一方式可以快速有效的進(jìn)行優(yōu)化融合,把識(shí)別和視頻搜索技術(shù)快速有效結(jié)合。
魏京京:視頻的本質(zhì)就是圖像序列,所以以圖搜視頻,面臨的一個(gè)最直接問(wèn)題,就是數(shù)據(jù)量非常龐大,一秒鐘的視頻就相當(dāng)于25-30張圖片,因此需要一個(gè)非常好的方法來(lái)把這些圖像序列的特征進(jìn)行緊湊快速有效的融合,而不是簡(jiǎn)單的把每幀圖片分別進(jìn)行特征提取然后采用以圖搜圖的方式實(shí)現(xiàn)視頻搜索。
簡(jiǎn)單來(lái)說(shuō),相比較以圖搜圖,以圖搜視頻,必須要通過(guò)視頻為單位來(lái)進(jìn)行特征提取,才能在實(shí)際應(yīng)用中達(dá)到可實(shí)施的可能。這就是相對(duì)于以圖搜圖,以圖搜視頻的區(qū)別和難點(diǎn)。
再補(bǔ)充一下,為了實(shí)現(xiàn)以視頻為單位進(jìn)行特征提取,這中間還會(huì)涉及到視頻內(nèi)容本身的認(rèn)知及算法,這方面會(huì)超出以圖搜圖中單幅圖像比對(duì)的范疇,算法復(fù)雜度和難點(diǎn)較高。
魏京京:以視頻搜視頻,我們堅(jiān)信這一定是未來(lái)的一個(gè)趨勢(shì)。因?yàn)槟壳耙詧D搜視頻還是基于單幅圖像來(lái)進(jìn)行搜索,相對(duì)還有局限性。
用圖麟科技舉個(gè)例子,我們正在實(shí)現(xiàn)的以視頻搜視頻技術(shù),結(jié)合的還是之前提到的以視頻為單位進(jìn)行特征提取的算法基礎(chǔ),可以對(duì)用戶輸入的這段視頻進(jìn)行有效的特征提取,通過(guò)算法判斷用戶對(duì)視頻中某類物體或場(chǎng)景感興趣,從而快速的在海量視頻中查找到相似的視頻片斷。
綜合來(lái)講,以視頻搜視頻,這中間的核心技術(shù),也是之前提到的以視頻為單位的特征提取和比較。這與針對(duì)單幅圖像作為目標(biāo)來(lái)進(jìn)行搜索相比,更往前了一步。
圖麟科技算法負(fù)責(zé)人張工:現(xiàn)在視頻的檢索很多時(shí)候大家還是把視頻作為孤立的幀來(lái)使用,也就是,先提取多幀的特征,最后來(lái)一對(duì)一匹配。
這樣做看起來(lái)很精細(xì),但會(huì)導(dǎo)致數(shù)據(jù)庫(kù)過(guò)于龐大,而且實(shí)際上除了效率不高,精度也不好。圖麟的做法就是從視頻級(jí),而不是幀級(jí)來(lái)組織數(shù)據(jù)庫(kù),在效率上、精度上都有相應(yīng)的提升。
魏京京:正如前面提到的,以圖搜圖、以圖搜視頻和以視頻搜視頻直接解決了目前我們對(duì)圖片/視頻內(nèi)容本身的快速獲取和過(guò)濾。
類似于2000年左右,網(wǎng)絡(luò)文字信息的爆發(fā),直接催生了文字檢索過(guò)濾等功能的訴求。而目前我們所處的工作生活領(lǐng)域,圖片和視頻的獲取,就像當(dāng)年我們輸入文字一樣便捷。
這直接導(dǎo)致了我們所接觸到的是圖片/視頻的海量存量信息,同時(shí)隨著基礎(chǔ)硬件的不斷提高,圖片和視頻的處理也變得越來(lái)越便捷和經(jīng)濟(jì),所以視頻檢索就會(huì)在將來(lái)的各個(gè)領(lǐng)域變成一個(gè)剛需。具體的應(yīng)用場(chǎng)景之前的回答中也涵蓋了很多方面,這里不再贅述。
Q:視頻檢索現(xiàn)在主要是用在公安,安防這一塊,那么未來(lái)有沒(méi)有新的發(fā)展方向?
A:從我們目前接觸的客戶訴求,公安、安防只是其中一個(gè)比較小的領(lǐng)域,大批量具有很多圖片、視頻存量的企事業(yè)單位,都表現(xiàn)出很直接的對(duì)以圖搜視頻的緊迫需求。
目前的很多公司,已經(jīng)在圖片、視頻上積累了很多數(shù)據(jù),但是這些數(shù)據(jù)本身他們沒(méi)有辦法進(jìn)行有效的交互和獲取,這些都是視頻檢索的用武之地,類似于廣電、互聯(lián)網(wǎng)、文化、營(yíng)銷等等。
Q:您認(rèn)為以圖搜視頻技術(shù)在機(jī)器人技術(shù)方面有沒(méi)有應(yīng)用可能呢,或者說(shuō)您對(duì)這項(xiàng)技術(shù)在機(jī)器人方面的有沒(méi)有什么想法?
A:以圖搜視頻本身涵蓋的底層技術(shù)面比較多,包括了圖像識(shí)別、深度學(xué)習(xí)、模式識(shí)別、視頻檢索,從大類來(lái)看,這些都是CV領(lǐng)域很重要的底層技術(shù),他們也都可以直接應(yīng)用在機(jī)器人視覺(jué)方面,簡(jiǎn)單來(lái)說(shuō),機(jī)器人的視覺(jué)所需要的物體識(shí)別、室內(nèi)導(dǎo)航視覺(jué)模塊、圖像/視頻比對(duì)技術(shù),都已經(jīng)在視頻檢索中部分得到體驗(yàn)。
以視頻搜視頻,其實(shí)跟機(jī)器人場(chǎng)景結(jié)合的就很密切,機(jī)器人通過(guò)攝像頭進(jìn)行視頻輸入后,可以快速有效的定位他所處的場(chǎng)景,并做出行為反饋。其他關(guān)于識(shí)別方面相信大家都很了解了。
Q:“從視頻級(jí),而不是幀級(jí)來(lái)組織數(shù)據(jù)庫(kù)”,這個(gè)可以詳細(xì)解釋下嗎?
A:這么說(shuō)吧,如果一個(gè)視頻有100個(gè)小時(shí)的話,目前市面上很多視頻檢索系統(tǒng),可能數(shù)據(jù)庫(kù)是存儲(chǔ)單幀的,這樣總共有100*3600*25幀,數(shù)據(jù)庫(kù)是這么大。但是如果以視頻內(nèi)容來(lái)分級(jí),可能只有幾個(gè)獨(dú)立的視頻剪輯,這樣就小很多了,檢索起來(lái)也快。
Q:您經(jīng)常逛那些技術(shù)論壇以及社區(qū)?
A:我個(gè)人喜歡看一些頂尖的國(guó)際論文,例如CVPR,ICML,ICLR。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。