丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給程弢
發(fā)送

3

用圖片搜索視頻是一種什么樣的技術(shù)? | 雷鋒網(wǎng)公開課

本文作者: 程弢 2016-07-04 17:42 專題:雷峰網(wǎng)公開課
導語:這種技術(shù)叫以圖搜視頻,它解決了當前針對海量視頻內(nèi)容的精準快速檢索的硬傷。

今年8月,雷鋒網(wǎng)將在深圳舉辦盛況空前的“全球人工智能與機器人峰會”(CCF-GAIR),屆時雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在逐一拜訪人工智能、機器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。雷鋒網(wǎng)

各大搜索引擎已經(jīng)先后推出了以圖搜圖的功能,它可以實現(xiàn)輸入與圖片名稱或內(nèi)容相似的關(guān)鍵字就可以檢索到相應的圖片,例如電商購物、微信掃一掃以及百度識圖等都使用了這一技術(shù)。但是,隨著視頻內(nèi)容的走紅,業(yè)界又衍生出了一種新的技術(shù)——以圖搜視頻,即你能夠通過這一技術(shù)在海量視頻中搜索到目標視頻。

那么問題來了,這又是一種什么樣的技術(shù)?它和以圖搜圖的區(qū)別在哪?有什么技術(shù)難點?

為此本期硬創(chuàng)公開課邀請了圖麟信息科技CEO魏京京來為大家解答這些疑惑。

用圖片搜索視頻是一種什么樣的技術(shù)? | 雷鋒網(wǎng)公開課

魏京京:中國科學技術(shù)大學計算機專業(yè)本科/碩士,畢業(yè)后就職于IBM北京研發(fā)實驗室和美國硅谷研發(fā)實驗室,擔任工程師和產(chǎn)品經(jīng)理,隨后就職于咨詢公司和投資公司,曾在同創(chuàng)偉業(yè)做過4年的風險投資,擔任投資總監(jiān)。現(xiàn)為圖麟信息科技CEO。

簡單介紹下圖麟科技?

魏京京:圖麟科技的核心技術(shù)團隊在圖像處理、識別領(lǐng)域有十幾年的經(jīng)驗?,F(xiàn)在主要專注于海量圖像/視頻的搜索、識別、智能分析處理,核心算法團隊來自于全球前沿的圖像視頻處理技術(shù)研究機構(gòu),具有超過15年的圖像視頻研究經(jīng)驗。

在以圖搜視頻領(lǐng)域,我們開創(chuàng)了以視頻為單位來提取特征,并實現(xiàn)以圖搜視頻技術(shù)的實際商用。

以圖搜視頻是用什么樣的技術(shù)方式實現(xiàn)的?它解決了什么樣的問題?應用場景有哪些?

魏京京:先說作用,以圖搜視頻解決了當前針對海量視頻內(nèi)容的精準快速檢索的硬傷。

隨著圖片和視頻等數(shù)據(jù)在我們?nèi)粘I钪小嶋H應用中海量爆發(fā),就像當年文字互聯(lián)網(wǎng)的爆發(fā)一樣,我們需要一個有效的方式對圖像和視頻內(nèi)容進行快速篩選和獲取,為了達到這個目標,海量視頻檢索就是一個非常必要的工具。

相對于視頻鑒黃,以圖搜視頻實現(xiàn)的是針對通用物體在海量視頻中的快速精準視頻檢索。

再來談談它的核心技術(shù)。

以圖搜視頻的技術(shù)包括經(jīng)典的模式識別、深度學習領(lǐng)域相關(guān)技術(shù),其原理是通過經(jīng)典的模式識別技術(shù)和深度學習技術(shù)的融合,達到海量視頻搜索在精準度、速度上的最佳組合。

而應用場景就很好理解了。

視頻搜索的應用場景覆蓋很多我們生活和工作中的方方面面,簡單來說,大家目前在各大互聯(lián)網(wǎng)視頻網(wǎng)站、電影視頻網(wǎng)站搜索自己感興趣視頻的時候,只能通過文字關(guān)鍵字來搜索。

而如果集成了以圖搜視頻的技術(shù),就可以通過某個電影場景、片段、海報等等直接的圖片內(nèi)容來進行搜索。

另外,在互聯(lián)網(wǎng)安全領(lǐng)域,目前對圖像、視頻內(nèi)容的審核,都無法做到自動審核,還很大程度上要依賴人力,通過以圖搜視頻技術(shù),可以自動審核圖片或者視頻中的包含的內(nèi)容信息,這就提高了互聯(lián)網(wǎng)安全領(lǐng)域的圖像以及視頻內(nèi)容的過濾和審核效率。類似的應用場景還存在于安防、電視媒體、個人圖片以及視頻管理應用等諸多領(lǐng)域。

以圖搜圖與圖像識別,物體識別的區(qū)別是什么?

魏京京:其實,“圖像/視頻檢索”和“圖像/物體識別”是一對孿生兄弟,在某些時候,這兩類技術(shù)是可以相互通用的,比如,為了達到物體識別,你可以先進行圖像檢索,再進行圖像識別來達到識別的效果;為了達到圖像檢索,也可以先進行識別物體,然后再進行檢索來達到圖像檢索的效果。

當然,它們之間也有很多差異,為了達到通用范圍的圖像/視頻檢索,目前經(jīng)典的圖像/視頻檢索算法,是沒有加入圖像識別技術(shù),這主要有幾方面原因:

一、沒有加入圖像識別,可以有效的降低物體遮擋造成的無法識別的問題,圖像/視頻檢索可以通過物體的局部特征進行有效的匹配并準確查找到目標伍,即使該目標物體大部分都被遮擋也不會妨礙搜索的準確性。

二、為了達到通用物體的搜索,目前還無法加入萬事萬物的識別,即使隨著深度學習技術(shù)的迅猛發(fā)展,我們?nèi)匀粺o法對所有物體進行有效識別。因此,為了檢索的準確性,依賴對萬事萬物的識別也是不現(xiàn)實的。視頻鑒黃也是只能對一類特征目標物體來進行識別,但是我們需要實現(xiàn)的是所有通用物體的檢索,因此無法現(xiàn)在就能加入識別技術(shù)。

但是隨著深度學習技術(shù)的發(fā)展,非常好的趨勢就是把深度學習技術(shù)和過去經(jīng)典的圖像/視頻檢索技術(shù)進行結(jié)合。圖麟科技的做法有兩方面:

1.通過把識別技術(shù)和檢索技術(shù)進行有效的統(tǒng)一,真正把原來兩步過程(檢索、識別分成兩個單獨的步驟)變成統(tǒng)一的一個過程來做檢索。這涉及到算法每一個步驟的兩類技術(shù)的融合統(tǒng)一,包括特征提取、比對等等細節(jié)過程。

2.在某些可以限定的較寬泛的領(lǐng)域,通過識別問題來確定范圍,然后在有效識別的子類中進行快速圖像/視頻檢索。視頻鑒黃只是其中某一類場景,還有包括很多客戶特定的應用場景,這一方式可以快速有效的進行優(yōu)化融合,把識別和視頻搜索技術(shù)快速有效結(jié)合。

以圖搜視頻的相比以圖搜圖,技術(shù)上存在哪些區(qū)別與難點?

魏京京:視頻的本質(zhì)就是圖像序列,所以以圖搜視頻,面臨的一個最直接問題,就是數(shù)據(jù)量非常龐大,一秒鐘的視頻就相當于25-30張圖片,因此需要一個非常好的方法來把這些圖像序列的特征進行緊湊快速有效的融合,而不是簡單的把每幀圖片分別進行特征提取然后采用以圖搜圖的方式實現(xiàn)視頻搜索。

簡單來說,相比較以圖搜圖,以圖搜視頻,必須要通過視頻為單位來進行特征提取,才能在實際應用中達到可實施的可能。這就是相對于以圖搜圖,以圖搜視頻的區(qū)別和難點。

再補充一下,為了實現(xiàn)以視頻為單位進行特征提取,這中間還會涉及到視頻內(nèi)容本身的認知及算法,這方面會超出以圖搜圖中單幅圖像比對的范疇,算法復雜度和難點較高。

那么以視頻搜視頻又有什么樣的技術(shù)特點呢?

魏京京:以視頻搜視頻,我們堅信這一定是未來的一個趨勢。因為目前以圖搜視頻還是基于單幅圖像來進行搜索,相對還有局限性。

用圖麟科技舉個例子,我們正在實現(xiàn)的以視頻搜視頻技術(shù),結(jié)合的還是之前提到的以視頻為單位進行特征提取的算法基礎(chǔ),可以對用戶輸入的這段視頻進行有效的特征提取,通過算法判斷用戶對視頻中某類物體或場景感興趣,從而快速的在海量視頻中查找到相似的視頻片斷。

綜合來講,以視頻搜視頻,這中間的核心技術(shù),也是之前提到的以視頻為單位的特征提取和比較。這與針對單幅圖像作為目標來進行搜索相比,更往前了一步。

這樣的優(yōu)勢具體體現(xiàn)在哪里?

圖麟科技算法負責人張工:現(xiàn)在視頻的檢索很多時候大家還是把視頻作為孤立的幀來使用,也就是,先提取多幀的特征,最后來一對一匹配。

這樣做看起來很精細,但會導致數(shù)據(jù)庫過于龐大,而且實際上除了效率不高,精度也不好。圖麟的做法就是從視頻級,而不是幀級來組織數(shù)據(jù)庫,在效率上、精度上都有相應的提升。

上述不同種類的圖像處理技術(shù)應用前景如何?

魏京京:正如前面提到的,以圖搜圖、以圖搜視頻和以視頻搜視頻直接解決了目前我們對圖片/視頻內(nèi)容本身的快速獲取和過濾。

類似于2000年左右,網(wǎng)絡文字信息的爆發(fā),直接催生了文字檢索過濾等功能的訴求。而目前我們所處的工作生活領(lǐng)域,圖片和視頻的獲取,就像當年我們輸入文字一樣便捷。

這直接導致了我們所接觸到的是圖片/視頻的海量存量信息,同時隨著基礎(chǔ)硬件的不斷提高,圖片和視頻的處理也變得越來越便捷和經(jīng)濟,所以視頻檢索就會在將來的各個領(lǐng)域變成一個剛需。具體的應用場景之前的回答中也涵蓋了很多方面,這里不再贅述。

精彩問答:

Q:視頻檢索現(xiàn)在主要是用在公安,安防這一塊,那么未來有沒有新的發(fā)展方向?

A:從我們目前接觸的客戶訴求,公安、安防只是其中一個比較小的領(lǐng)域,大批量具有很多圖片、視頻存量的企事業(yè)單位,都表現(xiàn)出很直接的對以圖搜視頻的緊迫需求。

目前的很多公司,已經(jīng)在圖片、視頻上積累了很多數(shù)據(jù),但是這些數(shù)據(jù)本身他們沒有辦法進行有效的交互和獲取,這些都是視頻檢索的用武之地,類似于廣電、互聯(lián)網(wǎng)、文化、營銷等等。

Q:您認為以圖搜視頻技術(shù)在機器人技術(shù)方面有沒有應用可能呢,或者說您對這項技術(shù)在機器人方面的有沒有什么想法?

A:以圖搜視頻本身涵蓋的底層技術(shù)面比較多,包括了圖像識別、深度學習、模式識別、視頻檢索,從大類來看,這些都是CV領(lǐng)域很重要的底層技術(shù),他們也都可以直接應用在機器人視覺方面,簡單來說,機器人的視覺所需要的物體識別、室內(nèi)導航視覺模塊、圖像/視頻比對技術(shù),都已經(jīng)在視頻檢索中部分得到體驗。

以視頻搜視頻,其實跟機器人場景結(jié)合的就很密切,機器人通過攝像頭進行視頻輸入后,可以快速有效的定位他所處的場景,并做出行為反饋。其他關(guān)于識別方面相信大家都很了解了。

Q:“從視頻級,而不是幀級來組織數(shù)據(jù)庫”,這個可以詳細解釋下嗎?

A:這么說吧,如果一個視頻有100個小時的話,目前市面上很多視頻檢索系統(tǒng),可能數(shù)據(jù)庫是存儲單幀的,這樣總共有100*3600*25幀,數(shù)據(jù)庫是這么大。但是如果以視頻內(nèi)容來分級,可能只有幾個獨立的視頻剪輯,這樣就小很多了,檢索起來也快。

Q:您經(jīng)常逛那些技術(shù)論壇以及社區(qū)?

A:我個人喜歡看一些頂尖的國際論文,例如CVPR,ICML,ICLR。

用圖片搜索視頻是一種什么樣的技術(shù)? | 雷鋒網(wǎng)公開課

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

用圖片搜索視頻是一種什么樣的技術(shù)? | 雷鋒網(wǎng)公開課

分享:
相關(guān)文章

略懂技術(shù)的小編

關(guān)注一切有未來感的產(chǎn)品及技術(shù)!
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說