丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

本文作者: 奕欣 2017-11-18 11:11
導(dǎo)語:微軟亞洲研究院研究團(tuán)隊專注于如何利用大量視頻數(shù)據(jù)來訓(xùn)練視頻專用的深度三維卷積神經(jīng)網(wǎng)絡(luò)。

雷鋒網(wǎng) AI 科技評論按:本文轉(zhuǎn)載自「微軟研究院 AI 頭條」,雷鋒網(wǎng) AI 科技評論獲授權(quán)轉(zhuǎn)載。

隨著互聯(lián)網(wǎng)的不斷發(fā)展,可處理視頻的深度神經(jīng)網(wǎng)絡(luò)遠(yuǎn)比普通神經(jīng)網(wǎng)絡(luò)更難訓(xùn)練,如何減輕訓(xùn)練負(fù)擔(dān)成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜索與挖掘組的研究成果「Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks」,在正在舉辦的 International Conference on Computer Vision(ICCV)2017 會議上發(fā)布,它專注于如何利用大量視頻數(shù)據(jù)來訓(xùn)練視頻專用的深度三維卷積神經(jīng)網(wǎng)絡(luò),提出一種基于偽三維卷積(Pseudo-3D Convolution)的深度神經(jīng)網(wǎng)絡(luò)的設(shè)計思路,并實現(xiàn)了迄今為止最深的 199 層三維卷積神經(jīng)網(wǎng)絡(luò)。通過該網(wǎng)絡(luò)學(xué)習(xí)到的視頻表達(dá),在多個不同的視頻理解任務(wù)上取得了穩(wěn)定的性能提升。

1993 年 9 月,一款名為 NCSA Mosaic 的瀏覽器正式支持在網(wǎng)頁內(nèi)嵌入圖片,這標(biāo)志著互聯(lián)網(wǎng)從純文本時代邁入了「無圖無真相」的多媒體時代。如今,隨著互聯(lián)網(wǎng)帶寬的提升和高速移動設(shè)備的普及,信息的獲取途徑和傳播途徑也在與日增加,視頻逐漸成為互聯(lián)網(wǎng)多媒體消費(fèi)的重要組成部分。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

從傳統(tǒng)的視頻分享網(wǎng)站到電視電影節(jié)目的網(wǎng)絡(luò)化,再到現(xiàn)在新興的視頻直播網(wǎng)站和小視頻分享網(wǎng)站,互聯(lián)網(wǎng)視頻已經(jīng)進(jìn)入了爆炸式發(fā)展的新階段。據(jù)統(tǒng)計,僅僅以視頻分享網(wǎng)站 YouTube 為例,平均每分鐘就有約 300 小時的視頻上傳到 YouTube 上,每天的視頻觀看次數(shù)更是高達(dá) 50 億次。數(shù)量如此巨大的視頻內(nèi)容與觀看次數(shù)對視頻處理、分類、推薦等常見視頻相關(guān)技術(shù)提出了更高的要求,也提供了更廣闊的應(yīng)用場景。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

在視頻處理相關(guān)技術(shù)中,視頻特征描述學(xué)習(xí)(Representation Learning)是一個最基本的問題。學(xué)習(xí)視頻的特征表達(dá)是幾乎所有視頻處理和分析的基礎(chǔ),其中包括視頻標(biāo)注、動作識別、視頻監(jiān)控、視頻檢索、視頻場景識別、視頻分割、視頻自然語言描述和基于視頻的人機(jī)交互等等。

然而目前視頻識別的相關(guān)研究多數(shù)使用的是基于圖像的卷積神經(jīng)網(wǎng)絡(luò)(如微軟研究院在 2015 提出的殘差神經(jīng)網(wǎng)絡(luò) ResNet)來學(xué)習(xí)視頻特征,這種方法僅僅是對單幀圖像的 CNN 特征進(jìn)行融合,因此往往忽略了相鄰的連續(xù)視頻幀間的聯(lián)系以及視頻中的動作信息。目前,視頻專用的深度神經(jīng)網(wǎng)絡(luò)還很缺乏。

在 International Conference on Computer Vision(ICCV)2017 會議上,微軟亞洲研究院發(fā)布了多媒體搜索與挖掘組最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。這項工作主要集中在如何利用大量視頻數(shù)據(jù)來訓(xùn)練視頻專用的深度三維卷積神經(jīng)網(wǎng)絡(luò),它提出了一種基于偽三維卷積(Pseudo-3D Convolution)的深度神經(jīng)網(wǎng)絡(luò)的設(shè)計思路,并實現(xiàn)了迄今為止最深的 199 層三維卷積神經(jīng)網(wǎng)絡(luò)。通過該網(wǎng)絡(luò)學(xué)習(xí)到的視頻表達(dá),在多個不同的視頻理解任務(wù)上取得了穩(wěn)定的性能提升。

基于三維卷積神經(jīng)網(wǎng)絡(luò)的視頻特征提取

為了使用深度神經(jīng)網(wǎng)絡(luò)來提取視頻中時間和空間維度上的信息,一種直接的思路就是將用于圖像特征學(xué)習(xí)的二維卷積拓展為三維卷積(3D Convolution),同時在時間和空間維度上進(jìn)行卷積操作。如此一來,由三維卷積操作構(gòu)成的三維卷積神經(jīng)網(wǎng)絡(luò)可以在獲取每一幀視覺特征的同時,也能表達(dá)相鄰幀隨時間推移的關(guān)聯(lián)與變化,如下圖所示。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

然而這樣的設(shè)計在實踐中卻存在一定的困難。首先,時間維度的引入使得整個神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量、運(yùn)行時間和訓(xùn)練所需的 GPU 內(nèi)存都將大幅增長;其次,隨機(jī)初始化的三維卷積核需要大量精細(xì)標(biāo)注的視頻數(shù)據(jù)來進(jìn)行訓(xùn)練。受困于以上兩點(diǎn),近些年關(guān)于三維卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展十分緩慢,其中最著名的 C3D[2] 網(wǎng)絡(luò)只有 11 層,模型大小卻達(dá)到 321MB,甚至大于 152 層 ResNet[3] 的 235MB 模型。

深度偽三維卷積神經(jīng)網(wǎng)絡(luò)設(shè)計

為了解決以上的局限性,我們提出了一系列基于偽三維卷積和殘差學(xué)習(xí)(Residual Learning)的神經(jīng)網(wǎng)絡(luò)模塊,用以同時在時間和空間上進(jìn)行卷積操作。其中,偽三維卷積是這個網(wǎng)絡(luò)結(jié)構(gòu)的核心操作,基本思想是利用一個 1*3*3 的二維空間卷積和 3*1*1 的一維時域卷積來模擬常用的 3*3*3 三維卷積。通過簡化,偽三維卷積神經(jīng)網(wǎng)絡(luò)相比于同樣深度的二維卷積神經(jīng)網(wǎng)絡(luò)僅僅增添了一定數(shù)量的一維卷積,在參數(shù)數(shù)量、運(yùn)行速度等方面并不會產(chǎn)生過度的增長。與此同時,由于其中的二維卷積核可以使用圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,對于已標(biāo)注視頻數(shù)據(jù)的需求也會大大減少。結(jié)合殘差學(xué)習(xí)的思想,該論文提出三種不同的偽三維卷積殘差單元(P3D-A,P3D-B,P3D-C)分別使用串行、并行和帶捷徑(shortcut)的串行三種方式來確定空間卷積和時域卷積之間的關(guān)系。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

通過使用以上三種偽三維殘差單元替代 152 層 ResNet 中的二維殘差單元,該工作得到了目前最深的 199 層三維卷積網(wǎng)絡(luò)結(jié)構(gòu)。最終經(jīng)過 ImageNet 數(shù)據(jù)集中的圖片數(shù)據(jù)和 Sports-1M(包含了 487 個類別的百萬級視頻片段)[4] 視頻數(shù)據(jù)的訓(xùn)練,該網(wǎng)絡(luò)在視頻動作識別(Action Recognition)、視頻相似度分析(Video Similarity)和視頻場景識別(Scene Recognition)三個不同的視頻理解任務(wù)上均獲得了穩(wěn)定的性能提升,并且在 CVPR 2017 的 Activity Net Challenge 的 Dense-Captioning 任務(wù)中獲得第一名。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

除了利用偽三維卷積網(wǎng)絡(luò)提取特征外,該網(wǎng)絡(luò)還可以作為其它方法的基本網(wǎng)絡(luò)結(jié)構(gòu),從而提升其它基于神經(jīng)網(wǎng)絡(luò)方法的視頻識別性能。以雙流(Two-stream)方法為例,在 UCF101 的視頻動作識別任務(wù)上,如果使用偽三維卷積網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)的 Two-stream 框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合并的結(jié)果,都超過了其它網(wǎng)絡(luò)結(jié)構(gòu)。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

以上的實驗結(jié)果驗證了偽三維卷積殘差網(wǎng)絡(luò)可以有效學(xué)習(xí)來自大量圖像和視頻訓(xùn)練數(shù)據(jù)中的類別信息。在與二維卷積殘差網(wǎng)絡(luò)和傳統(tǒng)三維卷積網(wǎng)絡(luò)的對比中,該結(jié)構(gòu)成功地提升了在不同視頻識別任務(wù)上的性能。關(guān)于偽三維殘差網(wǎng)絡(luò)相關(guān)的代碼和模型詳見 https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。

神經(jīng)專用神經(jīng)網(wǎng)絡(luò)的發(fā)展方向

該工作基于偽三維卷積和殘差結(jié)構(gòu)給出了訓(xùn)練超深度三維卷積網(wǎng)絡(luò)的可能性,然而本文中提到的神經(jīng)網(wǎng)絡(luò)目前主要針對視頻分類問題。面對紛繁復(fù)雜的視頻內(nèi)容與視頻應(yīng)用需求,單一的神經(jīng)網(wǎng)絡(luò)很難滿足。針對不同的應(yīng)用,視頻專用神經(jīng)網(wǎng)絡(luò)有以下三個具有潛力的發(fā)展方向:

  • 第一,視頻檢索(Video Search)專用神經(jīng)網(wǎng)絡(luò)。視頻檢索、視頻推薦是大型視頻分享網(wǎng)站所要面對的首要問題,給予用戶良好的檢索體驗,并適當(dāng)?shù)赝扑]用戶需要的視頻內(nèi)容,幫助用戶快速地找到自己感興趣的視頻。

  • 第二,視頻分割(Semantic Video Segmentation)專用神經(jīng)網(wǎng)絡(luò)。視頻分割的目標(biāo)在于像素級別地分割出視頻中的人、車等常見物體。而隨著 AR/VR 技術(shù)的發(fā)展,像素級別的目標(biāo)識別可以輔助許多不同的 AR/VR 相關(guān)應(yīng)用,這也促進(jìn)了視頻分割的發(fā)展。

  • 第三,視頻生成(Video Generation)專用神經(jīng)網(wǎng)絡(luò)。隨著用戶越來越容易地在不同設(shè)備上進(jìn)行視頻拍攝,非專業(yè)用戶對視頻的自動/半自動編輯、美化也逐漸有了更多的需求。因此,視頻生成神經(jīng)網(wǎng)絡(luò)便可以幫助用戶編輯創(chuàng)作自己的視頻作品。

隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人工智能在很多圖像相關(guān)任務(wù)上的性能都產(chǎn)生了飛躍,也有大量相關(guān)技術(shù)從學(xué)術(shù)圈慢慢地走進(jìn)了我們的生活。但是由于視頻包含信息太過復(fù)雜,大數(shù)據(jù)的獲取、存儲、處理均存在一定困難,導(dǎo)致視頻相關(guān)技術(shù)在很多方面仍然進(jìn)步緩慢,相信隨著視頻專用卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,這部分的不足也會逐漸被彌補(bǔ)。

無論是文本、圖像還是視頻,人工智能的發(fā)展在滿足互聯(lián)網(wǎng)用戶需求的同時也始終推動著用戶習(xí)慣的變遷。有了合理的算法對視頻進(jìn)行分析、推薦,可以幫助互聯(lián)網(wǎng)用戶獲得更好的瀏覽體驗;有了用戶更好的反饋及更大的點(diǎn)擊量,可以讓視頻產(chǎn)業(yè)規(guī)模進(jìn)一步擴(kuò)大;更大規(guī)模的視頻數(shù)據(jù)會進(jìn)一步對視頻相關(guān)算法提出更高的要求。在這樣的循環(huán)之下,視頻產(chǎn)業(yè)本身必將伴隨著視頻相關(guān)算法快速地發(fā)展,迎接更美好的未來。

參考文獻(xiàn)

[1] Z. Qiu, T. Yao, T. Mei.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. InICCV, 2017.

[2] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M.Paluri. Learning spatiotemporal features with 3d convolutional networks. InICCV, 2015.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[4] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R.Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.

作者介紹

邱釗凡,微軟亞洲研究院和中國科學(xué)技術(shù)大學(xué)聯(lián)合培養(yǎng)博士生,導(dǎo)師為梅濤研究員和田新梅副教授。主要研究方向包括視頻特征學(xué)習(xí)、視頻動作識別和多媒體內(nèi)容分析。他曾于 2015 年在中國科學(xué)技術(shù)大學(xué)獲得學(xué)士學(xué)位,并于 2017 年獲得微軟學(xué)者獎學(xué)金。

姚霆博士,微軟亞洲研究院多媒體搜索與挖掘組研究員,主要研究興趣為視頻理解、大規(guī)模多媒體搜索和深度學(xué)習(xí)。他帶領(lǐng)研究團(tuán)隊在 COCO 圖像描述自動生成、2017 年 VISDA 視覺領(lǐng)域自適應(yīng)語義分割任務(wù)、2016&2017 年 ActivityNet 視頻行為識別等多個國際級比賽中取得了世界領(lǐng)先的成績。他于 2014 年在香港城市大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位并于 2015 年榮獲 SIGMM Outstanding Ph.D. Thesis Award。

梅濤博士,微軟亞洲研究院資深研究員,主要研究興趣為多媒體分析、計算機(jī)視覺和機(jī)器學(xué)習(xí)。他的研究團(tuán)隊目前致力于視頻和圖像的深度理解、分析和應(yīng)用。他同時擔(dān)任 IEEE 和 ACM 多媒體匯刊(IEEE TMM 和 ACM TOMM)以及模式識別(Pattern Recognition)等學(xué)術(shù)期刊的編委,并且是多個國際多媒體會議的大會主席和程序委員會主席。他是國際模式識別學(xué)會會士,美國計算機(jī)協(xié)會杰出科學(xué)家,中國科學(xué)技術(shù)大學(xué)和中山大學(xué)兼職教授。

相關(guān)文章:

專訪微軟亞洲研究院副院長張益肇:我們在為 MSRA 布哪些醫(yī)療局?

MSRA獲ACM TOMM 2017最佳論文:讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

MSRA視頻理解新突破,實現(xiàn)199層三維卷積神經(jīng)網(wǎng)絡(luò)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說