丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

微軟亞洲研究院資深研究員梅濤:原來視頻可以這么玩了! | CCF-GAIR 2017

本文作者: 汪思穎 編輯:郭奕欣 2017-07-10 11:11 專題:GAIR 2017
導語:視頻也可以像美圖一樣玩了。

7月9日,由中國計算機學會(CCF)主辦,雷鋒網(wǎng)與香港中文大學(深圳)承辦的CCF-GAIR 2017全球人工智能與機器人峰會進入了第三天。在CV+專場首場,微軟亞洲研究院資深研究員梅濤博士為大會帶來了題為《Video Content 3C: Creation, Curation, Consumption》的分享,即視頻的創(chuàng)造、處理和消費。雷鋒網(wǎng)對梅濤博士的演講內容梳理如下:

微軟亞洲研究院資深研究員梅濤:原來視頻可以這么玩了! | CCF-GAIR 2017

為什么要講視頻的內容,梅濤博士提到如下幾點。

  • 一,視頻跟圖像相比信息更豐富,處理起來也更富挑戰(zhàn)性;

  • 二,大家近來看到比較多的是視覺領域比如人臉、安防方面的進展,而視頻(尤其是短視頻)相對來說是比較嶄新的領域;

  • 三,他本人從事視頻分析的研究和產(chǎn)品已經(jīng)十多年了,在這十幾年里,幾乎人人都說視頻是下一個風口,今天看來這個說法似乎也是成立的。

在傳統(tǒng)的視覺理解的方法里,要做視覺問題基本上分三個步驟:

  • 第一,理解一個物體,比如說識別一個桌子,首先要檢測一個關鍵點(比如角、邊、面等);

  • 第二,人為設計一些特征來描述這些點的視覺屬性;

  • 第三,采用一些分類器將這些人為設計的特征作為輸入進行分類和識別。

“現(xiàn)在的深度學習,尤其是在2012開始,圖像理解的錯誤率在不斷降低,深度神經(jīng)網(wǎng)絡也從最早的8層到20多層,到現(xiàn)在能達到152層。我們最新的工作也表明,視頻理解的深度神經(jīng)網(wǎng)絡也可以從2015年3D CNN的11層做到現(xiàn)在的199層。”

梅濤博士也在演講中表示,視頻內容的生命周期大致可以分為三個部分,即視頻的創(chuàng)作、處理和消費:

creation

要討論視頻的創(chuàng)作,這里面涉及到一個基本概念,那就是視頻的產(chǎn)生原理。“Video的產(chǎn)生是先把Video切成一個一個的鏡頭,可以看成是一個一個斷碼,然后每一個鏡頭再組合編成一個故事或場景,每一個鏡頭還可以再細成子鏡頭,每個子鏡頭可以用一個關鍵幀來代表。通過這種分層式結構可以把一段非線性的視頻流像切分文章一樣進行結構化,這種結構化是后面做視頻處理和分析的基礎。通過這種結構化將視頻分解成不同的單元,就可以做視頻的自動摘要,即將一段長視頻自動剪輯為精彩的短視頻,或將一段長視頻用一些具有高度視覺代表性的關鍵幀表示。這些摘要使得用戶對長視頻的非線性快速瀏覽成為可能?!?/p>

梅濤博士表示,微軟目前將視頻摘要的技術用在了Bing的視頻搜索里,現(xiàn)在全世界有八百萬的Bing用戶通過一種叫multi-thumb的技術,可以快速預覽每一個視頻搜索結果。

此外,微軟研究院研發(fā)的PIX是一個全新的相機app,它可以在你按下拍攝按鍵的同時就對拍攝的視頻進行實時處理,可以將一段抖動的視頻變得平穩(wěn),還可以自動判斷視頻中靜止和動態(tài)的像素,生成 loopy video animation。

curation

當用戶有了視頻之后,研究者要做的事情是給視頻片段打上標簽,這樣后面的搜索就可以基于標簽搜到視頻的內容里面去?!拔覀冏罱墓ぷ骺梢詫σ曨l內容打上1000多個靜態(tài)標簽和超過500個以上的動作標簽。我們設計的P3D(pseudo 3D resent)是專門為視頻內容理解而精心設計的3D殘差網(wǎng)絡?!?/p>

做圖像分析目前最好的深度神經(jīng)網(wǎng)絡是微軟亞洲研究院在2015年提出的152層的殘差網(wǎng)絡(ResNet),目前最深可以做到1000層。但是在視頻領域,專門為視頻設計的最有效的3D CNN目前才11層。為了解決這一問題,梅濤博士表示,團隊最近借用ResNet的思想,將3D CNN的層數(shù)做到了199,識別率能在UCF 101數(shù)據(jù)集上比之前的3D CNN提高6到7個百分點。這一對視頻進行自動標簽的技術,將會被使用在微軟的Azure云服務中。

實現(xiàn)了視頻自動標簽技術外,梅濤博士還闡述了團隊“更進一步”的研究工作:用一段連貫通順的自然語言,而不是孤立的單個標簽,來描述一段視頻內容。

“比如給定這段視頻,我們能不能生成一句話來描述這個Video?以前我們說這個Video是一個舞蹈,現(xiàn)在可以告訴你這是一群人在跳一段什么舞蹈,這個技術就叫Video Captioning。這個技術使得自動生成視頻的標題成為可能?!?/p>

微軟亞洲研究院目前把這個技術用在了聊天機器人的自動評價功能里,例如微軟小冰,當用戶上傳視頻給小冰,它會夸贊對方。在這個技術上線一個月后,小冰在某視頻網(wǎng)站上的粉絲數(shù)漲了60%。當然,小冰現(xiàn)在還可以根據(jù)圖片內容寫現(xiàn)代詩,將來我們希望小冰能夠根據(jù)視頻來寫詩。

“我們也可以將Video進行編輯,加上濾鏡,或是做風格的轉換,把自然的Video變得非??ㄍ?。Video中的人物分割出來可以放到另外一個虛擬的場景里面去。你可以想象,當兩個人在異地談戀愛的時候,我們能夠給他一個房間,讓他們在同一個房間里、在星空下、在安靜湖面上的一艘小船上進行聊天。

另外,我們也可以提供storytelling的服務,讓原始的、沒有經(jīng)過任何編輯和處理的image、video集合變成一段非常吸引人的、有一定設計感和視覺感的故事,這段視頻demo就是機器自動產(chǎn)生的效果。加上人工的處理,視頻就可以變得更加時尚。”

consumption

視頻的消費往往和廣告緊密相關。梅濤提到,做Video廣告有兩個問題需要解決:第一個問題是廣告到底放在Video的什么位置;第二個問題是選什么樣的廣告,這個廣告跟你插入點的信息是不是相關,使得用戶接受度更加好。

他們的解決方案是將Video進行分解,并計算出兩種度量,一個是discontinuity,衡量一個廣告插入點的故事情節(jié)是否連續(xù);另一個是attractiveness,衡量一段原始視頻的內容是否精彩。對這兩種度量進行不同的組合就可以滿足符合廣告商(advertiser)或用戶(viewer)的需求。

最后梅濤總結道,在做科研的人看來,AI也好,深度學習也好,落地都有很長的路要走?!半m然計算機視覺已經(jīng)發(fā)展了50多年,雖然現(xiàn)在AI炒的很火熱,但做科研和技術的,還是要腳踏實地去解決一個個的場景和一個個底層的基礎難題?!?/p>

雷鋒網(wǎng)AI科技評論原創(chuàng)文章,更多詳細的演講內容參見雷鋒網(wǎng)AI科技評論后續(xù)報道。

微軟亞洲研究院資深研究員梅濤:原來視頻可以這么玩了! | CCF-GAIR 2017

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

微軟亞洲研究院資深研究員梅濤:原來視頻可以這么玩了! | CCF-GAIR 2017

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說