丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給溫曉樺
發(fā)送

0

專訪騰訊AI Lab劉威:視覺+NLP交叉將持續(xù)升溫,視頻理解的研究將再上一個(gè)臺(tái)階 | CVPR 回顧

本文作者: 溫曉樺 2017-08-10 14:31
導(dǎo)語:CVPR 2017期間,雷鋒網(wǎng)AI科技評(píng)論與AI Lab 計(jì)算機(jī)視覺中心總監(jiān)劉偉博士聊了聊這些論文成果產(chǎn)生的背后,以及對(duì)CV未來研究的想法。

雷鋒網(wǎng)AI科技評(píng)論報(bào)道,2017年計(jì)算機(jī)視覺領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)剛剛結(jié)束,今年CVPR上,一共783篇論文被收錄,錄取率29%,口頭報(bào)告錄取率僅2.65%。作為國內(nèi)著名的人工智能研究機(jī)構(gòu),騰訊AI Lab(騰訊人工智能實(shí)驗(yàn)室)共有六篇論文入選CVPR。它們是:

論文一:Real Time Neural Style Transfer for Videos


本文用深度前向卷積神經(jīng)網(wǎng)絡(luò)探索視頻藝術(shù)風(fēng)格的快速遷移,提出了一種全新兩幀協(xié)同訓(xùn)練機(jī)制,能保持視頻時(shí)域一致性并消除閃爍跳動(dòng)瑕疵,確保視頻風(fēng)格遷移實(shí)時(shí)、高質(zhì)、高效完成。


論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images


論文首次提出一種全尺寸、無標(biāo)注、基于病理圖片的病人生存有效預(yù)測(cè)方法WSISA,在肺癌和腦癌兩類癌癥的三個(gè)不同數(shù)據(jù)庫上性能均超出基于小塊圖像方法,有力支持大數(shù)據(jù)時(shí)代的精準(zhǔn)個(gè)性化醫(yī)療。


論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning


針對(duì)圖像描述生成任務(wù),SCA-CNN基于卷積網(wǎng)絡(luò)的多層特征來動(dòng)態(tài)生成文本描述,進(jìn)而建模文本生成過程中空間及通道上的注意力模型。


論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization


本文提出依靠檢測(cè)器自身不斷改進(jìn)訓(xùn)練樣本質(zhì)量,不斷增強(qiáng)檢測(cè)器性能的一種全新方法,破解弱監(jiān)督目標(biāo)檢測(cè)問題中訓(xùn)練樣本質(zhì)量低的瓶頸。


論文五:Diverse Image Annotation


本文提出了一種新的自動(dòng)圖像標(biāo)注目標(biāo),即用少量多樣性標(biāo)簽表達(dá)盡量多的圖像信息,該目標(biāo)充分利用標(biāo)簽之間的語義關(guān)系,使得自動(dòng)標(biāo)注結(jié)果與人類標(biāo)注更加接近。


論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images


基于曼哈頓結(jié)構(gòu)與對(duì)稱信息,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。

專訪騰訊AI Lab劉威:視覺+NLP交叉將持續(xù)升溫,視頻理解的研究將再上一個(gè)臺(tái)階 | CVPR 回顧

騰訊AI Lab于2016年4月正式成立,主要圍繞圖像識(shí)別、語音識(shí)別、自然語言處理和機(jī)器學(xué)習(xí)4個(gè)方向進(jìn)行研究。在今年3月第10屆UEC杯世界計(jì)算機(jī)圍棋賽決賽中,騰訊 AI Lab研發(fā)的圍棋人工智能程序“絕藝”(Fine Art)擊敗日本開發(fā)的“DeepZenGo”,以11戰(zhàn)全勝的戰(zhàn)績(jī)奪冠,就瀟灑地展示了實(shí)驗(yàn)室的算法實(shí)力。

騰訊副總裁姚星曾表示,和集團(tuán)其他更多針對(duì)于產(chǎn)品應(yīng)用而展開研究的團(tuán)隊(duì)不同,騰訊AI Lab 的目標(biāo)是增強(qiáng)騰訊的人工智能原創(chuàng)性、基礎(chǔ)性研究。從上述入選論文主題也可以看出,研究主題更多體現(xiàn)為方法論的突破。其中,雷鋒網(wǎng)此前報(bào)道《深度學(xué)習(xí)集體瓶頸,產(chǎn)業(yè)化加速時(shí)代CV研究出路在哪里?| CVPR 2017》指出,「Diverse Image Annotation」用少量多樣性標(biāo)簽表達(dá)盡量多的圖像信息,以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」討論的弱監(jiān)督學(xué)習(xí)等作品,體現(xiàn)了當(dāng)前CV研究遭遇瓶頸而又晨光微啟的時(shí)代中一個(gè)創(chuàng)新突破的方向。

那么,這些論文成果背后的想法,以及騰訊AI Lab對(duì)未來CV未來研究創(chuàng)新的判斷是怎樣的呢?CVPR 2017期間,雷鋒網(wǎng)AI科技評(píng)論與AI Lab 計(jì)算機(jī)視覺中心總監(jiān)劉威博士進(jìn)行了交流,以下是對(duì)話實(shí)錄(有刪減):

雷鋒網(wǎng):這是您第幾次參加CVPR?

劉威:我參加CVPR有超過10年歷史,最早一次是2005年。

雷鋒網(wǎng):您曾說,CVPR的口頭報(bào)告一般是當(dāng)年最前沿的研究課題,在學(xué)界和工業(yè)界都影響很大。能否談一談您對(duì)今年CVPR的看法?

劉威:在本屆CVPR里,錄取論文涉及的領(lǐng)域占比最高的五類是:計(jì)算機(jī)視覺中的機(jī)器學(xué)習(xí)(24%)、物體識(shí)別和場(chǎng)景理解(22%)、3D視覺(13%)、低級(jí)和中級(jí)視覺(12%)、分析圖像中的人類(11%)。

從我們研究方向和興趣出發(fā),團(tuán)隊(duì)也非常關(guān)注其中的五個(gè)前沿領(lǐng)域:低中層視覺、圖像描述生成、3D視覺、計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)、弱監(jiān)督下的圖像識(shí)別等。

雷鋒網(wǎng):據(jù)了解,這次實(shí)驗(yàn)室重點(diǎn)解析了《視頻的實(shí)時(shí)神經(jīng)風(fēng)格遷移》「Real Time Neural Style Transfer for Videos」這一篇,為什么是選中這一篇呢?

劉威:團(tuán)隊(duì)在本屆CVPR上有六篇文章被錄取,雖然數(shù)量不多,但我對(duì)質(zhì)量還算滿意。這篇論文所研究的實(shí)時(shí)視頻濾鏡技術(shù),已在騰訊QQ手機(jī)版上線,實(shí)現(xiàn)基礎(chǔ)研究到應(yīng)用的迅速轉(zhuǎn)化,形成了一個(gè)較好的閉環(huán),與我們“學(xué)術(shù)有影響,工業(yè)有產(chǎn)出”的研究目標(biāo)相契合。

雷鋒網(wǎng):《視頻的實(shí)時(shí)神經(jīng)風(fēng)格遷移》這一個(gè)突破,將會(huì)給目前的視頻處理和應(yīng)用帶來什么變化和價(jià)值?

劉威:該研究成果表明在訓(xùn)練時(shí)加入對(duì)視頻時(shí)域一致性的考慮,能夠約束前向神經(jīng)網(wǎng)絡(luò)生成時(shí)域一致的編輯結(jié)果。

在過去很長(zhǎng)一段時(shí)間內(nèi),業(yè)界流行的圖像濾鏡通常只是對(duì)全局顏色屬性的調(diào)整,比如亮度、色相、飽和度等。在2016年的CVPR,Gatys等人首創(chuàng)性地提出將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像的藝術(shù)風(fēng)格遷移,使得輸入圖像能夠模仿如梵高的星空、莫奈的日出印象等任何類型的藝術(shù)風(fēng)格,效果驚艷。

Gatys等人工作雖然取得了非常好的效果,但是缺點(diǎn)是基于優(yōu)化,非常耗時(shí);到2016 ECCV時(shí),Johnson等人提出了使用深度前向神經(jīng)網(wǎng)絡(luò)替代優(yōu)化過程,實(shí)現(xiàn)了實(shí)時(shí)的圖像風(fēng)格遷移,修圖工具Prisma隨之風(fēng)靡一時(shí)。但直接將圖像風(fēng)格遷移的方法應(yīng)用到視頻上,卻會(huì)使得原本連貫的視頻內(nèi)容在不同幀中轉(zhuǎn)化為不一致的風(fēng)格,造成視頻的閃爍跳動(dòng),嚴(yán)重影響觀感體驗(yàn)。為了解決閃爍問題,Ruder等人加入了對(duì)時(shí)域一致性的考慮,提出了一種基于優(yōu)化的視頻藝術(shù)濾鏡方法,但速度極慢遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)時(shí)。

騰訊AI Lab使用深度前向卷積神經(jīng)網(wǎng)絡(luò),探索視頻藝術(shù)風(fēng)格快速遷移的可能,提出了一種全新的兩幀協(xié)同訓(xùn)練機(jī)制,保持了視頻時(shí)域一致性,消除了閃爍跳動(dòng)瑕疵,同時(shí)保證視頻風(fēng)格遷移能夠?qū)崟r(shí)完成,兼顧了視頻風(fēng)格轉(zhuǎn)換的高質(zhì)量與高效率。

類似的方法也有望能夠助力其他圖像編輯方法向視頻推廣。

雷鋒網(wǎng):在這六篇論文成果中,除了通用的視頻媒體解析,也涉及到醫(yī)學(xué)等細(xì)分領(lǐng)域的研究,請(qǐng)問騰訊AI Lab如何選擇研究方向?

劉威:在基礎(chǔ)和前沿研究方向上,CV團(tuán)隊(duì)目前聚焦中高層視覺,尤其視頻等可視結(jié)構(gòu)數(shù)據(jù)的深度理解,同時(shí)也在重要的交叉領(lǐng)域發(fā)力,如視覺+NLP、視覺+信息檢索等。

正在進(jìn)行或計(jì)劃中的研究項(xiàng)目兼具了挑戰(zhàn)性和趣味性,包括超大規(guī)模圖像分類、視頻編輯與生成、時(shí)序數(shù)據(jù)建模和增強(qiáng)現(xiàn)實(shí),這些項(xiàng)目吸引了哥倫比亞和清華等海內(nèi)外知名大學(xué)的優(yōu)秀實(shí)習(xí)生參與。

雷鋒網(wǎng):實(shí)際應(yīng)用中,似乎很多時(shí)候?qū)D像的處理不只是視覺問題,更多可能是涉及NLP的方法,對(duì)于這些交叉的現(xiàn)象,能否結(jié)合實(shí)際應(yīng)用來談?wù)勀目捶ǎ?/span>

劉威:現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺與文本信號(hào)共同出現(xiàn),譬如騰訊視頻,不僅有視頻信息,還有音頻信息,還有相應(yīng)的字幕、評(píng)論和彈幕等信息——如何挖掘或者學(xué)習(xí)它們之間的相關(guān)性也是業(yè)界的研究熱點(diǎn)。近年來計(jì)算機(jī)視覺+NLP相結(jié)合,出現(xiàn)了很多熱點(diǎn)的研究問題,譬如圖像文本匹配、圖像描述生成、圖像問答等。

今年的CVPR的其中一個(gè)keynote也是邀請(qǐng)了NLP領(lǐng)域斯坦福大學(xué)的知名教授Dan Jurafsky,討論了language方面的研究進(jìn)展。因此,多個(gè)交叉領(lǐng)域的研究,更能推動(dòng)研究成果在實(shí)際業(yè)務(wù)場(chǎng)景中的應(yīng)用

雷鋒網(wǎng):在《Deep Self-Taught Learning for Weakly Supervised Object Localization》和《Diverse Image Annotation》中提到的方法似乎都更強(qiáng)調(diào)了機(jī)器學(xué)習(xí)的自主性,請(qǐng)問這是否代表著哪個(gè)領(lǐng)域的一些突破?

劉威:我認(rèn)為這在研究的實(shí)用價(jià)值上實(shí)現(xiàn)了一定突破。以第一篇文章為例,它描述的是從較少的、質(zhì)量低下的數(shù)據(jù)中進(jìn)行的模型學(xué)習(xí)。模型在不斷學(xué)習(xí)后,性能增強(qiáng),從而能自主地選擇更多數(shù)據(jù)、并選取其中質(zhì)量更高的進(jìn)行模型訓(xùn)練,提升模型性能,從而實(shí)現(xiàn)模型的自主學(xué)習(xí)。

這種依靠模型自身達(dá)到數(shù)據(jù)從少到多,從差到好的自主獲取過程,在如今海量數(shù)據(jù)且質(zhì)量良莠不齊的情況下更具有實(shí)用指導(dǎo)價(jià)值。

雷鋒網(wǎng):在今年的CVPR會(huì)議上,一個(gè)據(jù)稱要接棒ImageNet的WebVision比賽也公布了第一期獲獎(jiǎng)名單,后者相比數(shù)據(jù)標(biāo)注的分析處理,它更強(qiáng)調(diào)圖像學(xué)習(xí)和理解,請(qǐng)問如何看待這個(gè)事情?實(shí)現(xiàn)所謂圖像的學(xué)習(xí)和理解,當(dāng)前存在哪些挑戰(zhàn)?未來要實(shí)現(xiàn)這個(gè)突破,還要經(jīng)歷一個(gè)怎樣的創(chuàng)新期?在這個(gè)創(chuàng)新過程中,哪些技術(shù)比較有潛力? 

劉威:2012年深度學(xué)習(xí)技術(shù)的興起,讓計(jì)算機(jī)視覺自此有了長(zhǎng)足發(fā)展。除了物體檢測(cè)與識(shí)別這類經(jīng)典的中層視覺問題,在圖像去噪、去模糊、超分辨率和語義分割等低層視覺問題解決上也有了很大的飛躍。

從最近兩屆 CVPR 廣受關(guān)注的論文來看,未來CV領(lǐng)域的研究除了會(huì)繼續(xù)提升經(jīng)典視覺問題的算法性能,伴隨著新數(shù)據(jù)集設(shè)計(jì)及細(xì)分研究領(lǐng)域上的新挑戰(zhàn),一些有趣且有挑戰(zhàn)的研究問題也將會(huì)受到更大關(guān)注。我個(gè)人認(rèn)為,視覺+NLP的交叉將持續(xù)升溫,視頻分析理解(包括視頻分類、視頻物體分割等)的研究將再上一個(gè)臺(tái)階。


AI慕課學(xué)院近期推出了《NLP工程師入門實(shí)踐班:基于深度學(xué)習(xí)的自然語言處理》課程!

三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項(xiàng)目經(jīng)驗(yàn)相授;算法+實(shí)踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!

課程地址:http://www.mooc.ai/course/427

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪騰訊AI Lab劉威:視覺+NLP交叉將持續(xù)升溫,視頻理解的研究將再上一個(gè)臺(tái)階 | CVPR 回顧

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說