丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

本文作者: 奕欣 2017-10-27 22:40 專題:ICCV 2017
導(dǎo)語(yǔ):商湯科技與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室在ICCV 2017上共發(fā)表了 20 篇論文,其中包括 3 篇 Oral 和 1 篇 Spotlight。

雷鋒網(wǎng) AI 科技評(píng)論:本文作者為香港中文大學(xué)林達(dá)華教授,雷鋒網(wǎng) AI 科技評(píng)論獲授權(quán)轉(zhuǎn)載。

今秋,在以水城而聞名的威尼斯,來(lái)自世界各地的三千多位學(xué)者薈萃一堂,共赴兩年一度的國(guó)際計(jì)算機(jī)視覺大會(huì) (ICCV)。這次大會(huì)的一個(gè)重要亮點(diǎn)就是中國(guó)學(xué)者的強(qiáng)勢(shì)崛起。根據(jù)組委會(huì)公開的數(shù)字,會(huì)議 40% 的論文投稿來(lái)自中國(guó)的研究者。在中國(guó)的人工智能浪潮中,商湯科技以及它與港中文的聯(lián)合實(shí)驗(yàn)室無(wú)疑是其中最有代表性的力量。在本屆 ICCV 大會(huì),商湯科技與香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室共發(fā)表了 20 篇論文,其中包括 3 篇 Oral (錄取率僅 2.09%) 和 1 篇 Spotlight,領(lǐng)先 Facebook(15 篇)、Google Research(10 篇)等科技巨頭。

ICCV 是計(jì)算機(jī)視覺領(lǐng)域最高水平的國(guó)際學(xué)術(shù)會(huì)議,在其中發(fā)表的論文的量與質(zhì)可以衡量一個(gè)公司或者研究機(jī)構(gòu)的學(xué)術(shù)水平,以及其對(duì)未來(lái)科技發(fā)展潮流的把握。從商湯科技的 20 篇論文中,可以看到其在研究上重點(diǎn)發(fā)力的四大主線:

跨模態(tài)分析:讓視覺與自然語(yǔ)言聯(lián)合起來(lái)

在過(guò)去幾年,隨著深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺取得了突破性的發(fā)展,很多傳統(tǒng)任務(wù)(比如圖像分類,物體檢測(cè),場(chǎng)景分割等)的性能大幅度提高。但是在更高的水平上,計(jì)算機(jī)視覺開始遇到了新的瓶頸。要獲得新的技術(shù)進(jìn)步,一個(gè)重要的方向就是打破傳統(tǒng)視覺任務(wù)的藩籬,把視覺理解與自然語(yǔ)言等其它模態(tài)的數(shù)據(jù)結(jié)合起來(lái)。商湯科技很早就捕捉了這一趨勢(shì),并投入重要力量進(jìn)行開拓,取得了豐碩成果。在這一方向上,有 4 篇論文被 ICCV 2017 錄用,包括一篇 Oral。

Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral).

Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin. 

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

看圖說(shuō)話,也就是根據(jù)圖像生成描述性標(biāo)題,是今年來(lái)非?;钴S的研究領(lǐng)域。現(xiàn)有的方法普遍存在一個(gè)問(wèn)題,就是產(chǎn)生的標(biāo)題很多是訓(xùn)練集中的表述的簡(jiǎn)單重復(fù),讀起來(lái)味同嚼蠟。這一問(wèn)題的根源在于學(xué)習(xí)目標(biāo)過(guò)分強(qiáng)調(diào)與訓(xùn)練集的相似性。這篇論文提出了一種新型的基于 Conditional GAN 的訓(xùn)練方法,把描述生成模型與評(píng)估模型合同訓(xùn)練。這樣,評(píng)估的標(biāo)準(zhǔn)從「像不像訓(xùn)練集」變成「像不像人說(shuō)話」,從而驅(qū)動(dòng)生成模型產(chǎn)生更加自然、生動(dòng),并具有豐富細(xì)節(jié)的描述。這一工作為看圖說(shuō)話任務(wù)提供了新的思路。在 User Study 中,這種新的方法以 6:4 的勝率戰(zhàn)勝了傳統(tǒng)的方法。

另外兩篇 paper 則從相反的方向思考,力圖利用相關(guān)文本的信息來(lái)幫助提高視覺理解的能力。

Scene Graph Generation from Objects, Phrases and Caption Regions.

Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017這篇論文把三個(gè)有密切關(guān)系的任務(wù)——物體檢測(cè),場(chǎng)景圖生成,以及圖像區(qū)域的描述聯(lián)合在一起,并且利用它們之間的關(guān)系建立了一個(gè)多層次的場(chǎng)景描述模型——Multi-level Scene Description Network (MSDN)。通過(guò)這個(gè)聯(lián)合模型,傳統(tǒng)上分離開來(lái)的三個(gè)任務(wù)可以結(jié)合在一起進(jìn)行端對(duì)端的訓(xùn)練,從而使得每個(gè)任務(wù)都獲得性能的提升。尤其在代表對(duì)圖像綜合理解能力的場(chǎng)景圖生成任務(wù)上,性能提高超過(guò)了 3%。

Learning to Disambiguate by Asking Discriminative Questions.

Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

這篇論文探索了一個(gè)新的方向,即透過(guò)提出有鑒別力的問(wèn)題來(lái)區(qū)分不同的視覺實(shí)體。比如當(dāng)你需要區(qū)分一只白色的狗和一只黑色的狗的時(shí)候,可以提出關(guān)于顏色的問(wèn)題。為了支持這個(gè)方向的探索,作者在這項(xiàng)工作中建立了一個(gè)新的數(shù)據(jù)集,里面含有了超過(guò)一萬(wàn)組包含成對(duì)圖像與多個(gè)相關(guān)問(wèn)題的樣本;并且提出了一種新型的弱監(jiān)督訓(xùn)練方法,可以在缺乏細(xì)致標(biāo)注的條件下,同時(shí)學(xué)習(xí)到一個(gè)具有區(qū)分度的問(wèn)題生成器,以及能提供準(zhǔn)確答案的鑒別模型。

Identity-Aware Textual-Visual Matching with Latent Co-attention.

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

特征匹配是跨模態(tài)學(xué)習(xí)的核心環(huán)節(jié)。這篇論文提出了一個(gè)新的文本與視覺特征匹配的框架。這個(gè)框架由兩個(gè)階段組成。第一階段能迅速排除明顯錯(cuò)誤的配對(duì),并為第二階段的訓(xùn)練提供效度更高的訓(xùn)練樣本。第二階段通過(guò)一個(gè)新的關(guān)聯(lián)注意力模型(co-attention model),把文本中的單詞關(guān)聯(lián)到圖像中的特定區(qū)域。在三個(gè)公開數(shù)據(jù)集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都顯著超過(guò)現(xiàn)行的主流方法。

視頻分析:讓計(jì)算機(jī)看懂視頻

雖然深度學(xué)習(xí)在圖像分析中取得了巨大的成功,它在視頻的理解與分析中的應(yīng)用還有很長(zhǎng)的路要走。相比于圖像,視頻數(shù)據(jù)具有更大的數(shù)據(jù)量以及更豐富的結(jié)構(gòu),因而也為視覺分析技術(shù)提出了更高水平的挑戰(zhàn)。商湯科技在數(shù)年前就開始了把深度學(xué)習(xí)用于視頻分析與理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在內(nèi)的多種有很大影響并被廣泛應(yīng)用的視頻分析架構(gòu),并在 ActivityNet 2016 取得了冠軍。在 2017 年,商湯科技以及相關(guān)實(shí)驗(yàn)室繼續(xù)把這個(gè)方向的探索推向縱深,并在 ICCV 2017 發(fā)表了兩項(xiàng)重量級(jí)的工作,包括一篇 Oral。

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)

Wenbin Du; Yali Wang; Yu Qiao.

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

通常的視頻分析模型大部分是基于 video-level 的類別進(jìn)行監(jiān)督學(xué)習(xí)的,這種方法的局限是難以學(xué)習(xí)到復(fù)雜的運(yùn)動(dòng)結(jié)構(gòu)。這篇論文另辟蹊徑,著力于動(dòng)態(tài)人體的建模,并提出了一個(gè)新型的可以端對(duì)端訓(xùn)練的深度網(wǎng)絡(luò)架構(gòu) Recurrent Pose Attention Network (RPAN)。該架構(gòu)不僅可以自適應(yīng)地整合人體運(yùn)動(dòng)姿態(tài)的特征,還能很好地學(xué)習(xí)其時(shí)空演化結(jié)構(gòu)。這項(xiàng)工作一方面為視頻動(dòng)作理解提供了新的方法,另一方面作為副產(chǎn)品也獲得了一個(gè)不錯(cuò)的粗粒度姿態(tài)估計(jì)的模型。

Temporal Action Detection with Structured Segment Networks.


Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

時(shí)域上的動(dòng)作檢測(cè)是近兩年興起的新型視頻分析任務(wù)。相比于傳統(tǒng)的動(dòng)作分類,這個(gè)任務(wù)更具有挑戰(zhàn)性,不僅需要判斷一個(gè)運(yùn)動(dòng)或者事件的類型,還需要獲得它的準(zhǔn)確起止時(shí)間。這個(gè)任務(wù)在實(shí)際場(chǎng)景中有很大的潛在價(jià)值,比如它可以從長(zhǎng)時(shí)間的運(yùn)動(dòng)視頻或者電影中自動(dòng)定位到相關(guān)的精彩片段。這篇論文提出了一種新型的視頻動(dòng)作檢測(cè)模型,它在 TSN 的基礎(chǔ)上引入了三段結(jié)構(gòu)模型以更有效地捕捉運(yùn)動(dòng)起始段與終結(jié)段的特征。基于這一架構(gòu),動(dòng)作分類器與時(shí)間定位器可以端到端聯(lián)合訓(xùn)練。這個(gè)方法在多個(gè)大型視頻數(shù)據(jù)集上(包括 THOMOS 和 ActivityNet)取得了比現(xiàn)有方法超過(guò) 10 個(gè)百分點(diǎn)的提升。

生成對(duì)抗網(wǎng)絡(luò):讓計(jì)算機(jī)學(xué)習(xí)創(chuàng)作

最近兩年,由于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks)的提出,生成模型(generative model)的學(xué)習(xí)成為一個(gè)新興的研究方向。和傳統(tǒng)的鑒別模型(discriminative model)主要關(guān)注信息提煉不同,生成模型需要從零開始,或者基于信息量非常有限的給定條件,產(chǎn)生出完整的圖像,因此特別具有挑戰(zhàn)性。這個(gè)研究方向在消費(fèi)領(lǐng)域具有巨大的應(yīng)用價(jià)值,同時(shí)它也可以通過(guò)產(chǎn)生訓(xùn)練樣本的方式反哺?jìng)鹘y(tǒng)領(lǐng)域的研究。商湯科技在這個(gè)新興領(lǐng)域也積極開展研究,取得不少新的成果,并在 ICCV 2017 發(fā)表了兩項(xiàng)相關(guān)工作,包括一篇 Oral。

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

生成高質(zhì)量的圖像是生成模型研究的核心問(wèn)題。這篇文章提出了一個(gè)新型的生成框架,StackGAN,它能夠根據(jù)簡(jiǎn)短的文字描述生成解析度為 256 x 256 的高質(zhì)量圖片。生成如此高解析度的照片是一個(gè)極具挑戰(zhàn)性的問(wèn)題,此前的生成模型通常只能產(chǎn)生大小為 64 x 64 的圖片。本文提出的方法把這個(gè)困難的任務(wù)分解為兩個(gè)階段。在第一階段,先根據(jù)文字描述產(chǎn)生粗粒度的草圖,以第一階段的結(jié)果作為輸入,第二階段產(chǎn)生高解析度的圖像,并補(bǔ)充豐富的細(xì)節(jié)。此文還進(jìn)一步提出了一種新型的條件增強(qiáng)技術(shù),以改進(jìn)訓(xùn)練過(guò)程的穩(wěn)定性。和現(xiàn)有的生成網(wǎng)絡(luò)相比,StackGAN 在生成圖片的質(zhì)量的解析度上獲得了非常顯著的進(jìn)步。

Be Your Own Prada: Fashion Synthesis with Structural Coherence.

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

這篇文章探索了一個(gè)極具應(yīng)用價(jià)值的方向,把生成模型引入時(shí)尚領(lǐng)域:提出一種嶄新的方法產(chǎn)生換裝照片。具體而言,給定一個(gè)人的照片,以及對(duì)換裝的描述,此文提出的方法可以根據(jù)對(duì)換裝的描述,比如「黑色的短袖長(zhǎng)裙」,產(chǎn)生換裝后的照片。和一般的生成任務(wù)相比,換裝任務(wù)更具挑戰(zhàn)性,換裝照不僅需要符合文字描述,而且需要和原照片中人體的姿態(tài)相吻合。此文提出一個(gè)兩階段的框架解決這個(gè)問(wèn)題:第一階段產(chǎn)生一個(gè)和人體姿態(tài)吻合的分區(qū)圖,第二階段以此為基礎(chǔ)生成具有精細(xì)細(xì)節(jié)的服裝圖像。

除了在新興方向上積極開拓,商湯科技在一些重要的核心領(lǐng)域,包括人臉檢測(cè)、物體檢測(cè)、人體姿態(tài)估計(jì)、實(shí)際場(chǎng)景中的身份再識(shí)別等,也持續(xù)投入,精益求精,在本屆 ICCV 發(fā)表多篇相關(guān)論文。

商湯科技 ICCV 2017 論文列表:

1. 「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

2. 「Scene Graph Generation from Objects, Phrases and Caption Regions」. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

3. 「Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention」. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

4. 「Learning Feature Pyramids for Human Pose Estimation」. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

5. 「Learning Chained Deep Features and Classifiers for Cascade in Object Detection」. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

6. 「Identity-Aware Textual-Visual Matching with Latent Co-attention」. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

7. 「Towards Diverse and Natural Image Descriptions via a Conditional GAN」. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

8. 「Temporal Action Detection with Structured Segment Networks」. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin.

9. 「Learning to Disambiguate by Asking Discriminative Questions」. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

10. 「Be Your Own Prada: Fashion Synthesis with Structural Coherence」. Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy.

11. 「Recurrent Scale Approximation for Object Detection in CNN」. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

12. 「Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification」. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

13. 「Multi-label Image Recognition by Recurrently Discovering Attentional Regions」. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

14. 「HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis」. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

15. 「Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals」. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

16. 「Deep Dual Learning for Semantic Image Segmentation」. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

17. 「Detecting Faces Using Inside Cascaded Contextual CNN」. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

18. 「Single Shot Text Detector With Regional Attention」. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

19. 「RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos」. Wenbin Du, Yali Wang, Yu Qiao.

20. 「Range Loss for Deep Face Recognition With Long-Tailed Training Data」. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.

更多資訊,敬請(qǐng)關(guān)注雷鋒網(wǎng)AI科技評(píng)論。


4月19日 20:30-21:30 ,雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論聯(lián)合AI慕課學(xué)院、騰訊課堂邀請(qǐng)商湯科技聯(lián)合創(chuàng)始人陳宇恒為大家?guī)?lái)一場(chǎng)直播分享!點(diǎn)擊鏈接報(bào)名參與吧??!

課程主題:《人工智能的系統(tǒng)工程與系統(tǒng)工程中的人工智能應(yīng)用》

報(bào)名鏈接:https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

從 20 篇ICCV 2017錄用論文,看商湯科技四大攻堅(jiān)領(lǐng)域|ICCV 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)