丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給哈帝?白求恩
發(fā)送

0

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

本文作者: 哈帝?白求恩 編輯:郭奕欣 2017-07-22 03:40 專題:CVPR 2017
導語:Facebook在CVPR上的四篇論文解讀。

CVPR是IEEE一年一度的計算機視覺與模式識別技術會議,也是計算機視覺的世界三大頂會之一。2017年的CVPR會議將于7月21日到26日于夏威夷Convention中心召開,雷鋒網(wǎng)將赴前線做覆蓋與報道。

論文一:ResNext:Aggregated Residual Transformations for Deep Neural Networks

深層神經(jīng)網(wǎng)絡的聚合殘差變換

論文作者:Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1, Kaiming He

論文鏈接:https://arxiv.org/abs/1611.05431

論文摘要:

據(jù)雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解,F(xiàn)acebook團隊和圣地亞哥大學的AI研究員提出了一種采用VGG / ResNets重復層次策略的圖像分類網(wǎng)絡架構。該網(wǎng)絡中的一個模塊執(zhí)行一組轉換,每個轉換都是低維嵌入的,其輸出是通過求和計算得到的。為了簡單的實現(xiàn)這個想法,這些聚合的轉換都具有相同的拓撲。這種設計可以自由的擴展到任何大量的轉換,而無需專門設計。

在這種簡化的情況下,該模型有兩種其他等效形式。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

ResNeXt的等效構建塊。 (a):聚集殘余變換(b):等同于(a),執(zhí)行早期并置。 (c):等同于(a,b),執(zhí)行分組卷積。

該團隊的簡單設計產(chǎn)生了一個均一的多分支架構,只需要設定幾個超參數(shù)。這個策略揭示了一個全新的維度,稱為“基數(shù)”(即轉換集合的大?。?,它是除了深度和寬度的尺寸之外的又一個重要因素。

在ImageNet-1K數(shù)據(jù)集上,該團隊的實驗表明,即使在保持復雜性的限制條件下,增加基數(shù)也能夠提高分類精度。此外,當增加容量的時候,增加基數(shù)相對于增加深度和寬度而言更加有效。隨著基數(shù)C從1增加到32,保持復雜性的同時,錯誤率卻不斷降低。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

ImageNet-1K消融實驗。 (上半部分):ResNet-50具有復雜性(41億FLOP); (下半部分):ResNet-101具有復雜性(78億FLOP)。 錯誤率在224?224個像素的單個體上進行評估。

該團隊的名為ResNeXt的模型,是他們打入ILSVRC 2016分類任務的基礎,他們在此次任務當中獲得了第二名。該團隊還進一步調查了ImageNet-5K集和COCO檢測集上的ResNeXt,與ResNet對應相比,都顯示出更好的結果。


論文二:Feature Pyramid Networks for Object Detection

 用于對象檢測的特征金字塔網(wǎng)絡

論文作者:Tsung-Yi Lin, Piotr Doll, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

論文鏈接: https://arxiv.org/pdf/1612.03144.pdf

論文摘要:

特征圖像金字塔(featurized image pyramids)是用于檢測不同尺度物體的識別系統(tǒng)的基本組成部分。但最近的深度學習對象檢測器避免了使用金字塔表示方法,部分原因是由于它們是由計算得出的并且內存緊張。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

圖1(a)使用圖像金字塔構建特征金字塔。 在每個圖像尺度上獨立地計算特征,速度很慢。 (b)最近的檢測系統(tǒng)選擇僅使用單一尺度特征來更快地檢測。 (c)一個替代方案是重新使用由ConvNet計算得到的金字塔特征層次,就好像它是一個特征化的圖像金字塔。 (d)本文提出的特征金字塔網(wǎng)絡(FPN)如(b)和(c)所示,但更準確。 在該圖中,特征圖由藍色輪廓表示,較粗的輪廓表示語義上更強的特征。

在本文中,谷歌團隊和康奈爾大學團隊利用深度卷積網(wǎng)絡((ConvNets))的特征結構的金字塔形狀,同時創(chuàng)建一個具有強大語義的特征金字塔。 為了實現(xiàn)這一目標,需要依靠一種通過自上而下的路徑和橫向連接低分辨率、語義強大的特征與高分辨率,語義薄弱的特征,將它們連接組成架構(圖1(d))。 結果是組成一個在所有級別都具有豐富的語義的特征金字塔,并且可以使用單個輸入圖像快速構建。 換句話說,本文展示了如何創(chuàng)建網(wǎng)絡中的特征金字塔,可以用來替代特征圖像金字塔而同時不犧牲速度或內存。該方法利用架構作為特征金字塔,其中每個級別獨立地做出預測(例如,對象檢測)

通過對小型,中型和大型對象(ARs,ARm和ARl)的平均回憶AR,以及COCO-style的平均回憶(AR)來進行評估。 報告每個圖像100和1000個提案的結果(AR100和AR1k)。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

表1.使用RPN的邊界框提案結果,對COCO最小值進行了評估。 所有型號都在trainval35k上訓練。 “橫向”和“自頂向下”列分別表示側向和自頂向下的連接。 列“特征”表示頂部附著的特征圖。 所有結果都基于ResNet-50,并且共享相同的超參數(shù)。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

表2.使用 Fast R-CNN 對固定的提案集(RPN,{Pk},表1(c))的對象檢測結果,在COCO最小值集上進行評估。 模型在trainval35k上訓練。 所有結果都基于ResNet-50,并且共享相同的超參數(shù)。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

表3.使用Faster R-CNN [29]的對象檢測結果對COCO最小值進行了評估。 RPN網(wǎng)絡與Fast R-CNN一致。 模型在trainval35k上進行培訓,并使用ResNet-50。

這種稱為功能金字塔網(wǎng)絡(FPN)的架構在幾個應用程序中作為通用特征提取器都顯示出了顯著的改進。在basic Faster R-CNN系統(tǒng)中使用FPN,能夠在COCO檢測基準上獲得最先進的單一模型結果,在沒有響鈴和口哨聲的情況下,超過了所有現(xiàn)有的單一模型條目,包括了COCO 2016挑戰(zhàn)賽的獲獎者。此外,該金字塔結構可以用所有尺度進行訓練,并在訓練/測試時間也可以一致的使用。 因此,F(xiàn)PN能夠比所有現(xiàn)有的方法獲得更高的精度。 此外,這種改進是在單一規(guī)?;€上不增加測試時間的情況下實現(xiàn)的。 研究者相信這些進展將有助于未來的研究和應用。該方法可以在GPU上以6 FPS運行,因此是多尺度對象檢測的實用且準確的解決方案。

論文一:Learning Features by Watching Objects Move

通過觀察物體移動來學習特征

論文作者:Deepak Pathak, Ross Girshick, Piotr Doll, Trevor Darrell, Bharath Hariharan1

Learning Features by Watching Objects Move

論文鏈接:https://arxiv.org/abs/1612.06370

論文摘要:

本文提出了一種新穎而直觀的無監(jiān)管特征學習方法。 該方法是受到人類視覺系統(tǒng)的啟發(fā)而得來的。一起移動的像素往往是同屬于一個物體的。 解析靜態(tài)場景的能力隨著時間的推移而改善,這表明基于運動的分組出現(xiàn)在早期,靜態(tài)分組將在隨后可能是基于由運動線索引導而獲取的。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

圖1.低等級的外觀線索導致錯誤的分組(右上角)。 運動可以幫助正確地分組,在一起移動的像素(左下方)將被識別為同一組的單個對象(右下)。使用無監(jiān)督的基于運動的分組來訓練ConvNet來分割靜態(tài)圖像中的對象,并顯示出網(wǎng)絡能夠學習特征,并將其應用到其他任務中。

該團隊在探討是否可以使用基于低級運動的分組線索來學習有效的視覺表示。 具體來說,他們將使用無監(jiān)督的基于運動的視頻片段來獲得分段,并將其用作“偽地面真相”來訓練卷積網(wǎng)絡,以從單個幀中分割識別對象。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

圖2.方法概述 使用運動線索來分割視頻中的對象而無需任何監(jiān)督。 然后,對ConvNet進行訓練,從靜態(tài)幀中預測這些分段,即沒有任何運動線索。 然后,將學習的到的物體表示應用到其他識別任務中。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

圖7. ConvNet上生成的圖像分段示例。 ConvNet能夠識別運動對象,并從單個框架中分割出來。 掩碼并不完美,但它們確實能捕捉到一般物體的形狀。

鑒于廣泛證據(jù)顯示,運動在人類視覺系統(tǒng)發(fā)展中發(fā)揮著關鍵作用,他們希望這種無監(jiān)督學習的直接的方法將比在文獻中研究的巧妙設計的任務更有效。 事實上,廣泛的實驗表明,用于物體檢測的轉移學習時,該方法的表現(xiàn)在多種設置中都顯著優(yōu)于以前的無監(jiān)督方法。特別是當目標任務的訓練數(shù)據(jù)很少時,即使大多數(shù)ConvNet參數(shù)被凍結,該方法也保持著良好的性能。

雷鋒網(wǎng)整理

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

Facebook 在CVPR 2017的四篇論文精選解讀|CVPR 2017

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說