丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給高婓
發(fā)送

0

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

本文作者: 高婓 2016-08-26 17:44
導(dǎo)語:本文著重介紹計算機圖像分割技術(shù)及其應(yīng)用,并對與本文密切相關(guān)的三篇論文的主要內(nèi)容做簡要概括。

聯(lián)合編譯:高斐,Blake 

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

雷鋒網(wǎng)注:Piotr Dollar于2014年成為FAIR研究科學(xué)家,主要研究領(lǐng)域為計算機視覺和機器學(xué)習(xí),曾在MSR任職三年,并建立Anchovi Labs(于2012年被Dropbox收購)。2011年在加州理工大學(xué)獲得計算機視覺實驗室博士后學(xué)位,2007年于UCSD獲得博士學(xué)位。在計算機視覺和機器學(xué)習(xí)方面已發(fā)表的最新論文有:Learning to Refine Object Segments (2016), A MultiPath Network for Object Detection (2016), Unsupervised Learning of Edges (2016), Metric Learning with Adaptive Density Discrimination (2016)等。本文著重介紹計算機圖像分割技術(shù)及其應(yīng)用,并對與本文密切相關(guān)的三篇論文的主要內(nèi)容做簡要概括。

計算機能否像人眼一樣不費吹灰之力地識別一張照片包含的許多對象嗎?

面對一個圖像,人們能夠輕松識別其中的對象,甚至能夠識別圖像中對象像素高低。在FAIR過程中,我們正在將機器視覺領(lǐng)域的研究推向一個新的發(fā)展階段——我們的目標(biāo)是使機器能夠像人一樣在像素層面理解圖像和物體。

在過去幾年里,深度卷積神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域取得的進(jìn)展和更為強大的計算架構(gòu)的出現(xiàn)為機器視覺系統(tǒng)的精度和性能帶來了突破性的提升與發(fā)展。我們目睹了圖像分類(圖像中的內(nèi)容)與對象檢測(對象的位置)兩種技術(shù)取得的巨大進(jìn)步(見下方圖像中的a,b兩個圖片)。然而,這兩種技術(shù)的發(fā)展僅僅是理解任意一幅圖像或一段視頻中最相關(guān)視覺內(nèi)容的小小開端。近來,我們正在研發(fā)設(shè)計能夠識別并分割一幅圖像中的每個對象的技術(shù),見下方圖像右側(cè)c圖片,這種技術(shù)體現(xiàn)出機器視覺系統(tǒng)的一種關(guān)鍵性能,并將帶來全新的應(yīng)用。

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

促進(jìn)我們在圖像分割技術(shù)方面取得進(jìn)步的主要新算法是與我們的Sharpmask 分割微調(diào)模塊搭配運用的Deepmask分割框架。兩種圖像分割技術(shù)的結(jié)合使得FAIR的機器視覺系統(tǒng)具備檢測與精確描述一幅圖像中每一個物體的能力。在圖像識別技術(shù)發(fā)展的最后階段,我們運用一種專業(yè)化卷積網(wǎng)絡(luò),稱之為MultiPathNet(多路徑網(wǎng)絡(luò)),旨在依照對象所屬的類別(例如,人,狗,羊)為每一個物體標(biāo)記掩碼。稍后,我們將具體介紹這種專業(yè)化卷積網(wǎng)絡(luò)的具體應(yīng)用。

當(dāng)前,我們正在為DeepMask+SharpMask和MultiPathNet編碼,我們的研究論文和與研究相關(guān)的樣本都對大眾開放,希望我們的努力能夠加速機器視覺領(lǐng)域的研究發(fā)展。我們將不斷改善這些核心技術(shù),與此同時,也將繼續(xù)發(fā)表最新研究成果,更新向該研究領(lǐng)域開放的開源工具。

在像素中尋找模式

下面我們一起來看一下如何為這些算法建模。

大致瞥一眼下方的第一張照片,左邊的一張,你看到了什么?一位攝影師正在操作他的老式相機。一塊綠草地。圖片背景里的建筑物。你也可能注意到其他無數(shù)細(xì)節(jié)。不過,一臺機器可沒有看到你描述的圖片中的這些人和物,一幅圖像被編碼成為代表每一個像素顏色值的數(shù)組,如第二張照片,右邊的一張。因而,我們該如何使機器視覺能夠深度理解一幅圖像,而不僅僅基于像素層面?

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

這可不是一項輕松的任務(wù),因為在實物背景中,對象和場景都趨向無窮變化,對象的形狀、外觀、尺寸、位置、紋理與顏色無時無刻不在變化。綜合考慮上述變化因素和實物場景的內(nèi)在復(fù)雜性、變化的背景、光線條件、世界萬物的多姿多彩,我們不難理解要使機器像人一樣深度理解每一幅圖像該是多么困難。

我們來了解一下深度卷積神經(jīng)網(wǎng)絡(luò)。深度網(wǎng)絡(luò)的架構(gòu)相對簡單,包含經(jīng)過訓(xùn)練的而非設(shè)計出的數(shù)以千萬計的參數(shù),而不是試圖為對象檢測技術(shù)程序化地定義基于規(guī)則的系統(tǒng)。這些深度卷積神經(jīng)網(wǎng)絡(luò)能夠自動從成百上千萬標(biāo)注過的實例學(xué)習(xí)模型,當(dāng)看過足夠數(shù)量類似的例子,這類網(wǎng)絡(luò)開始將學(xué)習(xí)所得的模式套用到新的圖像中。深度網(wǎng)絡(luò)被專門訓(xùn)練以便能夠回答關(guān)于圖像(分類)簡單的“是/否”問答式問題,例如,一幅圖像中是否有一頭羊?

分割物體

我們應(yīng)當(dāng)如何將深度網(wǎng)絡(luò)應(yīng)用于對象檢測與圖像分割?我們在DeepMask中運用的技術(shù)是將分割看作大量兩分法分類問題。首先,對于一幅圖像中每一(重疊)部分,我們會問:“這個部分中是否包含一個對象”?其次,倘若對于一個特定的部分,第一個問題的答案為“是”,那么我們對該部分的每一個像素提問:“這個像素是該部分內(nèi)中心物體的組成成分嗎”?我們運用深度網(wǎng)絡(luò)來回答這類簡單問答式問題,通過把我們的網(wǎng)絡(luò)設(shè)計得更為智能化,使計算方法能夠適用于每一部分和每一個像素,我們能夠快速發(fā)現(xiàn)并分割一幅圖像中的所有對象。

DeepMask運用一種極為傳統(tǒng)的前饋式深度網(wǎng)絡(luò)設(shè)計方法。在此類網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層級逐漸加深,信息將變得愈來愈抽象,所包含的語義信息也將愈來愈豐富。例如,一個深層網(wǎng)絡(luò)的初始層可能捕獲邊緣與斑點,而高級層將捕獲更多的語義概念,如動物的臉或四肢。在設(shè)計過程中,這些高級層捕獲的特征將在相當(dāng)?shù)偷目臻g分辨率條件下(由于計算原因及為了保證這些特征不隨一些像素位置的微小變化而變化)進(jìn)行計算。這一點呈現(xiàn)出掩碼預(yù)測的問題:高級層特征可以被用于預(yù)測那些用于捕獲一個對象基本形狀的掩碼,但是不能精確地捕獲對象的邊緣信息。

我們?yōu)槭裁催\用SharpMask模塊?SharpMask對DeepMask的輸出信息進(jìn)行微調(diào),生成能夠更為精確地描繪對象邊緣信息的高逼真掩碼。DeepMask在網(wǎng)絡(luò)的前饋式通道中粗略預(yù)測對象掩碼,SharpMask在深層網(wǎng)絡(luò)中使信息反向流通,并對DeepMask通過運用網(wǎng)絡(luò)中初始層捕獲的特征預(yù)測所得的信息進(jìn)行微調(diào)。我們可以如此看待該過程:為了捕獲對象的基本形狀,需要對所觀察的對象有高層次的理解(DeepMask),但是為了精確地捕獲對象的邊緣信息,需要依照像素高低反觀低層次特征(SharpMask)。從本質(zhì)上來講,運用一個網(wǎng)絡(luò)中所有層捕獲的信息,同時監(jiān)管小型額外的信息,這是我們的目標(biāo)。

下方是由DeepMask生成,SharpMask微調(diào)得到的一些實例輸出信息。為了保持所得對象形象的簡潔性,我們只展示與圖像中實際對象(人為標(biāo)注)相一致的預(yù)測所得的掩碼。需要注意的是,這一系統(tǒng)目前還不夠完備,圖像中呈現(xiàn)紅色輪廓的對象是人為標(biāo)注出的,而被DeepMask漏掉的信息。

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

給對象分類

DeepMask只能識別具體對象的類型,因而,盡管該框架能夠詳盡描述一條狗和一頭羊,卻不能對兩者的差異進(jìn)行區(qū)分。此外,DeepMask的性能并不是那么優(yōu)越,生成的圖像區(qū)域掩碼可能不會太有趣。因而,我們應(yīng)當(dāng)如何縮小相關(guān)掩碼集,進(jìn)而識別那些實際存在的對象?

正如你可能預(yù)料到的,我們將再次運用深度神經(jīng)網(wǎng)絡(luò)。給定一個由DeepMask生成的掩碼,我們訓(xùn)練一個獨立的深度網(wǎng)絡(luò),以對每一個掩碼的對象類型進(jìn)行分類(且“任意一種分類”都不是有效地答案)。我們運用一個由Ross Girshick率先提出的基本參數(shù)——區(qū)域卷積神經(jīng)網(wǎng)絡(luò),或縮寫為RCNN。RCNN由兩個階段構(gòu)成,第一個階段用于注意某些圖像區(qū)域,第二個階段運用一個深度網(wǎng)絡(luò)識別呈現(xiàn)出的對象。在研發(fā)RCNN的過程中,第一個處理階段是極為原始的,通過在RCNN第一階段運用DeepMask,并利用深度網(wǎng)絡(luò)的力量,我們在對象檢測精度方面得到了很大的提升,同時也具備了分割圖像的能力。

為了進(jìn)一步提高深度神經(jīng)網(wǎng)絡(luò)的性能,我們也聚焦于使用一種專業(yè)化的網(wǎng)絡(luò)架構(gòu)對每一種掩碼進(jìn)行分類處理(在RCNN的第二階段)。正如我們前面提到的,現(xiàn)實世界的照片所包含的對象具有尺度多,背景多,分布混亂,經(jīng)常被遮擋的特點。對于這樣的情況,標(biāo)準(zhǔn)的深度網(wǎng)絡(luò)將會出現(xiàn)技術(shù)上的難題,為了解決這一難題,我們提出了一種經(jīng)過改進(jìn)的網(wǎng)絡(luò),將其命名為多路徑網(wǎng)絡(luò)(MultiPathNet)。由其名字可以得知,多路徑網(wǎng)絡(luò)允許信息在網(wǎng)絡(luò)中沿多條路徑流通,允許這種網(wǎng)絡(luò)在多圖像尺度下和周圍的圖像背景下利用流通的信息。

總之,我們的對象檢測系統(tǒng)是一個由三個階段構(gòu)成的檢測過程:(1)DeepMask生成初始對象掩碼,(2)SharpMask對這些掩碼進(jìn)行微調(diào),(3)MultiPathNet識別每一個掩碼描述的對象。以下為我們的完整系統(tǒng)生成的一些實例輸出結(jié)果:

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

由于幾年前尚未產(chǎn)生能夠執(zhí)行該簡單操作的技術(shù),我們的對象檢測系統(tǒng)雖然不甚完美,卻也不至于低劣。

廣泛應(yīng)用

視覺識別技術(shù)具有廣泛的潛在應(yīng)用前景。研發(fā)這一現(xiàn)有的計算機視覺技術(shù),使得計算機能夠識別照片中的物體,例如,不通過給每一張照片直接添加標(biāo)簽來搜索具體圖像將會變得更為簡單。即使不考慮圖像字幕,盲人群體也能夠了解他們朋友分享的圖片信息,因為該系統(tǒng)能夠向他們傳遞這些信息。

前不久,我們已經(jīng)驗證過為盲人研發(fā)的技術(shù),盲人群體能夠借助這種技術(shù)評估照片,并描述照片的內(nèi)容。目前,當(dāng)有視覺障礙的用戶在其信息流中遇到圖像時,僅通過聽取分享照片的人的名字和“照片”兩字,便能夠輕松瀏覽Facebook中的照片。我們的目的是為盲人用戶提供更為豐富的圖片信息,例如“照片中包含沙灘,樹和三個面帶笑容的人”。此外,利用我們研發(fā)的分割技術(shù),我們設(shè)定的目標(biāo)是為盲人用戶提供身臨其境的體驗,即用戶用手指點擊圖像中的任意位置,系統(tǒng)將描述其點擊的內(nèi)容,如此用戶便能夠“看”照片。

隨著我們所研發(fā)的技術(shù)的進(jìn)步,我們將繼續(xù)改善檢測算法與分割算法。你可以想象:有一天,圖像檢測、分割與識別技術(shù)將用于增強現(xiàn)實,例如在商業(yè)、醫(yī)療衛(wèi)生及其他領(lǐng)域的應(yīng)用。

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

此外,視頻中的物體是即時移動,交互變化的,如何將這些技術(shù)應(yīng)用于視頻中,這將成為我們面臨的第二個挑戰(zhàn)。在運用計算機視覺技術(shù)看視頻,理解視頻內(nèi)的即時內(nèi)容,并對這些內(nèi)容進(jìn)行分類三個方面,我們已經(jīng)取得了一定的進(jìn)展。實時分類技術(shù)有助于挑選出Facebook中一些相關(guān)且重要的直播視頻,而將這些精準(zhǔn)的技術(shù)應(yīng)用于在時間和空間內(nèi)檢測場景,物體和動作,終有一天將會實現(xiàn)實時解說。能夠繼續(xù)推動這種最優(yōu)技術(shù)的發(fā)展,為Facebook用戶提供更好地體驗,我們?yōu)榇烁械脚d奮。

以下是對與本文內(nèi)容密切相關(guān)的三篇論文主要內(nèi)容的簡要概括:

 Facebook最新開源工具——不費吹灰之力識別圖片中的對象

學(xué)習(xí)分割候選對象(Learning to Segment Object Candidates)

摘要

近期以來對象檢測系統(tǒng)主要倚靠于兩個關(guān)鍵步驟:1.盡可能高效地被預(yù)測出一系列對象檢測提議,2.這一系列候選提議隨即被傳遞到對象分類器中。這些方法被證實在實現(xiàn)當(dāng)下最好的檢測表現(xiàn)的同時還能保持極快的速度。在本文中我們提出了一種新的方式來生成對象提議,介紹一種基于識別卷積網(wǎng)絡(luò)的方法。我們的模型結(jié)合了兩個目標(biāo)一起訓(xùn)練:給定一個圖像部分,系統(tǒng)輸出的第一部分是不知類別的分割掩碼,而系統(tǒng)輸出的第二部分是整個對象里面可能是中心的區(qū)塊部分。在測試中,模型被有效應(yīng)用到整個測試圖像中并且生成一系列的分割掩碼,它們中每一個都被分配了相應(yīng)的對象相似分值。測試表明我們的模型在對象檢測提議算法中實現(xiàn)了超過當(dāng)下最佳的表現(xiàn)結(jié)果。特別是與之前的方式對比,我們的模型使用更少的建議獲得了更好的對象檢測表現(xiàn)。另外我們的結(jié)果也表明我們的模型能推論出未知的類別(在訓(xùn)練中未曾見過的)。與之前的所有生成對象掩碼方式不同,我們并不倚靠邊緣、超像素或者其他任何形式的低階分割技術(shù)。

 Facebook最新開源工具——不費吹灰之力識別圖片中的對象


學(xué)習(xí)改善對象分割技術(shù)(Learning to Refine Object Segments)

摘要

對象分割要求對象層面的信息和低階的像素數(shù)據(jù)。對于前饋網(wǎng)絡(luò)來說這提出了一個挑戰(zhàn):卷積網(wǎng)絡(luò)中的較低層能捕獲豐富的空間信息,網(wǎng)絡(luò)中的高層對于對象級別的知識進(jìn)行編碼,但是存在姿勢和外觀等不變的因素。在本文中我們提出了增加前饋網(wǎng)絡(luò)(與一種自上而下的細(xì)化方法)來進(jìn)行對象分割。這種自下而上/自上而下的架構(gòu)能夠有效地生成高保真的對象掩碼。與跳躍連接類似的是,我們的方法利用了所有網(wǎng)絡(luò)層的特征。與跳躍連接不同的是,我們的方法不會試圖在每一層輸出獨立的預(yù)測。相反,我們在前饋傳遞中首先輸出一個初步的“掩碼”,然后在自上而下的傳遞過程中改進(jìn)掩碼(使用低階成功層級中的特征)。本方法十分簡單、迅速、有效。基于近期的DeepMask網(wǎng)絡(luò)來生成對象提議,我們實現(xiàn)了平均10-20%的準(zhǔn)確率提升。另外通過優(yōu)化整體的網(wǎng)絡(luò)架構(gòu),我們的方法SharpMask比原本的DeepMask快了50%。

Facebook最新開源工具——不費吹灰之力識別圖片中的對象


用于對象檢測的多路徑網(wǎng)絡(luò)(A MultiPath Network for Object Detection)

摘要

最近的COCO對象檢測數(shù)據(jù)集提出了幾個新的挑戰(zhàn),特別是它包含了廣泛尺度范圍的對象,更少的原型圖片,同時要求更精準(zhǔn)的定位。為了解決這些挑戰(zhàn),我們測試了基于Fast R-CNN對象檢測器的三種修改方法:1.跳躍連接給予檢測器能夠權(quán)限獲取多重網(wǎng)絡(luò)層級中的特征 2. 一個中心架構(gòu)在多重對象處理中開發(fā)出對象文本 3. 一個能提升定位的內(nèi)部損失函數(shù)以及相應(yīng)的網(wǎng)絡(luò)調(diào)整。這些調(diào)整的結(jié)果是信息能夠沿著我們網(wǎng)絡(luò)中多重路徑流動,包括多重網(wǎng)絡(luò)層級的特征以及多重物體的視圖。我們將改進(jìn)的分類器稱為“MultiPath”網(wǎng)絡(luò)。我們將MultiPath網(wǎng)絡(luò)與DeepMask對象建議方法組合起來,結(jié)合之后的系統(tǒng)在基準(zhǔn)Fast R-CNN檢測器與選擇搜索結(jié)合之后的表現(xiàn)基礎(chǔ)上提高了66%(該系統(tǒng)在COCO2015 檢測與分割挑戰(zhàn)中都獲得了第二名)。

PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

via: Facebook FAIR

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Facebook最新開源工具——不費吹灰之力識別圖片中的對象

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說