丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智慧安防 正文
發(fā)私信給余快
發(fā)送

0

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

導(dǎo)語:高分辨率網(wǎng)絡(luò),重新定義新一代視覺識別通用網(wǎng)絡(luò)結(jié)構(gòu)。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

2020 年 8 月 7 日,第五屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2020)在深圳正式開幕。

CCF-GAIR 2020 峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。

作為中國最具影響力和前瞻性的前沿科技活動(dòng)之一,CCF-GAIR 大會(huì)已經(jīng)度過了四次精彩而又輝煌的歷程。

在大會(huì)第二天的「視覺智能?城市物聯(lián)」專場上,微軟亞洲研究院首席研究員王井東分享了其在新一代視覺識別網(wǎng)絡(luò)結(jié)構(gòu)上的研究成果。

王井東介紹,目前學(xué)界的網(wǎng)絡(luò)結(jié)構(gòu)都是圍繞分類任務(wù)而發(fā)明,除了分類以外,在計(jì)算機(jī)視覺里面還有其它的重要任務(wù),比如圖像分割、人臉關(guān)鍵點(diǎn)的檢測、人體姿態(tài)估計(jì)、目標(biāo)檢測等等。

下一代的網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的呢?是否適用于更為廣泛的視覺識別問題?

王井東首先介紹了分類網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)高分辨率表征的方式,是通過上采樣的方法,包括兩個(gè)步驟,第一個(gè)步驟是分類的網(wǎng)絡(luò)架構(gòu),表征空間尺度開始比較大,然后慢慢變小。第二個(gè)步驟,通過上采樣的方法逐步從低分辨率恢復(fù)高分辨率。這樣的方法獲得的特征空間精度較弱。

而王井東團(tuán)隊(duì)研發(fā)的高分辨率網(wǎng)絡(luò)架構(gòu)(HRNet)沒有沿用以前的分類架構(gòu),也不是從低分辨率恢復(fù)到高分辨率,自始至終維持高分辨率。

他們讓高中低分辨率不停地交互,使得高分辨率可以拿到低分辨率語義性比較強(qiáng)的表征,低分辨率可以拿到高分辨率的空間精度比較強(qiáng)的表征,不停地融合,最終取得更強(qiáng)的高分辨率表征。

在人體姿態(tài)、分割、人臉關(guān)鍵點(diǎn)檢測、目標(biāo)檢測等任務(wù)中,HRNet從參數(shù)量、計(jì)算量以及最終結(jié)果看,高分辨率結(jié)構(gòu)都非常有優(yōu)勢。HRNet在人體姿態(tài)估計(jì)的任務(wù)上,已經(jīng)成為標(biāo)準(zhǔn)的方法;在分割任務(wù)上,由于其更好的性能,也被大家廣泛使用。

以下是王井東大會(huì)現(xiàn)場全部演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理及編輯:

注:完整版演講PPT可關(guān)注公眾號「AI掘金志」回復(fù)“王井東”獲取。

非常榮幸能夠在這里跟大家分享我們的工作,今天我報(bào)告的題目是“高分辨率網(wǎng)絡(luò),一種面向視覺識別的通用網(wǎng)絡(luò)結(jié)構(gòu)”。

在計(jì)算機(jī)視覺里面,視覺識別是一個(gè)非常重要的領(lǐng)域,這里面我列舉了幾種代表性的研究課題:圖像分類、目標(biāo)檢測、圖像分割、人臉關(guān)鍵點(diǎn)的檢測和人體關(guān)鍵點(diǎn)的檢測。

從2012年以來,隨著AlexNet橫空出世,深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域成為主流的方法。2014年,谷歌發(fā)明出了GoogleNet,牛津大學(xué)發(fā)明了VGGNet,2015年微軟發(fā)明了ResNet,2016年康奈爾大學(xué)和清華大學(xué)發(fā)明了DenseNet,這幾個(gè)結(jié)構(gòu)都是圍繞分類任務(wù)而發(fā)明的網(wǎng)絡(luò)結(jié)構(gòu)。

除了分類以外,在計(jì)算機(jī)視覺里面還有其它的任務(wù),比如說圖像分割、人臉關(guān)鍵點(diǎn)的檢測、人體姿態(tài)估計(jì)等等。

下一代的網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的?是否適用于更為廣泛的視覺識別問題?

在解答這些問題之前,我們先了解分類網(wǎng)絡(luò)、我們?yōu)槭裁刺岢鲞@樣的問題,以及現(xiàn)在的分類網(wǎng)絡(luò)存在的問題。

         微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

 

LeNet-5分類網(wǎng)絡(luò)是1998年發(fā)明的一種網(wǎng)絡(luò)結(jié)構(gòu)(如上圖),包括一系列減小空間大小的過程,具體來講就是把空間從大的特征變成小的特征,然后通過變換的向量,最后進(jìn)行分類。

前面提到的幾個(gè)結(jié)構(gòu),包括GoogleNex、VGGNet、ResNet等等,都是通過這種方式,逐步減小空間的大小,最終得到一個(gè)低分辨率的表征。低分辨率的表征在圖像分類任務(wù)中是足夠的,因?yàn)樵趫D像分類里面,只需要給一個(gè)全局的標(biāo)簽,而不需要詳細(xì)的空間信息,我們稱之為空間粗粒表征的學(xué)習(xí)。

但是在其它任務(wù)中,比如檢測,我們需要知道檢測框的空間位置,比如分割,我們需要每個(gè)像素的標(biāo)簽,在人臉和人體的關(guān)鍵點(diǎn)的檢測中,我們需要關(guān)鍵點(diǎn)的空間位置,這樣一系列的任務(wù)實(shí)際上需要空間精度比較高的表征,我們稱之為高分辨率表征。

目前業(yè)內(nèi)學(xué)習(xí)高分辨率表征有幾個(gè)原則,一般是以分類的網(wǎng)絡(luò)架構(gòu)作為主干網(wǎng)絡(luò),在此基礎(chǔ)上學(xué)習(xí)一些高分辨率的表征。

學(xué)習(xí)高分辨率表征,有一種上采樣的方法,包括兩個(gè)步驟,第一個(gè)步驟是分類的網(wǎng)絡(luò)架構(gòu),表征開始比較大,然后慢慢變??;第二個(gè)步驟,通過上采樣的方法逐步從低分辨率恢復(fù)高分辨率。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

常見的網(wǎng)絡(luò)架構(gòu),比如U-Net,主要應(yīng)用在醫(yī)學(xué)圖像,SegNet主要是用于計(jì)算機(jī)視覺領(lǐng)域,這幾個(gè)結(jié)構(gòu)看起來很不同,其實(shí)本質(zhì)都一樣。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

如此一來,分辨率開始高,然后降低了,然后升高。過程中,先失去了空間精度,然后慢慢恢復(fù),最終學(xué)到的特征空間精度較弱。

 

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

為了解決這個(gè)問題,我們提出了一種新型的高分辨率表征學(xué)習(xí)方法,簡稱為HRNet。HRNet可以解決前面提到的從AlexNet到DenseNet都存在的問題,我們認(rèn)為下一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)是HRNet。

HRNet與以前的網(wǎng)絡(luò)結(jié)構(gòu)不同,它不是從分類任務(wù)出發(fā),它可以解決更廣泛的計(jì)算機(jī)視覺問題。

我們的目的是學(xué)習(xí)一個(gè)空間精度強(qiáng)的表征,我們設(shè)計(jì)的HRNet不是沿用以前的分類結(jié)構(gòu),也不是從低分辨率恢復(fù)到高分辨率,而是從零開始,自始至終都維持高分辨率,體現(xiàn)了空間分辨率較強(qiáng)的表征。

       微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020    

這個(gè)結(jié)構(gòu)是如何設(shè)計(jì)?作為對比,我們先分析分類的網(wǎng)絡(luò)結(jié)構(gòu)原理。

在下圖的例子里,有高分辨率的卷積(箭頭代表卷積等的計(jì)算操作,這些框是表征),有中等分辨率的卷積,最終得到低分辨率的表征。分類網(wǎng)絡(luò)中,這三路是串聯(lián)的,現(xiàn)在我們把這三路并聯(lián),讓每一路前新增加一路,最終拿到一個(gè)高分辨率的表征。

  微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020       這樣大家會(huì)有疑問,三路是獨(dú)立的,除了新增加的相關(guān)聯(lián)之外,其它的都不產(chǎn)生關(guān)系,這樣會(huì)損失什么?在低分辨率方面,它可以學(xué)習(xí)到很好的語義信息,在高分辨率里,它的空間精度非常強(qiáng),這三路之間的信息沒有形成互補(bǔ)。

我們采用的方法,是讓三路不停地交互,使得高分辨率可以獲得低分辨率語義信息較強(qiáng)的表征,低分辨率可以獲得高分辨率的空間精度較強(qiáng)的表征,不停地融合,最終取得更強(qiáng)的高分辨率表征。

       微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

簡單來講,以前的高分辨率是通過升高、降低再升高獲得,我們通過將不同分辨率的卷積由串聯(lián)變成并聯(lián),自始至終保持高分辨率,并且還加入不同分辨率之間的交互,使得高分辨率表征和低分辨率表征的互動(dòng)變強(qiáng),獲得對方的優(yōu)勢特征,最終獲得非常強(qiáng)的高分辨率表征。

以上是設(shè)計(jì)方法,下面看看我們最終設(shè)計(jì)的網(wǎng)絡(luò)例子。

 HRNet實(shí)際上固定了它的深度,把這個(gè)結(jié)構(gòu)分成若干個(gè)模塊,每個(gè)模塊是由若干個(gè)可重復(fù)的組織設(shè)計(jì)出來的。比如第三個(gè)部分,它由4個(gè)模塊形成。

如何變化這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)適應(yīng)不同的需求?

我們采用變化寬度的方式。與ResNet比,這個(gè)結(jié)構(gòu)中的寬度小很多,比如之前ResNet的寬度是256,HRNet的寬度是32-48。正因?yàn)檫@樣的設(shè)計(jì),我們最終得到的參數(shù)和計(jì)算復(fù)雜度與ResNet的結(jié)果是可比的。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

下面了解下HRNet在不同任務(wù)中的實(shí)驗(yàn)性能。

人體姿態(tài)估計(jì)中,每個(gè)圖片中人數(shù)很多,我們的任務(wù)是要找出每個(gè)人的關(guān)鍵點(diǎn),并區(qū)分不同人的關(guān)鍵點(diǎn)。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020         

做法有兩種,一種方法自上而下(Top-Down)的方法,首先使用一種檢測器,把人檢測出來,然后每個(gè)人單獨(dú)做關(guān)鍵點(diǎn)的檢測。另外一種方法自下而上(Bottom-Up),直接檢測關(guān)鍵點(diǎn),然后進(jìn)行一些聚類的操作,把不同人再分開來。

我們先展看看自上而下方法的結(jié)果,下圖左邊是基于ResNet的方法,右邊的是HRNet的方法,比較的指標(biāo)是關(guān)鍵點(diǎn)位置尋找準(zhǔn)確與否。我們的結(jié)果是74.9%,結(jié)果要好于ResNet,同時(shí)參數(shù)量上,ResNet是68.5,我們是28.5。通過進(jìn)一步加寬HRNet網(wǎng)絡(luò)結(jié)構(gòu)后,可以進(jìn)一步提高結(jié)果。     

這個(gè)方法自從去年在CVPR發(fā)表以來,已經(jīng)成為在人體姿態(tài)構(gòu)建里一個(gè)標(biāo)準(zhǔn)的網(wǎng)絡(luò),一些文章或者比賽都會(huì)采用HRNet架構(gòu)。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

在分割任務(wù)中。采用街景分割的例子,街景分割在自動(dòng)駕駛、無人駕駛、輔助駕駛中都非常重要。

       微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020      

以一個(gè)非常重要的數(shù)據(jù)集Cityscapes validation比較,其中,mIoU是衡量分割好壞的一個(gè)非常重要的指標(biāo),從下圖看到,HRNet-W40的結(jié)果優(yōu)于其他方法,而體現(xiàn)計(jì)算量的GFLOPS指標(biāo)中,HRNet是三位數(shù),其他方法大多為四位數(shù),HRNet計(jì)算量更小。在參數(shù)量、計(jì)算量上,HRNet的過程和最終結(jié)果都具有優(yōu)勢,將網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模變大后,優(yōu)勢進(jìn)一步提高。

       微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020      

Cityscapes Test數(shù)據(jù)集的結(jié)果看,HRNet的表現(xiàn)也是最好的。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

在今年4月份之前,我們在Cityscapes分割的榜單中排名第一。5月份,英偉達(dá)的一個(gè)新方法排名第一,了解過他們的方法后,發(fā)現(xiàn)它最終的結(jié)果是基于HRNet,再加上它的模塊,從這個(gè)角度看,說明HRNet的影響力在逐步變大。

   微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020  

人臉的關(guān)鍵點(diǎn)檢測應(yīng)用非常多,娛樂、短視頻中的美顏功能,都需要人臉關(guān)鍵點(diǎn)的檢測,定位出眼睛、鼻子等的位置。     

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

下圖展示的是在一個(gè)最新數(shù)據(jù)集上的結(jié)果,人臉關(guān)鍵點(diǎn)上有98個(gè)點(diǎn),在測試數(shù)據(jù)集上,指標(biāo)衡量的是預(yù)測的點(diǎn)與人工標(biāo)注的點(diǎn)之間的差距,HRNet的數(shù)值比之前的都小,差距最小。除此之外還列出了6種不同復(fù)雜條件,比如人臉姿態(tài)的變化、表情的變化、光照、是否化妝、是否遮擋,圖片清晰程度,這系列的情況下,我們的結(jié)果都比以前的方法好。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

 下面再看我們的方法用在目標(biāo)檢測任務(wù)上。我們需要把物體框出來,同時(shí)要預(yù)測框中的物體種類。          

在最流行的Faster R-CNN框架里,我們用HRNet和ResNet的方法進(jìn)行對比,為保證公平,分成4組,在每組參數(shù)量和計(jì)算量可比的情況下進(jìn)行對比。

前三組在Faster R-CNN上比較,最后一個(gè)在Cascade R-CNN上比較,藍(lán)色數(shù)值表示預(yù)測的整體好壞情況,從結(jié)果看,HRNet都遠(yuǎn)優(yōu)于ResNet。除此以外,HRNet有非常好的高分辨率表征,在小物體上更有優(yōu)勢。

        微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

實(shí)體分割中Instance Segmentation,需要表征出物體的輪廓,而不僅僅是一個(gè)框,我們在Mask R-CNN中和ResNet對比,我們的表現(xiàn)有提高,尤其在小物體上體現(xiàn)更加明顯。當(dāng)然,僅僅在Mask框架里做不能說明問題,所以我們也會(huì)在發(fā)表的研究里列舉其他的方法,結(jié)果都比ResNet的表現(xiàn)好,這里不一一列舉。

  微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020      

HRNet出來時(shí),有人懷疑是否其參數(shù)量、計(jì)算量變大,事實(shí)上,我們并沒有增加參數(shù)量和計(jì)算量,或者說增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度來提升性能,比如上圖中,各項(xiàng)參數(shù)中兩者計(jì)算量差不多,但是結(jié)果是HRNet更好。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

下面我們看看分類。

在視覺領(lǐng)域,預(yù)訓(xùn)練非常重要,它需要幫網(wǎng)絡(luò)進(jìn)行初始化,通過遷移學(xué)習(xí)應(yīng)用到其他領(lǐng)域,或者給網(wǎng)絡(luò)結(jié)構(gòu)做更好的初始化以幫助優(yōu)化。

當(dāng)初我們做這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的目的是為了提出一個(gè)高分辨率表征,以幫助分類以外的任務(wù)。后來發(fā)現(xiàn),在同等參數(shù)量和計(jì)算量基礎(chǔ)上,HRNet的結(jié)果比ResNet好。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

2012年以來AlexNet、GoogleNet、VGGNet、ResNet、DenseNet等是為了做分類任務(wù),HRNet除了可以做分類任務(wù),且性能很好,還可以做分割、檢測、識別等等各種任務(wù),面部檢測、行人的檢測、高空圖像識別,衛(wèi)星圖象識別,也都有很好的效果。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020            

HRNet去年10月推出后,被很多比賽的參賽者使用。比如去年ICCV keypoint and densepose比賽中,幾乎所有參賽選手都使用了HRNet,谷歌、商湯團(tuán)隊(duì)用HRNet做panoptic segmentation 和 openimage instance segmentation比賽,也取得了最好的效果。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

最近大家對網(wǎng)絡(luò)結(jié)構(gòu)搜索了解較多,既然有了搜索,為什么還要有網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)?網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)實(shí)際上是為搜索提供了一個(gè)空間,這也是非常重要的。今年CVPR上的一篇來自谷歌的文章,它的出發(fā)點(diǎn)與HRNet非常相似,認(rèn)為以前的網(wǎng)絡(luò)都是通過空間變大然后變小再恢復(fù),這樣對一些識別和檢測任務(wù)非常不友好,他設(shè)計(jì)一個(gè)NAS的算法,來解決這個(gè)問題。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

網(wǎng)絡(luò)結(jié)構(gòu)除了以上所述HRNet一系列東西之外,還有很多非常重要的研究,比如怎么利用人的常識幫助網(wǎng)絡(luò)設(shè)計(jì),怎么設(shè)計(jì)輕量化網(wǎng)絡(luò),怎么與計(jì)算機(jī)硬件聯(lián)系一起。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

計(jì)算機(jī)視覺中,怎么為具體的任務(wù)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的研究也非常多。我給大家簡單介紹一下我們在ECCV 2020和CVPR 2020的關(guān)于Head Architecture Design的工作,主要研究如何把人的常識加進(jìn)設(shè)計(jì)中。

           微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

這里給大家講一下語義分割,語義分割要預(yù)測每個(gè)像素點(diǎn)的標(biāo)簽。深度學(xué)習(xí)在該領(lǐng)域內(nèi)的應(yīng)用非常廣泛, FCN是一個(gè)標(biāo)準(zhǔn)方法,一個(gè)圖像經(jīng)過一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),最后預(yù)測像素點(diǎn)的標(biāo)簽。由于每個(gè)像素點(diǎn)本身沒有標(biāo)簽,它的標(biāo)簽來自對周圍信息的判斷,所以通常會(huì)加上上下文的信息。

在介紹我們的方式之前,大家可以了解下以前的方法。

以前的方法主要是Spatial context(空間上下文)比如有PPM、ASPP,它是在像素點(diǎn)周圍有規(guī)律地選出一些像素點(diǎn),以求得當(dāng)前像素點(diǎn)表征,進(jìn)而進(jìn)行標(biāo)注,我們把它稱為空間式。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

我們的方法是Object context(對象上下文),它的出發(fā)點(diǎn)非常簡單,正如前面提到,像素點(diǎn)本身沒有標(biāo)簽,標(biāo)簽來自于這個(gè)像素點(diǎn)所在的物體,比如下圖紅色的點(diǎn),這個(gè)位置很難有標(biāo)簽,它的標(biāo)簽來自于這個(gè)車。運(yùn)用這個(gè)出發(fā)點(diǎn),我們思考路徑是:能不能拿到這個(gè)紅色像素點(diǎn)所在的物體特征,來幫助表達(dá)這個(gè)紅色的像素點(diǎn)。基于這個(gè)出發(fā)點(diǎn),我們提出了OCR方法。

 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

            

OCR的方法涉及雞生蛋還是蛋生雞的問題。我們事先并不知道分割,是先估計(jì)一個(gè)粗略的分割,有一個(gè)當(dāng)前的表達(dá),比如下圖,取紅色像素點(diǎn)的特征,把它輸入到模塊里,得到紅色像素點(diǎn)當(dāng)前的特征和其它的若干特征(K object regions),然后把這些特征經(jīng)過變換,算出它們之間的相似度,根據(jù)相似度,經(jīng)過加權(quán)池化(weighted pooling),然后得到像素點(diǎn)的表征,根據(jù)這個(gè)表征以及以前的表征一起進(jìn)行預(yù)測。

          微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020  

 

 

從數(shù)據(jù)看,HRNet+OCR的方法的結(jié)果為82.5,這是發(fā)表文章時(shí)業(yè)界最好的結(jié)果。

             微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

另外簡短介紹一下自下而上姿態(tài)預(yù)測(Bottom-Up Pose Estimatiom)中的工作。

它不需要人體的檢測就可以直接預(yù)測人體的關(guān)鍵點(diǎn)。

其中有個(gè)關(guān)于人體大小不一的問題,以前的方法沒有確切的解決方式,我們提出“高分辨率特征金字塔”的方法。把圖形輸入到HRNet中做一個(gè)表征,從小的特征中分辨大的,從大的特征里面分辨小的,這個(gè)方法的結(jié)果表現(xiàn)也是非常好。

    微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020       

最后簡單總結(jié)一下,我講的主要是HRNet,作為一個(gè)通用的網(wǎng)絡(luò)結(jié)構(gòu),給大家展示了在視覺分割、檢測、人體關(guān)鍵點(diǎn)、人臉關(guān)鍵點(diǎn)的預(yù)測等的原理,一系列的結(jié)果都比ResNet好,目前已經(jīng)成為一個(gè)標(biāo)準(zhǔn)的方法。除此以外,我們借助基于具體任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),比如加上OCR的方法、高分辨率特征金字塔(Higher-Resolution Feature Pyramid)的方法取得的效果都非常好。 微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

 我們也提供了代碼。

微軟亞洲研究院王井東:下一代視覺識別的基本網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的? | CCF-GAIR 2020

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

未來城市主編

關(guān)注智能汽車相關(guān)的一切,歡迎交流 | 微信:Yukuaikuaier
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說