丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

ICCV 2021 | 漸進(jìn)采樣的vision transformer

本文作者: 我在思考中 2021-08-25 11:04
導(dǎo)語(yǔ):本文提出的progressive sampling模塊,在每次迭代都會(huì)利用全局信息對(duì)采樣位置進(jìn)行更新,從而使得網(wǎng)絡(luò)可以逐漸關(guān)注到感興趣的信息。

ICCV 2021 | 漸進(jìn)采樣的vision transformer

作者 | 岳曉宇
編輯 | 王曄
摘要:Transformer這種具有強(qiáng)力全局編碼能力的網(wǎng)絡(luò)最近被應(yīng)用于計(jì)算機(jī)視覺任務(wù),例如ViT直接使用了一個(gè)Transformer來解決圖像分類任務(wù)。為了處理二維圖像數(shù)據(jù),ViT簡(jiǎn)單地將圖像分割,并映射成一個(gè)一維的序列。這種簡(jiǎn)單的分割使得圖像固有的結(jié)構(gòu)信息丟失,使得網(wǎng)絡(luò)很難關(guān)注到重要的物體區(qū)域。為了解決這個(gè)問題,本文提出了一種迭代漸進(jìn)采樣策略來定位重要區(qū)域。具體來說,本文提出的progressive sampling模塊,在每次迭代都會(huì)利用全局信息對(duì)采樣位置進(jìn)行更新,從而使得網(wǎng)絡(luò)可以逐漸關(guān)注到感興趣的信息。

ICCV 2021 | 漸進(jìn)采樣的vision transformer

論文鏈接:https://arxiv.org/pdf/2108.01684.pdf


作者:岳曉宇(博智感知交互研究中心);孫書洋(牛津大學(xué));曠章輝(商湯科技);魏萌(清華大學(xué));Philip Torr(牛津大學(xué));張偉(商湯科技、上海交通大學(xué)清源研究院);林達(dá)華(香港中文大學(xué)、博智感知交互研究中心)。 

在最近的研究中,具有強(qiáng)大全局編碼能力的Transformer結(jié)構(gòu)開始被用于諸如圖像分類、目標(biāo)檢測(cè)等視覺任務(wù)。
我們知道Transformer的計(jì)算復(fù)雜度與輸入序列長(zhǎng)度的平方成正比,直接使用圖像作為輸入是不現(xiàn)實(shí)的。因而ViT使用了一種簡(jiǎn)單的方法對(duì)輸入圖像進(jìn)行處理,如圖一(a), ViT直接將圖像進(jìn)行規(guī)則的劃分,每一部分圖像(patch)直接映射成一個(gè)token。雖然這種簡(jiǎn)單的劃分極大的減少了運(yùn)算量并取得了很好的效果,但是它的缺點(diǎn)也是顯而易見的,首先這種劃分可能會(huì)將關(guān)鍵的部分劃分到不同的patch,例如圖一(a)中的貓頭被強(qiáng)行分割成了不同的部分,其次這種劃分是與圖像的內(nèi)容無關(guān)的,大部分patch的內(nèi)容都是背景。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
圖一
在本文中,我們提出了一種progressive sampling(PS)模塊,來解決直接劃分patch帶來的問題。PS模塊通過一種迭代的方式對(duì)圖像進(jìn)行采樣,它是基于transformer的,我們直接將它用于ViT中,得到了PS-ViT。如圖一(b),我們的PS模塊對(duì)輸入進(jìn)行點(diǎn)采樣,并在每次迭代中,為每個(gè)采樣點(diǎn)預(yù)測(cè)一個(gè)偏移量,對(duì)采樣位置進(jìn)行更新,由此每個(gè)采樣點(diǎn)可以逐步地逼近圖像中的關(guān)鍵區(qū)域。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
圖二
PS模塊的結(jié)構(gòu)如圖二所示。整個(gè)網(wǎng)絡(luò)中PS模塊一共進(jìn)行N次迭代,F(xiàn)是輸入的圖像特征圖,pt是當(dāng)前迭代次數(shù)t的采樣位置,每個(gè)采樣點(diǎn)在F中單獨(dú)采樣,由于采樣點(diǎn)的坐標(biāo)是非整數(shù),因而我們采用了雙線性插值來進(jìn)行點(diǎn)采樣。采樣出的特征與采樣點(diǎn)的位置編碼和上一次迭代的輸出進(jìn)行相加,并將結(jié)果送入一層Transformer encoder,得到本次迭代的輸出Tt。值得注意的是,由于我們的采樣位置是非整數(shù),因而這里不能用ViT中基于patch index的位置編碼,我們直接使用了一層全連接層來得到采樣點(diǎn)的位置編碼。當(dāng)前迭代的輸出Tt經(jīng)過一層全連接層,預(yù)測(cè)得到了ot為每個(gè)采樣位置對(duì)應(yīng)的偏移量,與pt相加得到了下一次迭代的采樣位置。對(duì)于第一次迭代,初始的采樣位置如圖一(b)所示,為平均劃分的每個(gè)patch的中心點(diǎn)。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
圖三
PS-ViT的整體結(jié)構(gòu)如圖三所示。網(wǎng)絡(luò)主要包括四個(gè)部分:1)特征提取模塊;2)PS模塊;3)ViT;4)分類模塊。其中特征提取模塊是用來生成特征圖F的,這個(gè)模塊是幾層卷積,因而F中的每個(gè)像素可以對(duì)應(yīng)到原圖中的一個(gè)patch,對(duì)F中的點(diǎn)采樣可以近似為對(duì)原圖中的patch進(jìn)行采樣。ViT保持了原版設(shè)計(jì),我們同樣在輸入上添加了一個(gè)classification token,但是這里并未使用位置編碼,因?yàn)槲恢眯畔⒃赑S模塊中已經(jīng)被添加了。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
表一
不同的PS-ViT配置如表一所示,N是PS模塊迭代的次數(shù),Nv是ViT的層數(shù),我們保持兩者相加等于一個(gè)固定數(shù)值來限制整個(gè)網(wǎng)絡(luò)中transformer的層數(shù)。C是特征的維度,M是multi-head self-attention的head數(shù)量??紤]到PS模塊中的每次迭代都具有相同的輸入F,我們嘗試在PS模塊中共享參數(shù),即不同的迭代中使用相同的encoder和全連接層,以此來減少網(wǎng)絡(luò)的參數(shù)量,表一中的十字標(biāo)識(shí)表示在PS模塊中共享參數(shù),可以看到大約25%的參數(shù)量可以被節(jié)省。我們?cè)诰W(wǎng)絡(luò)結(jié)構(gòu)后添加數(shù)字表示橫向和縱向采樣點(diǎn)數(shù)量,例如PS-ViT-B/14表示使用了14*14個(gè)采樣點(diǎn)。
PS-ViT在ImageNet上的效果如表二所示,PS-ViT-Ti/14與ResNet-18相比,在減少了6.9M參數(shù)量和0.2B FLOPs的同時(shí)獲得了5.8%的top-1精度提升。PS-ViT-B/10與ResNet-50相比也有較大提升。與基于Transformer的方法相比,PS-ViT同樣具有優(yōu)勢(shì)。PS-ViT-B/18取得了82.3%的top-1精度,在高于DeiT-B的同時(shí),只需要21M參數(shù)量和8.8B FLOPs。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
表二
在本文中我們?cè)O(shè)計(jì)了實(shí)驗(yàn)來驗(yàn)證PS模塊的有效性。在表三中我們驗(yàn)證了不同的采樣點(diǎn)數(shù)量對(duì)效果的影響,在表四中驗(yàn)證了PS模塊迭代次數(shù)的影響。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
表三
表三中的n表示沿著x方向和y方向分別的采樣點(diǎn)數(shù)量,可以看到,隨著采樣點(diǎn)數(shù)量增加PS-ViT的效果和FLOPs都逐漸提高,當(dāng)n>16時(shí)提高變得不明顯,我們選擇了14作為默認(rèn)值。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
表四
表四中的N表示PS模塊迭代次數(shù),在這個(gè)實(shí)驗(yàn)中我們保持整個(gè)模型中總的transformer層數(shù)不變。當(dāng)N=1時(shí),表示只使用平均分布的初始點(diǎn)進(jìn)行采樣,并未對(duì)采樣位置進(jìn)行更新??梢钥吹诫S著迭代次數(shù)增加,PS-ViT效果逐漸提高。當(dāng)N=8時(shí)效果最好,當(dāng)N大于8時(shí)效果開始下降。由于我們保持整個(gè)網(wǎng)絡(luò)的transformer層數(shù)為14,增加迭代次數(shù)會(huì)導(dǎo)致ViT模塊層數(shù)減少,從而影響效果。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
表五
表五顯示了PS模塊不同的迭代中共享參數(shù)的結(jié)果。可以看到在PS模塊中共享參數(shù)可以在效果只下降很少的情況下,極大的減少參數(shù)量。這種特性使得PS-ViT更適合在嵌入式設(shè)備中使用。
ICCV 2021 | 漸進(jìn)采樣的vision transformer
圖四
圖四中我們對(duì)PS模塊預(yù)測(cè)出的偏移量進(jìn)行了可視化。圖中每個(gè)箭頭的起點(diǎn)為初始化的采樣點(diǎn),可以看到它們是平均分布的。箭頭的終點(diǎn)是PS模塊結(jié)束時(shí),最后一次迭代的采樣位置??梢钥吹讲蓸游恢么篌w上是向著圖像中的前景部分移動(dòng),并最終收斂到關(guān)鍵部分(例如雞頭)附近??梢暬f明了我們PS模塊的有效性。
PS-ViT的代碼已經(jīng)開源: https://github.com/yuexy/PS-ViT ,歡迎大家一起交流。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)



雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICCV 2021 | 漸進(jìn)采樣的vision transformer

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說