ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

本文作者：我在思考中

2021-09-01 10:42

導(dǎo)語(yǔ)：本文提出了域?qū)僦R(shí)傳播網(wǎng)絡(luò)來(lái)引導(dǎo)無(wú)偏知識(shí)的學(xué)習(xí)。作者提出了變分關(guān)注技術(shù)，該技術(shù)可以顯式地對(duì)不同數(shù)據(jù)域構(gòu)建相應(yīng)的關(guān)注分布，從而有效的提取和學(xué)習(xí)域?qū)俚男畔ⅰ?

作者 | 陳炳輝

編輯 | 王曄

本文是對(duì)發(fā)表于計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議ICCV2021的論文“Variational Attention: Propagating Domain-Specific Knowledge for Multi-Domain Learning in Crowd Counting”的解讀

作者：Binghui Chen*, Zhaoyi Yan*, Ke Li, Pengyu Li, Biao Wang, Wangmeng Zuo, Lei Zhang

論文鏈接：https://arxiv.org/abs/2108.08023

背景&摘要

在人群密度估計(jì)任務(wù)中，標(biāo)注工作十分困難且費(fèi)時(shí)，導(dǎo)致當(dāng)前的公開(kāi)學(xué)術(shù)集規(guī)模都較小且數(shù)據(jù)的分布差異較大（圖1：密度差異，場(chǎng)景差異，視角差異等等）。因此，為了學(xué)習(xí)到泛化能力較強(qiáng)、通用性較高的人群密度估計(jì)模型，同時(shí)聯(lián)合多種數(shù)據(jù)域知識(shí)來(lái)監(jiān)督模型的訓(xùn)練成為了一種可能的方案。然而，直接利用聯(lián)合數(shù)據(jù)訓(xùn)練模型會(huì)導(dǎo)致模型的選擇性學(xué)習(xí)行為，即模型只對(duì)聯(lián)合數(shù)據(jù)中的“主導(dǎo)”數(shù)據(jù)部分進(jìn)行了有效的學(xué)習(xí)，而忽略了其余部分?jǐn)?shù)據(jù)帶來(lái)的域知識(shí)，從而導(dǎo)致模型表現(xiàn)出在不同域上性能變化的不一致性（表1：部分域性能提升，部分域性能降低）。

鑒于此，本文提出了域?qū)僦R(shí)傳播網(wǎng)絡(luò)（DKPNet）來(lái)引導(dǎo)無(wú)偏知識(shí)的學(xué)習(xí)。其中，作者提出了變分關(guān)注技術(shù)（Variational Attention，VA），該技術(shù)可以顯式地對(duì)不同數(shù)據(jù)域構(gòu)建相應(yīng)的關(guān)注分布，從而有效的提取和學(xué)習(xí)域?qū)俚男畔ⅰ?/span>此外，作者進(jìn)一步提出了本征變分關(guān)注技術(shù)（Intrinsic Variational Attention， InVA）來(lái)解決覆蓋域和子域的問(wèn)題。作者對(duì)DKPNet在常用的人群密度估計(jì)數(shù)據(jù)集ShanghaiTechA/B, UCF-QNRF以及NWPU上進(jìn)行有效的評(píng)估。

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

圖1：不同數(shù)據(jù)域的分布差異

表1：直接聯(lián)合訓(xùn)練帶來(lái)的性能變化的不一致性

方法介紹

為了解決不同數(shù)據(jù)域分布差異帶來(lái)的難題，我們需要克服深度模型的選擇性學(xué)習(xí)行為，即只學(xué)習(xí)數(shù)據(jù)域中占“主導(dǎo)”地位的信息和知識(shí)。此外，考慮到CNN中通道信息通常是表達(dá)模式概念以及抽象表征的，而空間信息通常描述的是位置信息，因此為了建模域?qū)俚男畔?，作者選取在通道信息上進(jìn)行域?qū)僦R(shí)的建模。如圖所示：

圖2：變分關(guān)注模型VA

首先假設(shè)我們能通過(guò)通道信息來(lái)進(jìn)行域的劃分，即需要引入channel-attention機(jī)制來(lái)區(qū)分和引導(dǎo)不同域的學(xué)習(xí)，然而普通的channel-attention并不能顯式地區(qū)分域?qū)俚闹R(shí)，因此需要人為地施加約束來(lái)提供引導(dǎo)。鑒于此，本文參考VAE的思想，首先引入潛變量z來(lái)建模不同數(shù)據(jù)域，根據(jù)變分思想，為了控制輸出的關(guān)注分布 ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型，作者最大化條件概率的對(duì)數(shù)似然；

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

其中第一項(xiàng)用于提高預(yù)測(cè)的準(zhǔn)確性，在人群密度估計(jì)中，將其寫(xiě)作：

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

第二項(xiàng)描述的是變分分布 ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型和先驗(yàn)分布的KL散度。此外由于不同域的分布不同，本文采用混合高斯分布作為先驗(yàn)：

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

由此，KL散度變?yōu)椋?/span>

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

為了學(xué)習(xí)到自適應(yīng)的域參數(shù)，將均值和協(xié)方差參數(shù)設(shè)置為可學(xué)習(xí)的。并對(duì)其施加如下約束來(lái)防止平凡解：

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

最終VA如圖2所示，綜合loss如下：

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

然而，上述的推理是基于一個(gè)假設(shè)，即不同數(shù)據(jù)集當(dāng)作一個(gè)單獨(dú)的數(shù)據(jù)域，這個(gè)假設(shè)在實(shí)際中并不能被很好地支持，例如NWPU數(shù)據(jù)中存在較多的子域，且不同數(shù)據(jù)集之間還可能存在重合的分布。鑒于此，作者基于VA又提出了InVA來(lái)解決覆蓋域和子域的問(wèn)題。

InVA區(qū)別于VA的地方主要是兩個(gè)地方，第一個(gè)是首先會(huì)采用聚類(lèi)的方式對(duì)attention分布進(jìn)行粗略的劃分，從而緩解覆蓋域的問(wèn)題；第二個(gè)是會(huì)采用子高斯混合先驗(yàn)對(duì)潛變量進(jìn)行約束，從而緩解子域的問(wèn)題。

最終使用VA和InVA對(duì)CNN的通道信息進(jìn)行調(diào)整，得到了DKPNet，如圖3所示：

圖3：DKPNet

實(shí)驗(yàn)結(jié)果

作者在4個(gè)常用的人群密度估計(jì)的數(shù)據(jù)集（ShanghaiTech A/B， QNRF， NWPU）上進(jìn)行了多重驗(yàn)證，實(shí)驗(yàn)結(jié)果如表2所示。可以看到作者分別進(jìn)行了3-Joint（SHA/SHB/QNRF聯(lián)合使用）和4-Joint（SHA/SHB/QNRF/NWPU）實(shí)驗(yàn)，表示采用不同的個(gè)數(shù)的數(shù)據(jù)集進(jìn)行的聯(lián)合訓(xùn)練。當(dāng)進(jìn)行簡(jiǎn)單的聯(lián)合訓(xùn)練之后，可以看到模型的性能并不能一致地在所有數(shù)據(jù)集上都得到提升，驗(yàn)證了模型的選擇性學(xué)習(xí)的行為。當(dāng)采用DKPNet之后，由于域?qū)俚男畔⒛軌虮伙@式地建模和學(xué)習(xí)，因此帶來(lái)了顯著的性能提升，并且在不同數(shù)據(jù)集上表現(xiàn)出了一致性。同時(shí)作者也給出了大量的消融實(shí)驗(yàn)（圖4：attention分布對(duì)比；表3：的影響；表4：覆蓋域和子域數(shù)量的影響等），證明了VA和InVA的有效性。

表2：實(shí)驗(yàn)結(jié)果

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

圖4：attention分布示意圖

表3：約束的作用

表4：覆蓋域和子域數(shù)量的影響

結(jié)語(yǔ)

本文針對(duì)人群密度中多域聯(lián)合訓(xùn)練的問(wèn)題，提出了基于變分關(guān)注VA的域?qū)傩畔W(xué)習(xí)網(wǎng)絡(luò)DKPNet，有效地緩解了多域聯(lián)合訓(xùn)練中的有偏學(xué)習(xí)現(xiàn)象，通過(guò)引入潛變量對(duì)不同域進(jìn)行建模，從而能夠?yàn)槟Ｐ偷膶W(xué)習(xí)提供很好域引導(dǎo)。此外，為了更好地解決覆蓋域和子域的問(wèn)題，本文提出了InVA進(jìn)一步提升域引導(dǎo)的質(zhì)量。最終，作者通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

贈(zèng)書(shū)福利

AI科技評(píng)論本次聯(lián)合中信出版社為大家?guī)?lái)5本人工智能先驅(qū)、圖靈獎(jiǎng)得主Yann LeCun教授的自傳《科學(xué)之路》正版新書(shū)。

ICCV 2021 | 用于多域聯(lián)合訓(xùn)練的變分關(guān)注模型

在AI科技評(píng)論8月29日頭條文章（注意不是本文，僅限AI科技評(píng)論微信公眾號(hào)端）留言區(qū)留言，歡迎大家暢所欲言，談一談你對(duì)本書(shū)的看法和期待。在綜合留言質(zhì)量（留言是敷衍還是走心）和留言點(diǎn)贊最高（注：點(diǎn)贊最高的前5不意味著一定會(huì)中獎(jiǎng)）的讀者中選出5位讀者獲得贈(zèng)書(shū)。獲得贈(zèng)書(shū)的讀者請(qǐng)聯(lián)系 AI 科技評(píng)論客服（aitechreview）。

留言內(nèi)容會(huì)有篩選，例如“選我上去”、“這書(shū)寫(xiě)的很棒（僅僅幾個(gè)字）”等內(nèi)容將不會(huì)被篩選，亦不會(huì)中獎(jiǎng)。
留言送書(shū)活動(dòng)時(shí)間為2021年8月29日 - 2021年9月02日（23:00），活動(dòng)推送時(shí)間內(nèi)僅允許贈(zèng)書(shū)福利中獎(jiǎng)一次。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門(mén)文章