0
美國(guó)太遠(yuǎn),望京很近。
在21世紀(jì)20年代的最后一個(gè)周末,雷鋒網(wǎng)AI研習(xí)社聯(lián)合阿里文娛和北理工等共同舉辦了一場(chǎng)「AAAI 2020論文解讀會(huì)」。
AAAI 無(wú)需多言。2020年2月7日-12日,AAAI 2020 將于美國(guó)紐約舉辦。在11月中旬,大會(huì)官方公布了今年的論文收錄信息:共有8800 篇提交論文,評(píng)審了 7737 篇,接收 1591 篇,接收率 20.6%。
隨后國(guó)內(nèi)先后舉辦了多場(chǎng)AAAI 論文分享活動(dòng),例如,
12月3日,蘇州人工智能大會(huì)上由周國(guó)棟教授領(lǐng)銜、漆桂林教授主持的「自然語(yǔ)言處理與AAAI 2020的石城邂逅」;
12月22日,由中國(guó)中文信息學(xué)會(huì)青工委主辦,北大王選計(jì)算所承辦的「AAAI 2020論文預(yù)講會(huì)」;
12月28日,有阿里文娛、北理工、AI研習(xí)社聯(lián)合舉辦的「AAAI 2020論文解讀會(huì)」。
以上三場(chǎng)AAAI 2020 論文預(yù)講活動(dòng),雷鋒網(wǎng)AI研習(xí)社皆有直播,并將陸續(xù)放出錄播視頻,
感興趣者可以掃描二維碼觀看回放:
或打開網(wǎng)頁(yè):https://www.yanxishe.com/meeting/80
本文將簡(jiǎn)要介紹 28 日「AAAI 2020 論文解讀會(huì)」的 10 篇論文,并附相應(yīng)講解 PPT 及下載鏈接。
如對(duì)以下論文內(nèi)容感興趣,可關(guān)注 微信公眾號(hào)「AI 科技評(píng)論」,回復(fù)「AAAI2020@望京」,打包下載全部 10 篇論文相關(guān)PPT。
演講人:趙文天(阿里文娛&北京理工大學(xué))
AAAI 論文:MemCap: Memorizing Style Knowledge for Image Captioning
本文提出了一種通過(guò)記憶機(jī)制對(duì)語(yǔ)言風(fēng)格相關(guān)的知識(shí)進(jìn)行編碼的風(fēng)格化圖像描述方法。由于語(yǔ)言風(fēng)格無(wú)法直接從圖像中得到,我們使用記憶模塊存儲(chǔ)語(yǔ)言風(fēng)格相關(guān)的知識(shí),并在生成風(fēng)格化描述時(shí)根據(jù)圖片中的內(nèi)容檢索這些知識(shí)。
演講人:林廷恩(清華大學(xué))
AAAI 論文:Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement
識(shí)別新用戶的意圖是對(duì)話系統(tǒng)中的重要任務(wù),然而我們很難透過(guò)聚類方法獲得令人滿意的結(jié)果,因?yàn)橐鈭D定義受主觀先驗(yàn)知識(shí)所影響。 現(xiàn)有方法透過(guò)過(guò)大量特征工程來(lái)融入先驗(yàn)知識(shí),不僅會(huì)導(dǎo)致模型過(guò)擬合,也對(duì)聚類中心數(shù)敏感。
在本文中,我們提出了具有聚類細(xì)化的約束深度自適應(yīng)聚類(CDAC+),這種端到端方法可以自然地將成對(duì)約束作為先驗(yàn)知識(shí)來(lái)指導(dǎo)聚類過(guò)程。 此外,我們通過(guò)強(qiáng)制模型從高置信度分配中學(xué)習(xí)來(lái)優(yōu)化聚類。 在消除了低置信度分配之后,我們的方法對(duì)集群的數(shù)量出奇地不敏感。 在三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與強(qiáng)基準(zhǔn)相比,我們的方法可以產(chǎn)生重大改進(jìn)。
演講人:旭豪(阿里文娛)
AAAI 論文:Deep Time-Stream Framework for Click-Through Rate Prediction by TrackingInterest Evolution
(暫無(wú)PPT分享)
DTS (Deep Time-Stream Framework)是一個(gè)考慮了連續(xù)時(shí)間流信息的CTR預(yù)估框架。解決了目前現(xiàn)有的工業(yè)界廣泛應(yīng)用的CTR模型沒(méi)能很好地建模連續(xù)時(shí)間信息的問(wèn)題。其能夠處理不同間隔下的用戶序列行為,還能根據(jù)不同的預(yù)測(cè)時(shí)刻提供更加符合用戶興趣的視頻。
演講人:侯靜怡(阿里文娛&北京理工大學(xué))
AAAI 論文:Joint Commonsense and Relation Reasoning for Image and Video Captioning
本文提出了一種聯(lián)合常識(shí)和關(guān)系推理的圖像視頻文本描述生成方法。該方法通過(guò)迭代學(xué)習(xí)算法實(shí)現(xiàn),交替執(zhí)行以下兩種推理方式:(1) 常識(shí)推理,將視覺(jué)區(qū)域根據(jù)常識(shí)推理,嵌入到語(yǔ)義空間中從而構(gòu)成語(yǔ)義圖;(2) 關(guān)系推理,將語(yǔ)義圖通過(guò)圖神經(jīng)網(wǎng)絡(luò)編碼,生成圖像視頻文字描述。
演講人:魏軍(中科院)
AAAI 論文:F3Net: Fusion, Feedback and Focus for Salient Object Detection
近期,許多顯著性檢測(cè)模型都是基于多尺度特征融合的,通過(guò)融合不同卷積層的特征,這些模型可以輸出準(zhǔn)確的顯著圖。然而由于不同卷積層具有不同感受野,來(lái)自這些卷積層的特征存在著較大的差異性,常見的特征融合策略(相加,拼接)忽略了這些差異性并可能導(dǎo)致模型性能受限。
在本文中,我們提出了F3Net來(lái)解決上述問(wèn)題, 它主要包含交叉特征融合(CFM),級(jí)聯(lián)的反饋解碼器(CFD)以及像素位置敏感損失(PPA)。具體來(lái)說(shuō),交叉特征融合的目標(biāo)是有選擇地聚合多層特性。不同于相加或者拼接, 交叉特征融合自適應(yīng)地在融合前從輸入特征中選擇互補(bǔ)成分,有效地避免了引入過(guò)多的冗余信息而破壞原有特征。
另外,級(jí)聯(lián)的反饋解碼器采用了多級(jí)反饋機(jī)制,將靠近監(jiān)督信號(hào)的特征引入到前層的特征中進(jìn)行補(bǔ)充矯正以及消除特征間的差異。在生成最終的顯著圖之前,這些細(xì)化的特性要經(jīng)過(guò)多次類似的迭代。不同于二值交叉熵,像素位置敏感損失并不會(huì)平等對(duì)待每一個(gè)像素,它可以綜合單一像素周圍的結(jié)構(gòu)特征,以指導(dǎo)網(wǎng)絡(luò)關(guān)注局部細(xì)節(jié)。來(lái)自邊界或易出錯(cuò)部分的困難像素將會(huì)得到更多的關(guān)注,以強(qiáng)調(diào)其重要性。F3Net能夠準(zhǔn)確地分割出顯著性目標(biāo)并提供清晰的局部細(xì)節(jié)。它在5個(gè)基準(zhǔn)數(shù)據(jù)集以及4個(gè)評(píng)價(jià)指標(biāo)上都取得了目前最好的性能。
[ 6 ]
演講人:牛廣林(北京航空航天大學(xué))
AAAI 論文:Rule-Guided Compositional Representation Learning on Knowledge Graphs
知識(shí)圖譜的表示學(xué)習(xí)是將知識(shí)圖譜中的實(shí)體與關(guān)系嵌入低維實(shí)值向量空間。早期的知識(shí)圖譜表示學(xué)習(xí)方法只關(guān)注知識(shí)圖譜中三元組的結(jié)構(gòu)信息,但由于知識(shí)圖譜的結(jié)構(gòu)稀疏性,會(huì)導(dǎo)致知識(shí)表示學(xué)習(xí)性能受限。最近的一些嘗試考慮采用路徑信息來(lái)擴(kuò)展知識(shí)圖譜的結(jié)構(gòu),但是在得到路徑表示的過(guò)程中缺乏可解釋性。
本文提出了一種新的基于規(guī)則和路徑的聯(lián)合嵌入的方法(RPJE),該方案充分利用了邏輯規(guī)則的可解釋性和準(zhǔn)確性、知識(shí)圖譜表示學(xué)習(xí)的泛化性以及路徑提供的語(yǔ)義結(jié)構(gòu)。具體來(lái)說(shuō),首先從知識(shí)圖譜中挖掘不同長(zhǎng)度(規(guī)則體中的關(guān)系個(gè)數(shù))的Horn子句形式的邏輯規(guī)則,并對(duì)其進(jìn)行編碼,用于表示學(xué)習(xí)。然后,應(yīng)用長(zhǎng)度為2的規(guī)則來(lái)準(zhǔn)確地組合路徑,而顯式地使用長(zhǎng)度為1的規(guī)則來(lái)創(chuàng)建關(guān)系之間的語(yǔ)義關(guān)聯(lián)并約束關(guān)系的向量表示。此外,在優(yōu)化過(guò)程中還考慮了各規(guī)則的置信度,以保證規(guī)則應(yīng)用于表示學(xué)習(xí)的有效性。
大量的實(shí)驗(yàn)結(jié)果表明,RPJE在完成知識(shí)圖譜補(bǔ)全任務(wù)方面優(yōu)于其它baselines,這也證明了RPJE在完成知識(shí)圖譜補(bǔ)全任務(wù)的優(yōu)越性,驗(yàn)證了利用邏輯規(guī)則和路徑提高知識(shí)圖譜表示學(xué)習(xí)的精度和可解釋性。
演講人:于靜(中科院)
AAAI 論文:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
這篇論文,AI 科技評(píng)論已經(jīng)做過(guò)解讀,完整了解可參見:「DualVD:一種視覺(jué)對(duì)話新框架 | AAAI2020」
近年來(lái),跨模態(tài)研究引發(fā)了廣泛關(guān)注并取得顯著進(jìn)展,綜合分析語(yǔ)言和視覺(jué)等不同模態(tài)的信息對(duì)模擬現(xiàn)實(shí)社會(huì)中人類對(duì)于信息的認(rèn)知過(guò)程具有重要意義。
視覺(jué)對(duì)話問(wèn)題是視覺(jué)問(wèn)答任務(wù)的衍生任務(wù),不同的是,視覺(jué)對(duì)話任務(wù)需要根據(jù)圖像、歷史對(duì)話回答當(dāng)前問(wèn)題,涉及多個(gè)問(wèn)題且涵蓋了可能與任何對(duì)象、關(guān)系或語(yǔ)義相關(guān)的廣泛視覺(jué)內(nèi)容,因此視覺(jué)對(duì)話需要根據(jù)對(duì)話的推進(jìn),不斷調(diào)整關(guān)注區(qū)域使之有效地捕捉問(wèn)題所涉及的視覺(jué)信息,針對(duì)不同問(wèn)題對(duì)圖像進(jìn)行自適應(yīng)的關(guān)注。
如下圖 1 所示「Q1: Is the man on the skateboard?」, 需要關(guān)注「man」,「skateboard」等信息,當(dāng)問(wèn)題變換為「Q5: Is the sky in the picture」時(shí),需要將關(guān)注區(qū)域轉(zhuǎn)移至「sky」。問(wèn)題 Q1 和 Q5 主要關(guān)注在表層(appearance-level)信息問(wèn)題,而 Q4「Is he young or older」則需要進(jìn)一步地視覺(jué)推理得到更高層的語(yǔ)義信息。因此,如何根據(jù)問(wèn)題進(jìn)行自適應(yīng)調(diào)整并有效地捕捉視覺(jué)信息是視覺(jué)對(duì)話問(wèn)題中的重要挑戰(zhàn)之一。
根據(jù)認(rèn)知學(xué)中的雙向編碼理論(Dual-Coding Theory), 人類認(rèn)知信息的過(guò)程包含視覺(jué)表象和關(guān)聯(lián)文本,人的大腦在檢索關(guān)于某個(gè)概念的信息時(shí)會(huì)綜合檢索視覺(jué)信息以及語(yǔ)言信息,這種方式能夠加強(qiáng)大腦的理解以及記憶能力。作者根據(jù)此理論,提出從視覺(jué)和語(yǔ)義兩個(gè)維度刻畫視覺(jué)對(duì)話任務(wù)中圖象信息的新框架:語(yǔ)義模塊描述圖像的局部以及全局的高層語(yǔ)義信息,視覺(jué)模塊描述圖像中的對(duì)象以及對(duì)象之間的視覺(jué)關(guān)系?;诖丝蚣埽髡咛岢鲎赃m應(yīng)視覺(jué)選擇模型 DualVD(Duel Encoding Visual Dialog),分別進(jìn)行模態(tài)內(nèi)與模態(tài)之前的信息選擇。
演講人:劉越江(南京大學(xué))
AAAI 論文:Collaborative Sampling in Generative Adversarial Networks
生成對(duì)抗網(wǎng)絡(luò)(GAN)中的標(biāo)準(zhǔn)做法是在生成樣本時(shí)完全丟棄鑒別器。但是,這種采樣方法會(huì)丟失鑒別者從數(shù)據(jù)分配中學(xué)到的有價(jià)值的信息。
在這項(xiàng)工作中,我們提出了在生成器和鑒別器之間的協(xié)作采樣方案,以改善數(shù)據(jù)生成。在鑒別器的指導(dǎo)下,我們的方法通過(guò)在生成器的特定層通過(guò)基于梯度的優(yōu)化來(lái)優(yōu)化生成的樣本,從而使生成器的分布更接近于實(shí)際數(shù)據(jù)分布。此外,我們提出了一種實(shí)用的鑒別器整形方法,該方法可以平滑損失情況,并進(jìn)一步改善樣品細(xì)化過(guò)程。
通過(guò)對(duì)合成數(shù)據(jù)集和圖像數(shù)據(jù)集的實(shí)驗(yàn),我們證明了我們提出的方法能夠定量和定性地改善生成的樣本,從而為GAN采樣提供了新的自由度。我們最終展示了其解決模式崩潰的潛力以及對(duì)抗性示例。
[ 9 ]
演講人:景宸?。ò⒗镂膴?amp;北京理工大學(xué))
AAAI 論文:Overcoming Language Priors in VQA via Decomposed Linguistic Representations
本文提出了一種基于語(yǔ)言注意力的視覺(jué)問(wèn)答方法。我們的方法可以靈活地學(xué)習(xí)和利用問(wèn)題中各種信息(問(wèn)題類型,指代對(duì)象和期望概念)的分解表達(dá)。因此我們的方法可以最大程度地減少語(yǔ)言先驗(yàn)的影響,并實(shí)現(xiàn)透明的回答過(guò)程。
[ 10 ]
演講人:高志(阿里文娛&北京理工大學(xué))
AAAI 論文:Revisiting Bilinear Pooling: A Coding Perspective
本文首先證明了常用的特征融合方法——雙線性池化是一種編碼-池化的形式。從編碼的角度,我們提出了分解的雙線性編碼來(lái)融合特征。與原始的雙線性池化相比,我們的方法可以生成更加緊致和判別的表示。
相關(guān)文章:
全新視角探究目標(biāo)檢測(cè)與實(shí)例分割的互惠關(guān)系 | AAAI 2020
AAAI 2020 論文接收結(jié)果出爐,得分 997 論文被拒,388 反而中了?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。