AAAI-20 Opening Ceremony
AAAI Presidential Address
AAAI-20 Turing Award Winner Event
IAAI-20 Invited Talk:David Cox
AAAI-20 Invited Talk: Combining Machine Learning and Control for Reactive Robots- Aude Billard
Robert S. Engelmore Memorial Award Lecture: The Third AI Summer - Henry Kautz
AAAI-20 Oxford-Style Debate: Academic AI Research in an Age of Industry Labs
IAAI/AAAI Joint Invited Talk: AI and Security: Lessons, Challenges and Future Directions - Dawn Song
AAAI-20 Invited Talk: The Economic Value of Data for Targeted Pricing
AAAI-20 AI History Panel: Advancing AI by Playing Games
AAAI-20 Fireside Chat with Daniel Kahneman
AAAI-20 Invited Talk: How Not to Destroy the World with AI - Stuart Russell
目前神經(jīng)機器翻譯模型主要基于編碼器-解碼器框架,他們分別對源語言和目標語言進行建模,然后使用注意力機制把雙語的表示進行橋接。
本文提出一種聯(lián)合表示,它同時對源語言和目標語言進行建模,以便更好的捕捉雙語直接的關(guān)系。在不同數(shù)據(jù)集上的實驗表明我們的方法能夠取得比Transformer基線更優(yōu)秀的結(jié)果。
深度學習在人臉檢測任務(wù)上取得了非常優(yōu)異的結(jié)果,通過設(shè)計具備特定感受野的檢測器搭配不同尺度特征的有效利用可以比較容易的獲得很好的性能。當前算法多為anchor-based的算法,需要一定的設(shè)計經(jīng)驗,同時,對于圖像輸入尺度和模型參數(shù)規(guī)模也有著一定的要求,這就不可避免的會帶來一定的計算量負擔。
本文章針對通用人臉檢測問題重新探究了檢測器感受野和圖像輸入尺度之間的關(guān)系,提出了全新的KPNet人臉檢測框架,結(jié)合anchor-free的算法設(shè)計和bottom-up的檢測策略能夠讓人臉檢測器基于低尺度圖像輸入和輕量級網(wǎng)絡(luò)結(jié)構(gòu)達到優(yōu)異的性能,同時具備極快的模型推理速度。
盡管生成性對抗網(wǎng)絡(luò)(GANs)已經(jīng)廣泛應(yīng)用于各種圖像轉(zhuǎn)換的任務(wù)中,但由于其計算量大、存儲成本高,很難在移動設(shè)備上應(yīng)用。傳統(tǒng)的網(wǎng)絡(luò)壓縮方法側(cè)重于視覺識別任務(wù),而很少考慮生成任務(wù)的壓縮。
我們提出了一種基于知識蒸餾的生成對抗網(wǎng)絡(luò)的壓縮方法,并分別針對學生網(wǎng)絡(luò)的生成器和判別器分別設(shè)計了蒸餾的損失函數(shù)。通過學習教師生成器和判別器中蘊含的信息,學生網(wǎng)絡(luò)可以使用較少的參數(shù)取得和教師網(wǎng)絡(luò)相似的圖像轉(zhuǎn)換性能。
在各種計算機視覺任務(wù)中,深度神經(jīng)網(wǎng)絡(luò)(尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN))的優(yōu)越性已得到充分證明。由于深層網(wǎng)絡(luò)經(jīng)常被過度參數(shù)化以在訓練集上獲得更高的性能,避免過度擬合非常重要,因此我們提出了特征圖擾動方法(disout)來增強深度神經(jīng)網(wǎng)絡(luò)的泛化能力,擾動。根據(jù)網(wǎng)絡(luò)中間層的Rademacher 復雜度,確定給定深度神經(jīng)網(wǎng)絡(luò)的泛化誤差上界。將擾動引入特征圖來降低網(wǎng)絡(luò)的Rademacher復雜度,從而提高其泛化能力。
提出的特征圖擾動方法可以方便地應(yīng)用于全連接層或者卷積層,在基準數(shù)據(jù)集CIFAR和大尺度數(shù)據(jù)集ImageNet的實驗結(jié)果表明,提出的特征圖擾動方法可以大幅提高網(wǎng)絡(luò)的準確率并優(yōu)于SOTA。
隨著深度學習技術(shù)的發(fā)展,以及計算能力的進步(GPU等),現(xiàn)在基于視頻的研究領(lǐng)域越來越受到重視。視頻與圖片最大的不同在于視頻還包含了時序上的信息,此外需要的計算量通常也大很多。
目前主要在做視頻分析,視頻中動作定位相關(guān)的工作,視頻人類行為分析和視頻動作定位在智能監(jiān)控,在線檢測和短視頻社交領(lǐng)域都會有相應(yīng)的應(yīng)用。
此次主要分享行為動作定位的整個算法流程介紹和相關(guān)工作,以及我去年ActivityNet Challenge 2019的技術(shù)方案。
另外,此論文已被AAAI 2020收錄。
研究面向海量無標注視頻人臉關(guān)鍵點定位與跟蹤的自監(jiān)督時空關(guān)系推理方法。該方法力圖充分挖掘連續(xù)視頻中鄰近人臉關(guān)鍵點間的幾何相關(guān)性,以此推斷出關(guān)鍵點間具有較強判別力的時空關(guān)系線索以提高人臉關(guān)鍵點定位與跟蹤的穩(wěn)定性。
具體通過設(shè)計一種高效推斷的模塊機制:在空間域上,算法從靜態(tài)視頻幀中解析人臉的幾何特征以對視頻人臉的全局結(jié)構(gòu)化約束建模,進而保持不同人臉個體化的差異性;在時間域上,對時序上回環(huán)一致性約束,通過評價所追蹤定位的關(guān)鍵點能夠從未來幀回傳到原始幀位置形成自反饋的閉環(huán),從而實現(xiàn)對原始人臉序列潛在的時空關(guān)系建模 。
深度學習在視覺定位方面取得了令人印象深刻的結(jié)果。然而基于圖像的定位方法普遍缺乏魯棒性,從而導致較大誤差。當前算法多通過圖像序列或添加幾何約束方法,迫使網(wǎng)絡(luò)在學習時拒絕動態(tài)目標和光照變化對定位的干擾,以獲得更好的性能。
本文提出了一種利用注意力機制使網(wǎng)絡(luò)自動關(guān)注并提取具有幾何意義的對象和特征,即使僅基于單張圖像,也可以實現(xiàn)優(yōu)于利用圖像序列或幾何約束方法的定位結(jié)果。
通過室內(nèi)和室外公開數(shù)據(jù)集上的定位結(jié)果和顯著圖,我們闡述了如何利用注意力機制提取環(huán)境中具有幾何意義的特征,從而實現(xiàn)最優(yōu)的相機姿態(tài)回歸性能。算法細節(jié)和源代碼可訪問:https://github.com/BingCS/AtLoc
異質(zhì)信息網(wǎng)絡(luò)是當前圖嵌入式表示學習領(lǐng)域的一大難題,在本次分享中,講者將分享如何在不使用專家知識的情況下對異質(zhì)信息網(wǎng)絡(luò)進行嵌入式表示學習。
近年來,深度模型在計算機視覺任務(wù)上不斷刷新性能,已成為研究與應(yīng)用熱點。然而由于參數(shù)量龐大、存儲和計算代價高,難以部署在資源受限的嵌入式端上。 深度模型壓縮技術(shù)是解決該問題的一個重要技術(shù)。本次分享將介紹外面提出的結(jié)合AutoML思想對深度模型進行自動結(jié)構(gòu)化剪枝的AutoCompress算法框架。
二值網(wǎng)絡(luò)(BNN)由于其對于硬件非常友好,獲得了學術(shù)界和工業(yè)界的廣泛關(guān)注。雖然二值網(wǎng)絡(luò)執(zhí)行效率非常高,但是相對于全精度浮點網(wǎng)絡(luò),其精度損失嚴重。目前二值網(wǎng)絡(luò)普遍使用sign函數(shù)對網(wǎng)絡(luò)的權(quán)值和激活量化到-1和+1,對二值網(wǎng)絡(luò)的研究方向主要包括提高二值網(wǎng)絡(luò)的訓練技巧、修改網(wǎng)絡(luò)結(jié)構(gòu)使得網(wǎng)絡(luò)結(jié)構(gòu)對于二值量化不敏感等,然而二值表達形式卻被研究者忽略。在本文中,我們提出了稀疏量化,即對網(wǎng)絡(luò)激活量化到0和+1,而網(wǎng)絡(luò)權(quán)值依然量化到-1和+1。我們驗證了在使用0-1量化時,不會引入任何額外的計算量,但網(wǎng)絡(luò)性能卻獲得大幅度提升。同時,針對稀疏二值量化網(wǎng)絡(luò)中超參選擇問題,我們提出一種高效的自動化學習方法,進一步提升二值網(wǎng)絡(luò)性能。通過實驗發(fā)現(xiàn),我們在沒有使用任何額外技巧的情況下,網(wǎng)絡(luò)精度能夠達到目前最高水平。
文章構(gòu)建了一個基于司法考試的問答數(shù)據(jù)集,包含了大約26000道司法考試的選擇題。與傳統(tǒng)QA數(shù)據(jù)集不一樣的是,法律領(lǐng)域的問答依賴于大量專業(yè)知識的理解,和對大量參考資料的結(jié)合。本文分析了司法考試的難點,并通過一系列實驗證明了現(xiàn)有的模型即使是距離非專業(yè)人士的答題水平仍然有很大的差異,而非專業(yè)人士與專業(yè)人士之間的水平也相去甚遠,這也為該數(shù)據(jù)集的解決帶來了巨大的挑戰(zhàn)。數(shù)據(jù)集地址:http://jecqa.thunlp.org/
非自回歸神經(jīng)機器翻譯模型(NAT)對目標詞的生成進行獨立的建模,從而顯著地提升了翻譯速度。然而,對非自回歸模型來說,詞級別的交叉熵損失函數(shù)不合理地要求模型輸出與參考譯文嚴格對齊,并且無法準確地建模目標端的序列依賴關(guān)系,從而導致其與模型翻譯質(zhì)量的相關(guān)性較弱。在本文中,我們提出了基于模型與參考譯文間n元組袋差異的訓練目標,以該訓練目標來訓練非自回歸模型。我們克服了指數(shù)級搜索空間和n元組袋維度巨大的困難,給出了計算n元組袋差異的高效算法,使這個基于n元組袋的訓練目標具有可導、高效、易于實現(xiàn)的優(yōu)點。我們在三個機器翻譯數(shù)據(jù)集上進行了實驗驗證,結(jié)果表明,我們的方法在WMT14英語-德語數(shù)據(jù)集上取得了約5.0個BLEU值的大幅提升,在另外兩個數(shù)據(jù)集上也有顯著提升。
神經(jīng)機器翻譯模型通常采用Teacher Forcing策略來進行訓練,在該策略下,每個源句子都給定一個Ground Truth,在每個時間步翻譯模型都被強制生成一個0-1分布,0-1分布將所有的概率分布僅通過Ground Truth詞語進行梯度回傳,詞表中其他的詞語均被忽略,從而影響了參數(shù)訓練。為了解決這個問題,我們提出在神經(jīng)機器翻譯模型中引入一個評估模塊,對生成的譯文從流利度和忠實度兩個方面進行評估,并用得到的評估分數(shù)用來指導訓練階段譯文的概率分布,而在測試的時候,可以完全拋棄該評估模塊,采用傳統(tǒng)的Transformer模型進行解碼。實驗中我們與Transformer模型、強化學習模型以及詞袋模型進行了比較,我們的方法在中-英、英-羅馬尼亞語言對上相比于所有的基線系統(tǒng)翻譯效果均取得了顯著提升。
序列文本分類旨在對一條序列文本片段進行標簽化。除各個片段內(nèi)的文本內(nèi)容以外,考慮文本片段間的上下文依賴依然是影響分類性能的關(guān)鍵因素。先前的文本序列標注技術(shù)自左向右地預測對應(yīng)的文本標簽。然而,在決策過程中,不同的文本片段所需上下文依賴不同并且該些依賴并不一定嚴格按照自左向右地順序排放。因此,本文提出一種新的跳躍標注模式,先先打標那些需要更少上下文信息的文本片段再考慮那些需要更多上下文的部分。技術(shù)上,我們設(shè)計了一個輔助的棋盤游戲作為序列文本分類的問題映射。通過將序列文本特征注入到所定義的游戲規(guī)則和狀態(tài)評估策略之中,能有效地推動游戲玩家在每一步中最優(yōu)化各自的招法,該博弈過程對應(yīng)到跳躍地產(chǎn)生一段序列標簽,此外該棋盤游戲的終局狀態(tài)對應(yīng)到最優(yōu)的預測序列。在多個數(shù)據(jù)集上的實驗結(jié)果體現(xiàn)出提出方法的有效性。
Knowledge graphs typically undergo open-ended growth of new relations. This cannot be well handled by relation extraction that focuses on pre-defined relations with sufficient training data. To address new relations with few-shot instances, we propose a novel bootstrapping approach, Neural Snowball, to learn new relations by transferring semantic knowledge about existing relations. More specifically, we use Relational Siamese Networks (RSN) to learn the metric of relational similarities between instances based on existing relations and their labeled data. Afterwards, given a new relation and its few-shot instances, we use RSN to accumulate reliable instances from unlabeled corpora; these instances are used to train a relation classifier, which can further identify new facts of the new relation. The process is conducted iteratively like a snowball. Experiments show that our model can gather high-quality instances for better few-shot relation learning and achieves significant improvement compared to baselines.
以圖像類別標簽為監(jiān)督信息的弱監(jiān)督語義分割往往面臨目標區(qū)域估計不完整的問題。為了緩解這個問題,本文提出了一種對跨圖像間關(guān)系進行建模的方法。該方法在同類別不同圖像之間建立像素級的關(guān)系矩陣,并據(jù)此從不同的圖像間取得互相補充的信息,用以增廣原特征并獲取更加完整和魯棒的目標區(qū)域估計。實驗證明該方法可以有效學得相關(guān)目標間的關(guān)聯(lián)關(guān)系,輔助得到對整個目標更加完整魯棒的預測結(jié)果,并且在多種質(zhì)量的初始估計下都能取得顯著的提升,具有很好的泛化性。在僅使用圖像類別標簽作為監(jiān)督信息下,該方法在 VOC2012 數(shù)據(jù)集上取得了當時最好的 65.3% mIoU 的測試結(jié)果,證明了方法的有效性。
反向詞典以關(guān)于目標詞語義的描述為輸入,輸出目標詞以及其他相關(guān)詞。比如輸入“a road where cars go very quickly without stopping”,期望反向詞典輸出“expressway”、“freeway”、“motorway”等詞。反向詞典最主要的使用價值在于解決“舌尖現(xiàn)象”(話到嘴邊想不起來)。
現(xiàn)有的反向詞典模型很難解決高度變化的查詢輸入以及低頻目標詞這兩個問題。受到人的由描述到詞的推斷過程的啟發(fā),我們提出了多通道反向詞典模型,可以同時解決以上兩個問題。
我們的模型包括一個句子編碼器和多個預測器,預測器可以通過給定的查詢文本預測目標詞的各種特征,進而幫助確定目標詞。我們在中文和英文數(shù)據(jù)集上評測了我們的模型,實驗結(jié)果表明我們的模型實現(xiàn)了當前最佳性能(state-of-the-art),甚至在人工真實查詢數(shù)據(jù)集上超過了最流行的商用反向詞典系統(tǒng)OneLook。此外我們也進行了定量實驗和案例分析來證明我們模型的有效性和魯棒性。
論文已經(jīng)在arXiv公開:https://arxiv.org/pdf/1912.08441
大規(guī)模知識圖譜在當前的信息系統(tǒng)中具有非常重要的角色。為了擴充知識圖譜的規(guī)模,之前的工作需要對新增關(guān)系標注充足的訓練數(shù)據(jù)集,但這種方式成本昂貴不符合實際要求。本文考慮采用零樣本學習方式來解決這個問題。當給定一個新的關(guān)系類別,本文嘗試直接通過關(guān)系類別的文本描述編碼類別相關(guān)信息。為了完成這個目標,本文采用生成對抗學習思路完成文本信息和知識圖譜信息的知識轉(zhuǎn)換。具體來講,本文希望生成對抗網(wǎng)絡(luò)的生成器可以有效的通過關(guān)系類別文本描述生成關(guān)系類別向量表征。在這個前提下,對于新增關(guān)系類別的樣本預測就轉(zhuǎn)化為監(jiān)督學習分類任務(wù)。
反向詞典以關(guān)于目標詞語義的描述為輸入,輸出目標詞以及其他相關(guān)詞。比如輸入“a road where cars go very quickly without stopping”,期望反向詞典輸出“expressway”、“freeway”、“motorway”等詞。反向詞典最主要的使用價值在于解決“舌尖現(xiàn)象”(話到嘴邊想不起來)。
現(xiàn)有的反向詞典模型很難解決高度變化的查詢輸入以及低頻目標詞這兩個問題。受到人的由描述到詞的推斷過程的啟發(fā),我們提出了多通道反向詞典模型,可以同時解決以上兩個問題。
我們的模型包括一個句子編碼器和多個預測器,預測器可以通過給定的查詢文本預測目標詞的各種特征,進而幫助確定目標詞。我們在中文和英文數(shù)據(jù)集上評測了我們的模型,實驗結(jié)果表明我們的模型實現(xiàn)了當前最佳性能(state-of-the-art),甚至在人工真實查詢數(shù)據(jù)集上超過了最流行的商用反向詞典系統(tǒng)OneLook。此外我們也進行了定量實驗和案例分析來證明我們模型的有效性和魯棒性。
論文已經(jīng)在arXiv公開:https://arxiv.org/pdf/1912.08441
基于skeleton數(shù)據(jù)的動作識別是計算機視覺領(lǐng)域中一個非常熱門的研究話題。使用圖卷積(GCN)來建模這種不規(guī)則的數(shù)據(jù)也取得了很好的效果。 但是這個任務(wù)中的GCN有兩個方面可以去改善。首先, 大部分GCN都提供一個單一的(各層share),固定的矩陣來編碼數(shù)據(jù)節(jié)點之間的鄰接關(guān)系。其次,大部分的GCN都是基于一階的切比雪夫多項式進行估計的。我們認為,將高層的特征表示限制是低層的拓撲結(jié)構(gòu)當中是一種不合理的做法。此外,一階的多項式估計并不能很好的捕捉到高階的鄰接關(guān)系。本文提出一種基于NAS的GCN設(shè)計方案。文章通過多個Graph的功能模塊構(gòu)建出一個搜索空間并且相應(yīng)的提出一種高效的搜索策略。Searched GCN在兩個大規(guī)模的Skeleton-based動作識別任務(wù)上測試都達到最好的性能。
本文提出了一個新的基于預訓練方法的個性化對話生成模型,與傳統(tǒng)的預訓練對話模型相比,本文提出了一個注意力路由機制,該機制可以在模型訓練過程中更有效地利用個性化稀疏的對話數(shù)據(jù),實驗表明我們所提出的模型可以生成更為流暢且符合發(fā)話者個性化特征的回復,并且我們可以在解碼的過程中控制是否在回復中展現(xiàn)發(fā)話者的個性化信息。
加入AAAI 頂會小組,第一時間獲得最新會議信息
如何讓你的優(yōu)秀工作,以最短路徑,為更多人所了解?
AI 科技評論愿架起這座學者之間的橋梁
促進學術(shù)交流,讓知識真正流動!
1)稿件為個人原創(chuàng)作品
2)如果文章并非首發(fā),請在投稿時提醒并附上已發(fā)布鏈接
請?zhí)砑酉路轿⑿?,備注:頂會投?姓名+單位