0
本文作者: AI研習(xí)社 | 2020-01-02 15:13 |
為了幫助各位學(xué)術(shù)青年更好地學(xué)習(xí)前沿研究成果和技術(shù),AI科技評論聯(lián)合Paper 研習(xí)社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關(guān)于人工智能的前沿學(xué)術(shù)論文供你學(xué)習(xí)參考。以下是今日的精選內(nèi)容——
Reading Wikipedia to Answer Open-Domain Questions
Machine Learning from a Continuous Viewpoint
Score and Lyrics-Free Singing Voice Generation
Learning 3D Human Shape and Pose from Dense Body Parts
Face X-ray for More General Face Forgery Detection
Effective Data Augmentation with Multi-Domain Learning GANs
Job Prediction: From Deep Neural Network Models to Applications
Combining Deep Learning and Verification for Precise Object Instance Detection
A Gentle Introduction to Deep Learning for Graphs
AdderNet: Do We Really Need Multiplications in Deep Learning?
論文名稱:Reading Wikipedia to Answer Open-Domain Questions
作者:Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes
發(fā)表時間:2017/4/28
論文鏈接:https://paper.yanxishe.com/review/7918
推薦理由:本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答:任何事實類問題的答案都是Wikipedia文章中的文本范圍。
大規(guī)模的機器閱讀任務(wù)將文檔檢索(查找相關(guān)文章)與機器理解文本(識別這些文章的答案范圍)的挑戰(zhàn)結(jié)合在一起。作者的方法將基于bigram哈希和TF-IDF匹配的搜索組件與經(jīng)過訓(xùn)練以檢測Wikipedia段落中的答案的多層遞歸神經(jīng)網(wǎng)絡(luò)模型相結(jié)合。
作者在多個現(xiàn)有QA數(shù)據(jù)集上的實驗表明,(1)兩個模塊相對于現(xiàn)有同類產(chǎn)品都具有很高的競爭力;(2)使用遠程監(jiān)督對其組合進行多任務(wù)學(xué)習(xí)是解決這一艱巨任務(wù)的有效完整系統(tǒng)。
論文名稱:Machine Learning from a Continuous Viewpoint
作者:E Weinan /Ma Chao /Wu Lei
發(fā)表時間:2019/12/30
論文鏈接:https://paper.yanxishe.com/review/7942
推薦理由:作為經(jīng)典的數(shù)值分析和統(tǒng)計物理學(xué)的精神,作者提出了一種連續(xù)的機器學(xué)習(xí)形式,作為變化和微分積分方程的一個問題。作者證明了常規(guī)的機器學(xué)習(xí)模型和算法,例如隨機特征模型,淺層神經(jīng)網(wǎng)絡(luò)模型和殘差神經(jīng)網(wǎng)絡(luò)模型,都可以作為不同連續(xù)公式的特定離散化而全部恢復(fù)。
作者還介紹了新模型的示例,例如基于流的隨機特征模型,以及新算法(例如平滑粒子法和光譜法)的示例,這些新算法自然地源于這種連續(xù)公式。作者在文中討論了如何在此框架下研究泛化誤差和隱式正則化問題。
論文名稱:Score and Lyrics-Free Singing Voice Generation
作者:Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan
發(fā)表時間:2019/12/26
論文鏈接:https://paper.yanxishe.com/review/7944
推薦理由:用于唱歌聲音的生成模型主要與“唱歌聲音合成”的任務(wù)有關(guān),即,根據(jù)樂譜和文本歌詞來產(chǎn)生唱歌聲音波形。
在本文中,作者探索了一種新穎而又具有挑戰(zhàn)性的替代方法:在訓(xùn)練和推理時間中無需預(yù)先分配樂譜和歌詞的情況下演唱語音。特別是,作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關(guān)的挑戰(zhàn),并提出了解決這些新任務(wù)的渠道。這涉及開發(fā)用于數(shù)據(jù)準備的源分離和轉(zhuǎn)錄模型,用于音頻生成的對抗網(wǎng)絡(luò)以及用于評估的定制度量。
論文名稱:Learning 3D Human Shape and Pose from Dense Body Parts
作者:Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan
發(fā)表時間:2019/12/31
論文鏈接:https://paper.yanxishe.com/review/7941
推薦理由:盡管通過最新的基于學(xué)習(xí)的方法獲得了令人鼓舞的結(jié)果,但從單眼圖像重建3D人體形狀和姿勢仍具有挑戰(zhàn)性。常見的不對齊是由于以下事實:從圖像到模型空間的映射是高度非線性的,并且人體模型的基于旋轉(zhuǎn)的姿勢表示易于導(dǎo)致關(guān)節(jié)位置的漂移。
在本文中,作者研究了從人體部位的密集對應(yīng)關(guān)系中學(xué)習(xí)3D人體形狀和姿勢的問題,并提出了分解和聚合網(wǎng)絡(luò)(DaNet)來解決這些問題。DaNet采用密集的對應(yīng)貼圖作為中間表示,以密集地在2D像素和3D頂點之間建立一座橋梁,以促進2D到3D映射的學(xué)習(xí)。DaNet的預(yù)測模塊被分解為一個全局流和多個局部流,以分別實現(xiàn)形狀和姿勢預(yù)測的全局和細粒度感知。來自本地流的消息被進一步聚合以增強對基于旋轉(zhuǎn)的姿勢的魯棒性預(yù)測,其中提出了位置輔助旋轉(zhuǎn)特征細化策略以利用人體關(guān)節(jié)之間的空間關(guān)系。此外,還引入了基于零件的剔除(PartDrop)策略,以在訓(xùn)練過程中從中間表示中剔除密集信息,從而鼓勵網(wǎng)絡(luò)專注于更多互補的身體部位以及相鄰的位置特征。作者方法的有效性在室內(nèi)和實際數(shù)據(jù)集(包括Human3.6M,UP3D和DensePose-COCO數(shù)據(jù)集)上均得到驗證。
實驗結(jié)果表明,與以前的最新方法相比,該方法顯著提高了重建性能。我們的代碼將通過此 URL(https://hongwenzhang.github.io/dense2mesh/)公開提供。
論文名稱:Face X-ray for More General Face Forgery Detection
作者:Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining
發(fā)表時間:2019/12/31
論文鏈接:https://paper.yanxishe.com/review/7940
推薦理由:在本文中,作者提出了一種新穎的圖像表示形式,稱為面部X射線,用于檢測面部圖像中的偽造。輸入的面部圖像的面部X射線是灰度圖像,可顯示輸入圖像是否可以分解為來自不同來源的兩個圖像的混合。它通過顯示偽造圖像的混合邊界和不存在真實圖像的混合來實現(xiàn)。
作者觀察到,大多數(shù)現(xiàn)有的面部操作方法都有一個共同的步驟:將更改后的面部混合到現(xiàn)有的背景圖像中。因此,面部X射線提供了一種檢測大多數(shù)現(xiàn)有面部操縱算法所產(chǎn)生的偽造的有效方法。面部X射線的一般意義是僅假設(shè)存在混合步驟,并且不依賴于與特定面部操作技術(shù)相關(guān)的偽影的任何知識。事實上,確實可以訓(xùn)練用于計算面部X射線的算法且無需使用任何最新的面部操縱方法生成的偽造圖像。大量的實驗表明,當將X射線應(yīng)用于由看不見的面部操縱技術(shù)產(chǎn)生的偽造時,面部X射線仍然有效,而大多數(shù)現(xiàn)有的面部偽造檢測算法的性能都會明顯下降。
論文名稱:Effective Data Augmentation with Multi-Domain Learning GANs
作者:Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu
發(fā)表時間:2019/12/25
論文鏈接:https://paper.yanxishe.com/review/7934
推薦理由:這篇論文考慮的是數(shù)據(jù)增強的問題。
這篇論文提出了一種有效的基于生成對抗網(wǎng)絡(luò))的數(shù)據(jù)增強方法,其主要思想是通過使用多領(lǐng)域?qū)W習(xí)GAN將外部數(shù)據(jù)所包含的知識導(dǎo)入到目標模型中。多領(lǐng)域?qū)W習(xí)GAN能夠同時學(xué)習(xí)外部數(shù)據(jù)集和目標數(shù)據(jù)集,并能夠為目標任務(wù)生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標數(shù)據(jù)集,研究人員也可以通過使用這些新生成的樣本來獲得目標任務(wù)的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個數(shù)據(jù)集上評估了其提出的數(shù)據(jù)增強方法,表明了它具有更好的分類準確性,并且能夠提高所生成樣本的質(zhì)量。
論文名稱:Job Prediction: From Deep Neural Network Models to Applications
作者:Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan
發(fā)表時間:2019/12/27
論文鏈接:https://paper.yanxishe.com/review/7937
推薦理由:這篇論文考慮的是基于簡歷信息判斷工作勝任程度的問題。
如何根據(jù)簡歷上的信息,例如學(xué)歷、技能描述等,來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來,公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)預(yù)測職業(yè),這些模型包括TextCNN,Bi-GRU-LSTM-CNN,以及Bi-GRU-CNN,并用到了基于互聯(lián)網(wǎng)職業(yè)數(shù)據(jù)集訓(xùn)練的多種預(yù)訓(xùn)練詞嵌入。這篇論文還提出一種簡單但高效的集成模型以包含不同的深度神經(jīng)網(wǎng)絡(luò)模型。實驗結(jié)果表明,所提方法獲得了最高為72.71%的F1值。
這篇論文試圖利用自然語言處理的技術(shù)來幫助互聯(lián)網(wǎng)上的求職者找到更適合自己的職業(yè)發(fā)展方向。
論文名稱:Combining Deep Learning and Verification for Precise Object Instance Detection
作者:Ancha Siddharth /Nan Junyu /Held David
發(fā)表時間:2019/12/27
論文鏈接:https://paper.yanxishe.com/review/7928
推薦理由:深度學(xué)習(xí)對象檢測器通常會以很高的置信度返回誤報。盡管它們優(yōu)化了通用檢測性能,例如平均平均精度(mAP),但它們并不是為可靠性而設(shè)計的。對于可靠的檢測系統(tǒng),如果進行了高置信度檢測,作者將希望高度確定確實已檢測到對象。為此,作者開發(fā)了一套驗證測試,建議的檢測必須通過該測試才能被接受。
作者建立了一個理論框架,可以證明在某些假設(shè)下,作者的驗證測試不會接受任何誤報。基于此框架的近似值,作者提出了一種實用的檢測系統(tǒng),該系統(tǒng)可以高精度地驗證基于機器學(xué)習(xí)的對象檢測器的每次檢測是否正確。作者表明,這些測試可以提高基本檢測器的整體精度,并且公認的示例很有可能是正確的。這允許檢測器在高精度狀態(tài)下操作,因此可以作為可靠的實例檢測方法用于機器人感知系統(tǒng)。
論文名稱:A Gentle Introduction to Deep Learning for Graphs
作者:Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco
發(fā)表時間:2019/12/29
論文鏈接:https://paper.yanxishe.com/review/7947
推薦理由:圖形數(shù)據(jù)的自適應(yīng)處理是一個長期存在的研究主題,最近已被整合為深度學(xué)習(xí)社區(qū)的主要興趣主題。相關(guān)研究的數(shù)量和廣度迅速增加是以缺乏知識的系統(tǒng)化和對早期文獻的關(guān)注為代價的。
本文中作者的這項工作旨在作為圖的深度學(xué)習(xí)領(lǐng)域的教程介紹。相對于對最新文獻的闡釋,它主張對主要概念和體系結(jié)構(gòu)方面進行一致且漸進的介紹,讀者可參考其中的可用調(diào)查。本文對問題進行了自上而下的研究,介紹了一種基于局部和迭代方法來結(jié)構(gòu)化信息處理的圖形表示學(xué)習(xí)的廣義公式。它介紹了基本的構(gòu)建基塊,可以將其組合起來設(shè)計出新穎而有效的圖形神經(jīng)模型。方法論的闡述是對本領(lǐng)域有趣的研究挑戰(zhàn)和應(yīng)用的討論的補充。
論文名稱:AdderNet: Do We Really Need Multiplications in Deep Learning?
作者:Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang
發(fā)表時間:2019/12/31
論文鏈接:https://paper.yanxishe.com/review/7948
推薦理由:這是一篇來自華為諾亞方舟實驗室的論文,于2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經(jīng)網(wǎng)絡(luò)。(似乎稱作“模型壓縮”不太妥當?因為參數(shù)量、運算量、參數(shù)精度都未減少,但是將乘法替代為加法為推斷效率提供了極大的增長空間)
為了提升深度神經(jīng)網(wǎng)絡(luò)的運行效率、減少不必要的運算,常見的方法有網(wǎng)絡(luò)剪枝、知識蒸餾等等。本文則另辟蹊徑,嘗試讓卷積神經(jīng)網(wǎng)絡(luò)擺脫乘法而只使用高效的加法運算。
卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)中,卷積運算是通過卷積核與輸入特征的互相關(guān)(cross-correlation)運算實現(xiàn)的,而這涉及大量浮點數(shù)的乘法運算——要知道,計算機完成一次32位浮點乘法運算往往是加法運算的幾倍!如果能將互相關(guān)運算替代為效果相近而僅涉及加法的運算,豈不是可以極大地提升CNN的運行效率?
32位浮點運算的相對能耗
那么問題來了:互相關(guān)的本質(zhì)是什么呢?是衡量卷積核與輸入特征的相似度。這里,作者大膽地使用L1距離的相反數(shù)代替互相關(guān)運算,作為衡量相似度的另一種途徑。
使用互相關(guān)實現(xiàn)的卷積運算,X為輸入特征,F(xiàn)為卷積核,S()為乘法,Y為層的輸出
將S()換為L1距離
那么問題又來了:模型如何通過反向傳播優(yōu)化?如果對L1距離求導(dǎo),那么結(jié)果只能是0和±1(認為L1距離等于0時導(dǎo)數(shù)為0),相當于對X(m+i,n+j,k)-F(i,j,k,t)求的符號函數(shù)——這并不能很好地使得模型向最優(yōu)的方向優(yōu)化。因此,作者在這里使用了X與F的差作為每層“卷積”核的梯度進行反傳:
同樣,X也需要梯度來回傳至上層,而且與F的梯度不同的是:這個梯度還會影響到上面的所有的層(存在梯度爆炸的可能性),更需要精心的設(shè)計。因此,在這里作者使用了HardTanh(即將y=x用±1截斷,防止梯度過大)使得梯度值(F-X)處于±1范圍之內(nèi)。
除此之外,本文還提出了針對加法網(wǎng)絡(luò)的自適應(yīng)性學(xué)習(xí)率調(diào)整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率(使用乘法運算實現(xiàn)卷積的ResNet50準確率才不過76.2%和92.9%),在性能損失極少的條件下大大地減少了運算時間。
注:盡管卷積層完全未使用乘法,AdderNet-ResNet50仍然在層間采用了涉及乘法運算的批歸一化(Batch Normalization)(畢竟L1距離的相反數(shù)一定是非正的)。但是與卷積層的乘法運算相比,批歸一化的乘法運算量完全不在一個數(shù)量級上,因此可以被忽略不計。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。