0
本文作者: AI研習社 | 2020-03-26 15:04 |
使用混合精度的方法在GPU集群上進行深度循環(huán)神經(jīng)網(wǎng)絡的訓練
PoseNet3D:無監(jiān)督的3D人體形狀和姿態(tài)估計
AET vs. AED:無監(jiān)督表示學習通過自編碼變換而不是自編碼數(shù)據(jù)
基于注意力的視點選擇網(wǎng)絡用于光場視差估計
基于CNN的中文lexicon rethinking NER模型
論文名稱:Training distributed deep recurrent neural networks with mixed precision on GPU clusters
作者:Alexey Svyatkovskiy / Julian Kates-Harbeck / William Tang
發(fā)表時間:2019/11/30
論文鏈接:https://paper.yanxishe.com/review/13855?from=leiphonecolumn_paperreview0326
推薦原因
核心問題:本文從硬件選取、模型搭建、分布式計算策略、學習率、損失函數(shù)等方面,非常詳細的講解了如何高效使用多達100個GPU進行深度循環(huán)神經(jīng)網(wǎng)絡
創(chuàng)新點:本文沒有相關工作的部分,貴在務實,從實際的研究工作中部署一個高效的GPU集群的角度,討論了如何將分布式計算策略、基于混合精度的訓練模型結合起來,使得模型的訓練速度加快、內(nèi)存消耗降低,并且模型的表現(xiàn)分數(shù)并不會下降。同時,作者還研究了使用參數(shù)來對損失函數(shù)進行縮放,以此提高模型在集群環(huán)境下的收斂速度
研究意義:無論是循環(huán)神經(jīng)網(wǎng)絡,還是卷積神經(jīng)網(wǎng)絡,模型的規(guī)模越來越大,本文作者所提出的各種技巧,能解決訓練過程實際的問題,一方面,能在保證了模型的準確率的情況下減少訓練的成本,另一方面,也有助于在當前的資源下,訓練更大的模型。
這些技巧主要針對GPU集群環(huán)境,但也能給單GPU環(huán)境的同學提供參考。
論文名稱:PoseNet3D: Unsupervised 3D Human Shape and Pose Estimation
作者:Tripathi Shashank /Ranade Siddhant /Tyagi Ambrish /Agrawal Amit
發(fā)表時間:2020/3/7
論文鏈接:https://paper.yanxishe.com/review/13853?from=leiphonecolumn_paperreview0326
推薦原因
從二維關節(jié)中恢復三維人體姿態(tài)是一個高度無約束的問題。本文作者提出了一種新的神經(jīng)網(wǎng)絡框架PoseNet3D,其以2D關節(jié)點作為輸入,輸出3D骨架和SMPL人體模型的參數(shù)。作者使用了學生-老師框架,從而避免了在訓練過程中使用3D數(shù)據(jù)如配對/未配對的3D數(shù)據(jù)、動捕數(shù)據(jù)、深度圖或者多視角圖像等等。作者首先使用2D人體關鍵點訓練了一個教師網(wǎng)絡輸出3D人體骨架,教師網(wǎng)絡將其知識提取到學生網(wǎng)絡中,然后學生網(wǎng)絡預測基于SMPL人體模型表達的3D人體姿態(tài)。
作者的方法在Human3.6M數(shù)據(jù)集上相比之前無監(jiān)督的方法,3D關節(jié)點預測誤差減少了18%。在自然數(shù)據(jù)集上,文章方法恢復的人體姿態(tài)和網(wǎng)格也是較為自然、真實的,在連續(xù)幀上預測結果也比較連續(xù)。
論文名稱:AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data
作者:Zhang Liheng /Qi Guo-Jun /Wang Liqiang /Luo Jiebo
發(fā)表時間:2019/1/14
論文鏈接:https://paper.yanxishe.com/review/13851?from=leiphonecolumn_paperreview0326
推薦原因
這篇論文提出了一種新的通用的無監(jiān)督表示學習框架——自編碼變換(Auto-Encoding Transformation,AET)。經(jīng)典的自編碼數(shù)據(jù)框架的輸入是圖像,采用編碼-解碼網(wǎng)絡得到重構之后的圖像。而自編碼變換的輸入是常見的變換(如旋轉(zhuǎn),射影變換,放射變換等),即圖像和經(jīng)過變換之后的圖像,經(jīng)過編碼-解碼結構之后得到重構的變換,重構的變換和原始的變換使用MSE作為損失函數(shù),這對于參數(shù)化和非參數(shù)化的變換,以及GAN都是有效的。作者通過實驗表明,通過重構變換可以提取到更加豐富并且具有判別性的特征,當自編碼變換網(wǎng)絡訓練完畢之后,使用編碼部分的網(wǎng)絡結構和權重就可以作為一種特征提取器,從而泛化到其他具體任務上。作者利用NIN網(wǎng)絡,分別采用基于模型的分類器和不基于模型的分類器(KNN)進行圖像分類實現(xiàn),其性能比之前的無監(jiān)督方法要優(yōu)越。該論文收錄在CVPR 2019,其提出的新的通用的無監(jiān)督表示學習框架對無監(jiān)督學習具有很大的啟發(fā)作用。
論文名稱:Attention-based View Selection Networks for Light-field Disparity Estimation
作者:Yu-Ju Tsai / Yu-Lun Liu / Ming Ouhyoung / Yung-Yu Chuang
發(fā)表時間:2020/2/1
論文鏈接:https://paper.yanxishe.com/review/13680?from=leiphonecolumn_paperreview0326
推薦原因
這篇論文是用來解決光場圖像(Light-fifield)的深度估計問題。對于光場圖像,其輸入是同一個物體多個不同視角的圖像,作者認為這些視角之間具有很大的重疊,在提取特征時是存在重復和冗余現(xiàn)象的。由此,作者提出了一個基于注意力機制的視角選擇網(wǎng)絡,作為多個視角特征的重要性衡量權重,從而去除一些重疊和冗余的視角。具體來說,是借鑒雙目深度估計的PSMNet網(wǎng)絡結構,在匹配代價體(cost volume)之后插入一個基于注意力的視角選擇網(wǎng)絡。網(wǎng)絡的輸出是0-1的權重,按照構造形式可以分為無約束的(free),對稱型的(symmetric)和放射狀的(radial)三種形式,并且學習的參數(shù)量逐漸減少。這篇論文的想法比較直接,但是確實能取得當前光場圖像深度估計的最佳性能,收錄在AAAI 2020。
論文名稱:CNN-Based Chinese NER with Lexicon Rethinking
作者:Tao Gui
發(fā)表時間:2019/11/6
論文鏈接:https://paper.yanxishe.com/review/13548?from=leiphonecolumn_paperreview0326
推薦原因
本文研究意義:
采用長時短期記憶(LSTM)對字符級中文命名實體識別(NER)目前已經(jīng)實現(xiàn)了不錯的效果,然而當我們在具體工程化落地的過程中,會出現(xiàn)GPU在并行性計算的時候會和候選詞之間發(fā)生沖突的問題,針對這一問題,作者建議采用更快卷積神經(jīng)網(wǎng)絡CNN重新構建模型,因為LSTM是一種時序網(wǎng)絡不能夠進行并行化計算,而CNN是可以進行并行化計算。通過實驗表明,作者所提出的方法可以執(zhí)行比最先進的方法快3.21倍,同時實現(xiàn)更好的性能。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關文章:
今日 Paper | PolarMask;時間序列;面部表情編輯;ELECTRA 等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。