0
本文作者: AI研習社 | 2020-03-16 14:29 |
深度上下文感知移動活動識別和未知上下文發(fā)現的不確定性量化
StereoNet:基于引導分層優(yōu)化的實時邊緣感知深度預測
移動設備上的任意時間雙目深度估計
實時自適應深度立體匹配
CNN合成的圖片現在能輕松鑒別了
論文名稱:Uncertainty Quantification for Deep Context-Aware Mobile Activity Recognition and Unknown Context Discovery
作者:Huo Zepeng /PakBin Arash /Chen Xiaohan /Hurley Nathan /Yuan Ye /Qian Xiaoning /Wang Zhangyang /Huang Shuai /Mortazavi Bobak
發(fā)表時間:2020/3/3
論文鏈接:https://paper.yanxishe.com/review/13410?from=leiphonecolumn_paperreview0316
推薦原因
這篇論文被AISTATS 2020接收,考慮的是可穿戴計算中的活動識別問題。
在這個問題中,活動特征可能取決于上下文,而且未知上下文和活動可能會不時發(fā)生,這需要算法具有靈活性和適應性。這篇論文提出了一種上下文感知混合模型,稱為深度模型α-β網絡,結合了基于最大熵的不確定性量化以增強人類活動識別的性能。通過以數據驅動的方式識別高層級上下文來指導模型開發(fā),新模型將準確率和F值提高了10%。為確保訓練穩(wěn)定性,這篇論文在公共和內部數據集中都使用了基于聚類的預訓練,以證明通過未知上下文發(fā)現可以提高準確率。
論文名稱:StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
作者:Khamis Sameh /Fanello Sean /Rhemann Christoph /Kowdle Adarsh /Valentin Julien /Izadi Shahram
發(fā)表時間:2018/7/24
論文鏈接:https://paper.yanxishe.com/review/13540?from=leiphonecolumn_paperreview0316
推薦原因
這篇論文提出了第一個實時的雙目深度估計網絡StereoNet,能夠在英偉達Titan X上達到60FPS。論文的亮點主要在網絡結構的設計上,StereoNet屬于基于3D卷積的立體匹配,cost volume的大小決定了網絡的參數量和推理速度。作者發(fā)現可以把cost volume設計的比較小,但是它仍然包含了較多的特征信息,只會有較少的精度損失。這樣網絡可以先得到一個粗糙的視差圖。之后作者設計了一種層次化的,邊緣敏感的精修網絡,實際上是利用卷積網絡估計殘差,利用殘差和粗糙的視差圖分層優(yōu)化,得到更加細致的,保留邊緣的視差圖。該論文收錄在ECCV 2018上,是首次實現實時的雙目深度估計。
論文名稱:Anytime Stereo Image Depth Estimation on Mobile Devices
作者:Wang Yan /Lai Zihang /Huang Gao /Wang Brian H. /van der Maaten Laurens /Campbell Mark /Weinberger Kilian Q.
發(fā)表時間:2018/10/26
論文鏈接:https://paper.yanxishe.com/review/13539?from=leiphonecolumn_paperreview0316
推薦原因
這篇論文提出了一個可以在移動設備上實時運行的雙目深度估計網絡。作者觀察發(fā)現深度網絡中圖像的分辨率大小和需要考慮的最大視差值是影響雙目深度估計網絡推理速度的兩個因素。以此為依據,作者設計了一個多階段的視差估計網絡AnyNet,可以在不同的時間限制下達到不同程度的精度。使用的階段越少,推理速度越快,相應的準確率就越低。AnyNet只在第一個階段估計視差,之后的階段僅估計殘差,這樣能夠提高推理速度。作者還發(fā)現最后一個階段使用SPNet能夠獲得更加精細的視差圖。論文收錄在ICRA 2019上,比StereoNet速度更快,精度更高,能夠應用于移動設備上,可以為工業(yè)界提供較好的學術基礎。
論文名稱:Real-time self-adaptive deep stereo
作者:Tonioni Alessio /Tosi Fabio /Poggi Matteo /Mattoccia Stefano /Di Stefano Luigi
發(fā)表時間:2018/10/12
論文鏈接:https://paper.yanxishe.com/review/13538?from=leiphonecolumn_paperreview0316
推薦原因
論文提出了第一個實時的自適應的深度立體匹配網絡MADNet。作者設計了一個編碼-解碼網絡作為視差估計網絡,編碼部分是一個自上而下的金字塔結構,而解碼部分是一個自下而上的金字塔結構,每個部分共6層,每層輸出不同分辨率的預測視差。傳統(tǒng)的完全自適應是采用無監(jiān)督損失函數直接反向傳播,但是這種訓練方法在要求實時環(huán)境下計算量太大。作者設計了一個自適應調制模塊(MAD),采用啟發(fā)式的方法每次只選擇一種分辨率的分支進行反向傳播,這樣比整個網絡都進行反向傳播要快很多。MADNet的視差估計速度達到40FPS,在線自適應速度達到15FPS,是在實時自適應深度網絡上邁出的第一步。論文為CVPR 2019 Oral。
論文名稱:CNN-generated images are surprisingly easy to spot... for now
作者:Wang Sheng-Yu /Wang Oliver /Zhang Richard /Owens Andrew /Efros Alexei A.
發(fā)表時間:2019/12/23
論文鏈接:https://paper.yanxishe.com/review/13535?from=leiphonecolumn_paperreview0316
推薦原因
這篇論文主要探索如何利用單一的GAN模型來鑒別其他各種GAN生成的圖像。無論各種GAN生成的圖像是何種類型,使用何種網絡結構,合成的假圖都用相同的缺陷。作者首先利用11種GAN模型來構造一個大規(guī)模的合成圖像鑒別數據庫,ForenSynths Datsets。之后僅僅利用單一的ProGAN模型來訓練,就能夠在ForenSynths上表現出良好的泛化性能,甚至可以打敗新出的StyleGAN2和DeepFake。作者通過實驗表明數據增強作為后處理方法,以及訓練數據的多樣性是成功的關鍵,尤其是數據增強使得訓練一個鑒別器就有良好的泛化能力和魯棒性。這篇論文收錄在CVPR 2020,是反造假技術再進一步的標志。造假和反造假技術一直在共同進步。
雷鋒網雷鋒網雷鋒網
相關文章:
今日 Paper | 弱監(jiān)督目標的定位;遞歸殘差卷積神經網絡;嵌套U-Net結構;超強小目標檢測等
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。