0
本文作者: 汪思穎 | 2019-05-21 10:54 | 專題:CVPR 2019 |
雷鋒網(wǎng) AI 科技評論消息,隨著 CVPR 2019 的臨近,越來越多的企業(yè)和高校公布自家的入選論文信息。
近日,AR 產(chǎn)品與服務(wù)提供商亮風臺公布了投影 AR 算法研究最新成果,主要用于解決投影儀光學補償問題,即當投影屏幕不是理想的白色漫反射時,盡可能消除投影面上的圖案,相關(guān)論文《End-to-end Projector Photometric Compensation》已經(jīng)入選 CVPR 2019 的 oral presentation 環(huán)節(jié)。以下便是亮風臺對這篇論文的詳細解讀。
《End-to-end Projector Photometric Compensation》的貢獻主要在以下幾點:
1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然后構(gòu)造一個新穎的名為 CompenNet 的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來隱式的學習這個復(fù)雜的補償函數(shù)。
2. 首次提出一個獨立于設(shè)備和實際投影的數(shù)據(jù)庫和評價基準,今后類似的工作可以在這個評價基準上統(tǒng)一比較,而不需要復(fù)現(xiàn)該研究中使用的設(shè)備和實際投影,以前的工作是沒有這樣的評價基準的。
3. 提供了一個預(yù)訓(xùn)練的方法,將預(yù)訓(xùn)練好的 CompenNet 遷移到新的投影屏幕和硬件設(shè)置上,只需要拍攝少量的采樣圖片就可以媲美甚至超過從零開始訓(xùn)練 CompenNet 和傳統(tǒng)方法,這樣可以大量的節(jié)省采樣圖拍攝時間和訓(xùn)練時間。
4. 在亮風臺提出的評價基準上比較了 CompenNet 和其他傳統(tǒng)的方法,以及一個通用的圖到圖遷移的深度學習框架 pix2pix,實驗結(jié)果顯示在數(shù)值和質(zhì)量效果上新方法都大幅度優(yōu)于其他參與比較的方法。
背景介紹
這篇工作主要解決投影儀光學補償問題,即當投影儀屏幕不是理想的白色漫反射時,屏幕的顏色和紋理會導(dǎo)致用戶看到失真的效果,如下圖 1 所示。
圖 1. (a) 正常光照下的具有紋理和顏色的投影屏幕。(b) 投影儀投射的圖片(也是我們想要看到的效果)。(c) 相機拍攝到的,沒有補償?shù)耐队敖Y(jié)果,即將 (b) 直接投影到 (a) 上。(d) 我們模型計算出的補償圖。(e) 相機拍到的補償后的效果,即將 (d) 投影到 (a) 上。比較 (c) 和 (e),可以看到明顯提升的效果和細節(jié)。
為了解決投影儀光學補償問題,一般是用一個相機來拍攝大量的投影儀投射的圖片,然后從這些拍到的和投射的圖片對中擬合出一個光學補償函數(shù),再將要投射的圖片經(jīng)過這個光學補償函數(shù)補償,最后由投影儀投射,這樣投射的補償正好可以抵消非理想屏幕的顏色、紋理和投影儀本身的非線性光學特性。
但是以上的光學過程過于復(fù)雜,所以很多傳統(tǒng)方法以及目前效果較好的算法,都是將這個過程簡化為投影儀像素與相機拍到的像素只是一一對應(yīng),然后獨立地對每個像素擬合一個光學補償函數(shù)。這樣的假設(shè),往往忽略了很多重要信息,比如由于投影儀和相機跟屏幕的距離,投影儀相機輕微失焦和屏幕表面相互反射等因素,每一個投影儀的像素并不是跟每個相機像素一一對應(yīng),很可能一個投影儀像素覆蓋了幾個相機的像素,這樣的簡化勢必影響投影儀光學補償?shù)男Ч瑢嶒灥慕Y(jié)果也印證了這一點。
研究方法
為了避免過于簡化,我們采用一個新思路,即用 CNN 網(wǎng)絡(luò)來端到端隱式地學習這個復(fù)雜的光學補償函數(shù)。這樣的好處主要是:
1. CNN 有足夠的模型復(fù)雜度來擬合復(fù)雜的光學過程。
2. CNN 濾波器本身就對領(lǐng)域像素采樣,這樣我們不需要像傳統(tǒng)方法那樣進行像素一一對應(yīng)的簡化。
3. 根據(jù)我們的數(shù)學推導(dǎo),發(fā)現(xiàn)可以用一張相機拍到的屏幕照片來表示投影屏幕本身的光學特性,然后將這張照片作為 CompenNet 的第二個輸入,指導(dǎo) CompenNet 學習相機拍攝的失真圖
和屏幕光學特性
的關(guān)系, 如下圖 2 所示。
圖 2. CompenNet 的結(jié)構(gòu)。比較訓(xùn)練(左)和補償(右)過程,我們發(fā)現(xiàn)學習從相機拍攝的未補償圖到投影儀輸入圖片的反映射,就是學習從投影儀輸入圖片(想要用戶看到的效果)到補償圖片的映射
。
網(wǎng)絡(luò)訓(xùn)練和光學補償?shù)牧鞒倘缦聢D 3 所示。
圖 3. 所提出的投影儀補償管道的流程圖包括三個主要步驟。(a)投影并捕捉投影表面圖和一組采樣圖像。(b)使用投影表面圖和捕獲的圖像對訓(xùn)練所提出的 CompenNet,即。(c)利用訓(xùn)練的模型,補償輸入圖像
并投影。
實驗結(jié)果:
圖 4. 相機拍攝的補償效果比較。第一列:投影儀屏幕表面紋理。第二列:相機拍攝的未補償效果。第三到第六列,相機拍攝的不同補償方法補償后的效果。第七列,投影儀的輸入,即想要用戶看到的效果。
表 1. 不同補償方法的數(shù)值比較,以下數(shù)值是平均了來自于 24 個不同環(huán)境設(shè)置,即光照、投影儀、相機姿態(tài)和投影儀表面紋理的結(jié)果。每個環(huán)境設(shè)置有 500 張訓(xùn)練圖,200 張測試圖??梢悦黠@看到在投影儀光學補償任務(wù)上,這一方法優(yōu)于傳統(tǒng)方法和 pix2pix。
表 2. CompenNet 預(yù)訓(xùn)練與重新訓(xùn)練的比較。我們只采用 32 個訓(xùn)練樣本并只訓(xùn)練 500 個循環(huán),總共耗時 170 秒??梢悦黠@看到,微調(diào)預(yù)訓(xùn)練模型的結(jié)果優(yōu)于重新訓(xùn)練 CompenNet,而且因為只需要少量樣本和訓(xùn)練時間,在實際使用中也更便捷。
論文地址:https://arxiv.org/pdf/1904.04335.pdf
補充材料:http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf
源代碼:https://github.com/BingyaoHuang/CompenNet
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。