0
本文作者: AI研習(xí)社-譯站 | 2018-05-14 10:59 |
雷鋒網(wǎng)按:本文由雷鋒字幕組編譯,原標(biāo)題New AI Imaging Technique Reconstructs Photos with Realistic Results,作者為Nvidia Developer News Center。
翻譯 | 李誠 孫啟超 整理 | 凡江
日前,英偉達公司由 Guilin Liu 領(lǐng)導(dǎo)的研發(fā)團隊發(fā)布了一種最先進的深度學(xué)習(xí)算法,可以編輯圖像或復(fù)原那些像素有缺失的圖像。
該方法還可以通過刪除圖像的部分內(nèi)容再進行填充的方式,來重新編輯圖像。
這種“圖像修復(fù)”功能應(yīng)用在照片編輯軟件中,先摳掉圖像中不需要的內(nèi)容,同時用算法生成的真實數(shù)據(jù)來填充。
論文中寫道:“以前類似的深度學(xué)習(xí)方法重點放在位于圖像中心的矩形區(qū)域,并且經(jīng)常依賴于復(fù)雜的后處理操作,而我們的新模型有更好的效果。它可以魯棒地處理任何形狀、位置的馬賽克遮擋。 并且未來可以更平滑地處理更大的區(qū)域。”
在著手訓(xùn)練神經(jīng)網(wǎng)絡(luò)之前,首先生成了 55,116 個具有隨機紋理和任意形狀、大小的馬賽克形狀作為訓(xùn)練集。他們還生成了近 25,000 個馬賽克圖形作為測試數(shù)據(jù)集。 為了提高圖像重建的準(zhǔn)確度,根據(jù)馬賽克形狀的相對大小把這些圖像進一步分成了六類。
為了訓(xùn)練生成的馬賽克例子
團隊通過將生成的馬賽克圖案覆蓋在 ImageNet,Places2 和 CelebA-HQ 數(shù)據(jù)集的圖像上,使用 NVIDIA Tesla V100 GPU 和經(jīng)過 cuDNN 加速的 PyTorch 深度學(xué)習(xí)框架來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
在訓(xùn)練階段,將空白或缺失部分引入上述數(shù)據(jù)集完整的訓(xùn)練集中,使神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)復(fù)原缺失的像素。在測試階段,將與訓(xùn)練階段不同形狀的馬賽克圖案應(yīng)用于測試集的圖像中,從而提高復(fù)原精度的范化能力。
現(xiàn)有的基于深度學(xué)習(xí)的圖像修復(fù)方法效果受限,是因為受損像素的輸出一定依賴于這些像素提供給神經(jīng)網(wǎng)絡(luò)的輸入。這導(dǎo)致圖像中產(chǎn)生了顏色偏差和模糊的偽信息。
為了解決這個問題,研究團隊開發(fā)了一種方法,確保受損像素的輸出不依賴于因這些像素產(chǎn)生的輸入值。這個方法是使用“部分卷積”層,根據(jù)其感受野的有效性對每個輸出進行重新歸一化 。這種重新歸一化的方法可確保輸出值與每個感受野中受損像素的值相互獨立無關(guān)。該模型由UNet架構(gòu)實現(xiàn)的部分卷積功能。使用一組損失函數(shù)來訓(xùn)練模型,匹配VGG模型的特征損失和風(fēng)格損失以產(chǎn)生逼真的輸出。
研發(fā)人員也在論文中引用到,相同的網(wǎng)絡(luò)框架可以來完成高分辨率圖像的處理任務(wù)。
論文參考:https://arxiv.org/pdf/1804.07723.pdf
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。