圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀

本文作者：汪思穎

2018-06-21 09:40

導語：在 CVPR 2018 機器學習圖像壓縮挑戰(zhàn)賽上，圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績，本文是對優(yōu)勝方案的詳細解讀。

圖鴨科技

+10

AI影響因子

比賽

比賽名稱：CLIC 圖像壓縮挑戰(zhàn)賽

年份：2018

企業(yè)：圖鴨科技

操作：競賽

名次：1

雷鋒網(wǎng) AI 研習社按，在 CVPR 2018 機器學習圖像壓縮挑戰(zhàn)賽（CLIC）上，圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績，這是中國企業(yè)在該賽事上取得的最高名次。（圖鴨科技憑借在 CLIC 中 MOS 和 MS-SSIM 指標第一，在雷鋒網(wǎng)學術頻道 AI 科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中增加 10 分。）

CVPR 作為計算機視覺領域的全球頂級會議，其一直關注計算機視覺領域的發(fā)展，為了促進計算機視覺領域圖片壓縮的發(fā)展，Google 聯(lián)合 twitter、Netflix 等聯(lián)合贊助了機器學習圖像壓縮挑戰(zhàn)賽（CLIC）。本次挑戰(zhàn)賽中有來自全球各地的圖片壓縮團隊，主要從 PSNR、MOS、MS-SSIM 這三個業(yè)界通用的圖像質量評估（Image Quality Assessment,IQA）標準和解碼速度（評分較高的隊伍里解碼速度最快）四個方面進行評比。

賽后，圖鴨科技圖片壓縮團隊提交了自己關于深度學習圖片壓縮方向的論文，他們?yōu)槔卒h網(wǎng) AI 研習社撰寫了關于這篇論文的獨家解讀。

摘要：

最近機器學習的方法被廣泛應用到有損圖像壓縮設計中，基于自編碼網(wǎng)絡的算法取得了非常好的算法性能。一個典型的基于神經(jīng)網(wǎng)絡的圖像壓縮框架包括：自編碼網(wǎng)絡結構、量化、先驗概率模型、碼率估計和率-失真優(yōu)化等幾個模塊。本文中我們提出了一種可用于低碼率圖像壓縮，并可進行端到端優(yōu)化的圖像壓縮框架。在驗證集和測試集上的實驗結果均表明，當使用主觀測評標準作為損失函數(shù)，在 MS-SSIM 和 MOS 等主觀性能指標上能取得最優(yōu)的性能。

問題建模：

自編碼網(wǎng)絡的作用是將數(shù)據(jù)從圖像空間 x 轉換到數(shù)據(jù)編碼空間 y，它包含一個編碼器 f_e和解碼器 f_d。編碼器的作用是將圖像像素值 x 轉換為壓縮變量圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀。然后通過量化函數(shù)，生成離散向量。然后使用算術編碼等熵編碼技術將量化后的離散數(shù)據(jù)進行無損壓縮，然后壓縮后的比特流被用于傳輸。在接收端，接收到比特流后，然后使用解碼器從量化后的變量中重建出原圖圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀，碼率可用熵的結構進行建模。我們可使用先驗分布對進行估計?？梢允褂脦?shù)的方式對先驗分布進行擬合，然后用數(shù)據(jù)驅動的方式對先驗概率模型進行學習。在壓縮模型中，失真 D 能用均方誤差圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀進行表示，或使用如 MS-SSIM 之類的主觀失真進行計算。對碼率和失真進行加權的損失函數(shù)用以對自編碼壓縮算法進行端到端的優(yōu)化。在整個系統(tǒng)中，對先驗模型圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀和量化的聯(lián)合優(yōu)化是設計高效壓縮算法最需要考慮的技術。

方法介紹：

(1) 編碼器和解碼器

我們的壓縮自編碼網(wǎng)絡使用了如圖 1 所示的非對稱結構，它包括卷積和非線性單元等模塊。

圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀

圖 1：編碼器和解碼器結構示意圖

(2) 量化：

在訓練過程中，使用加性均勻噪聲設計量化器，表示方式為圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀，其中是隨機噪聲。其中變量

的熵能用變量圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀的熵進行估計，因此在測量過程中，我們能使用作為量化操作。這樣一種方式下，也能對碼率進行準確的估計。

(3) 先驗概率和碼率估計

自然圖像的數(shù)據(jù)分布一般被認為是符合高斯分布，所以我們用零均值，方差表示為圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀的拉普拉斯分布

，對特征圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀的概率分布進行建模，概率的公式如下所示：

其中設計了一個自編碼網(wǎng)絡對方差進行學習，自編碼網(wǎng)絡的結構如圖 2 所示

圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀

圖 2：用于方差超參數(shù)學習的自編碼網(wǎng)絡

壓縮表示圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀作為超參數(shù)自編碼網(wǎng)絡的輸入，對標準差分布進行學習。在超參自編碼網(wǎng)絡中，變量 Z 的學習公式表示為，然后使用如上介紹的方式進行量化，量化公式為圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀，然后被量化后的表示可作為附加變量進行傳輸。

圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀

圖 3：后處理算法結構示意圖

(4) 后處理

低碼率壓縮算法重建圖最顯著的缺點是存在偽影，并且很多紋理細節(jié)會丟失。為了改進在低碼率條件下重建圖的質量，我們設計一個有效的后處理模塊，后處理模塊的具體細節(jié)如圖 3 所示。

(5) 優(yōu)化碼率控制

率-失真優(yōu)化是很多算法，如 HEVC 算法或 JPEG2000 算法中經(jīng)常使用的策略。考慮到碼字約束，我們構建了一個進行碼率有效分配的優(yōu)化算法，目的是在碼率約束的條件下，為每張圖選擇最優(yōu)的模型。每張圖的最優(yōu)配置，通過優(yōu)化以下的優(yōu)化問題進行選擇。

圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀

(6) 實驗結果

我們的方法參加了 CVPR 2018 CLIC 圖像壓縮挑戰(zhàn)賽，在相應的驗證集和測試集上的結果如表 1 所示。我們的算法 tucodecTNGcnn4p 取得了 MS-SSIM 和 MOS 兩項指標排名第一，算法 tucodecTNG 取得了 PSNR 指標排名第二的成績。在驗證集和測試集上的實驗結果如表 1 所示。

圖鴨科技 CVPR 2018 圖像壓縮挑戰(zhàn)賽奪冠，獲獎論文全解讀