如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

本文作者： AI研習社-譯站

2018-03-08 11:39

導語：我用Pytorch在卷積層上實現(xiàn)了張量分解的方法

本文為雷鋒字幕組編譯的技術(shù)博客，原標題Accelerating deep neural networks with tensor decompositions，作者為Jacob。

翻譯 | 林立宏整理 | 凡江

背景

在這篇文章中，我將介紹幾種低秩張量分解方法，用于在現(xiàn)有的深度學習模型中進行分層并使其更緊湊。我也將分享PyTorch代碼，它使用Tensorly來進行在卷積層上的CP分解和Tucker分解。

盡管希望大部分帖子都是可以獨立閱讀的，關(guān)于張量分解的回顧可以在這里找到。Tensorly的作者也寫了于Tensor的基礎(chǔ)內(nèi)容非常棒的notebook。這幫助我很好的開始學習這塊內(nèi)容，建議你閱讀一下這些內(nèi)容。

加上裁剪（pruning），張量分解是加快現(xiàn)有深度神經(jīng)網(wǎng)絡的實用工具，我希望這篇文章能讓這些內(nèi)容更加容易理解。

這些方法需要將一個層分解成幾個更小的層。盡管在分解后會有更多的層，但是浮點運算次數(shù)和權(quán)重的總數(shù)會變小。一些報告的結(jié)果是整個網(wǎng)絡的x8倍的速度提升（不針對像imagenet這樣的大型任務），或者imagenet中的特定層中x4倍的提升。我的結(jié)論是用這些分解方式，我能夠獲得x2到x4倍的加速，這取決于我愿意犧牲多少的精度。

在這篇文章中我介紹了一些稱為裁剪（pruning）的技術(shù)以減少模型中的參數(shù)數(shù)量。在一個數(shù)據(jù)集上正向傳遞（有時是反向傳遞）裁剪（pruning），然后根據(jù)網(wǎng)絡中激活的一些標準對神經(jīng)元進行排序。

完全不同的是，張量分解的辦法只用到層的權(quán)重，假設網(wǎng)絡層是參數(shù)化的，它的權(quán)重能夠用一個矩陣或者是一個低秩的張量來表示。這意味這個它們在參數(shù)化的網(wǎng)絡下效果最佳。像VGG神經(jīng)網(wǎng)絡設計為完全參數(shù)化的。另外一個關(guān)于參數(shù)化模型的例子是使用更少的類別對網(wǎng)絡進行微調(diào)以實現(xiàn)更簡單的任務。

和裁剪（pruning）相似，分解之后通過模型需要微調(diào)來恢復準確性。

在我們會深入討論細節(jié)之前，最后一件要說明的事是，雖然這些方法是實用的，并給出了很好的結(jié)果，但它們有一些缺點：

它們能夠在一個線性權(quán)重上執(zhí)行（比如一個卷積或者一個全連接的層），忽略了任何非線性的內(nèi)容。
它們是貪婪，自認為聰明地分解層，忽略了不同層之間的相互作用。

目前還要試圖解決這些問題，而且它仍然是一個活躍的研究領(lǐng)域。

截斷SVD用于分解完全連接的層

第一份我能找到的使用這個來加速深度神經(jīng)網(wǎng)絡的是在Fast-RNN論文中，Ross Girshick使用它來加速用于檢測的全連接層。代碼可以在這里找到：pyfaster-rcnn implementation。

SVD概況

奇異值分解使我們能夠分解任何具有n行和m列的矩陣A：

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

S是一個對角矩陣，其對角線上有非負值（奇異值），并且通常被構(gòu)造成奇異值按降序排列的。U和V是正交矩陣：如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

如果我們?nèi)∽畲蟮钠娈愔挡⑵溆嗟臍w零，我們得到A的近似值：如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）具有作為Frobenius范數(shù)最接近于A的秩t矩陣的性質(zhì)，所以如果t足夠大，是A的良好近似。

在全連接層上的SVD

一個全連接層通常是做了矩陣乘法，輸入一個矩陣A然后增加一個偏差b：

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

我們可以取A的SVD，只保留第一個奇異值。

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

這不是一個完全連接的層，而是指導我們?nèi)绾螌崿F(xiàn)它作為兩個較小的：

第一個將有一個mxt的形狀，將沒有偏差，其權(quán)重將取自。
第二個將有一個txn的形狀，將有一個等于b的偏差，其權(quán)重將取自。

權(quán)重總數(shù)從nxm下降到t（n + m）。

在卷積層上張量分解

二維卷積層是一個多維矩陣（后面用-張量），有四個維度：

cols x rows x input_channels x output_channels.

遵循SVD的例子，我們想要以某種方式將張量分解成幾個更小的張量。卷積層轉(zhuǎn)換為幾個較小近似的卷積層。

為此，我們將使用兩種流行的（至少在Tensor算法的世界中）張量分解：CP分解和Tucker分解（也稱為高階SVD或其他名稱）。

1412.6553 使用微調(diào)CP分解加速卷積神經(jīng)網(wǎng)絡

1412.6553 Speeding-up Convolutional Neural Networks Using Fine-tuned CP-Decomposition 這篇論文說明了如果CP分解能夠用于卷積層的加速，正如我們會看到的，這將卷積層納入類似移動網(wǎng)絡的東西。

他們使用它來加速網(wǎng)絡的速度，而不會明顯降低精度。在我自己的實驗中，我可以使用這個在基于VGG16的網(wǎng)絡上獲得x2加速，而不會降低準確度。

我使用這種方法的經(jīng)驗是，需要非常仔細地選擇學習率，微調(diào)以使其工作，學習率通常應該非常?。ù蠹s 如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼））。

一個秩R矩陣可以被視為R秩和1矩陣的和，每個秩1矩陣是一個列向量乘以一個行向量：如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

SVD為我們提供了使用SVD中的U和V列來寫矩陣和的方法：如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

如果我們選擇一個小于矩陣滿秩的R，那么這個和就是一個近似值，就像截斷SVD的情況一樣。

CP分解讓我們推廣了張量。

使用CP分解，我們的卷積核，一個四維張量公式，可以近似為一個選定的R：如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

我們希望R對于有效的分解是小的，但是對保持近似高精度是足夠大的。

帶CP分解的卷積正向傳遞

為了傳遞圖層，我們使用輸入如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）進行卷積：

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

這給了我們一個辦法來解決這個問題：

1.首先做一個wise（1x1xS）與如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）卷積。這減少了從S到R輸入通道的數(shù)量。下一步將在較少數(shù)量的通道上完成卷積，使其更快。

2.用如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）在空間維度上執(zhí)行分離的卷積。就像在移動網(wǎng)絡中一樣，卷積是深度可分的，分別在每個通道中完成。與mobilenets不同，卷積在空間維度上也是可分的。

3.做另一個逐點卷積來改變從R到T的通道數(shù)量如果原始卷積層有一個偏差，在這一點上加上它。

注意像在移動網(wǎng)中的逐點和深度卷積的組合。在使用mobilenets的時候，你必須從頭開始訓練一個網(wǎng)絡來獲得這個結(jié)構(gòu)，在這里我們可以把現(xiàn)有的圖層分解成這種形式。

與移動網(wǎng)絡一樣，為了獲得最快的速度，需要一個有效實現(xiàn)深度可分離卷積的平臺。

用PyTorch和Tensorly卷積層CP分解

如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼）

1511.06530 用于快速和低功率移動應用的深度卷積神經(jīng)網(wǎng)絡的壓縮

1511.06530 Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications 這一篇非?？岬恼撐?，說明了如何使用Tucker分解來加速卷積層來得到更好的結(jié)果。我也在基于VGG的參數(shù)化網(wǎng)絡用了這種加速，比CP分解的精度要好。作者在論文中指出，它可以讓我們使用更高的學習率（我用如何用張量分解加速深層神經(jīng)網(wǎng)絡？（附代碼））進行微調(diào)。