OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

本文作者：楊曉凡

2017-12-08 17:35

導語：稀疏性在大模型中還大有可為

雷鋒網(wǎng) AI 科技評論按：OpenAI 的研究人員們近日發(fā)布了一個高度優(yōu)化的 GPU 計算內(nèi)核，它可以支持一種幾乎沒被人們探索過的神經(jīng)網(wǎng)絡架構(gòu)：帶有稀疏塊權(quán)重的網(wǎng)絡。取決于不同的稀疏程度，這些內(nèi)核的運行速度可以比 cuBLAS 或者 cuSPARSE 快一個數(shù)量級。OpenAI 的研究人員們已經(jīng)通過這些內(nèi)核在文本情感分析和文本圖像的生成中得到了頂尖的成果。雷鋒網(wǎng) AI 科技評論把 OpenAI 的這篇介紹文章翻譯如下。

在深度學習領(lǐng)域，模型架構(gòu)和算法的開發(fā)很大程度上受制于 GPU 對基礎(chǔ)計算操作的支持到什么程度。具體來說，其中有一個問題就是通過 GPU 實現(xiàn)稀疏線性操作時計算效率太低。OpenAI 這次發(fā)布的計算內(nèi)核就是為了支持這個的，同時也包含一些實現(xiàn)的多種稀疏模式的初期成果。這些成果已經(jīng)展示出了一些潛力，不過還算不上是決定性的證據(jù)。OpenAI 的研究人員們也邀請更多深度學習領(lǐng)域的研究人員一起參與，攜手繼續(xù)改進這個計算內(nèi)核，讓更多的計算架構(gòu)變得可能。

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

密集連接的層（左側(cè)）可以用稀疏的、更寬的層（中間）或者稀疏的、更深的層（右側(cè)）替代，而計算時間幾乎不變

稀疏權(quán)重矩陣與密集權(quán)重矩陣有明顯的不同，就是其中的很多值都是零。稀疏權(quán)重矩陣是許多模型所向往的基礎(chǔ)部件，因為有稀疏的塊參與的矩陣乘法和卷積操作的計算成本只是和塊中非零數(shù)字的數(shù)目成比例而已。稀疏性的一個明顯的好處，就是在給定的參數(shù)數(shù)目和計算資源限制下可以訓練比別的方法寬得多、深得多的神經(jīng)網(wǎng)絡，比如實現(xiàn)帶有上萬個隱層神經(jīng)元的LSTM網(wǎng)絡（當下能訓練的LSTM只有上千個隱層神經(jīng)元而已）。

計算內(nèi)核

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

密集權(quán)重矩陣（左）、稀疏塊權(quán)重矩陣（中）的示意圖。白色的區(qū)域意味著權(quán)重矩陣中對應的位置是0

這個計算內(nèi)核可以讓全連接和卷積層高效地利用稀疏塊權(quán)重。對于卷積層來說，這個內(nèi)核的輸入和輸出特征維度都可以是稀疏的；而空間維度中的連接性不受到任何影響。稀疏性的定義是在塊的級別上定義的（如上右圖），而且為大小為 8x8、16x16、32x32 的塊做了優(yōu)化（在這里展示的就是 8x8 的塊）。在塊的級別上，稀疏模式是完全可以自己配置的。由于這個內(nèi)核在計算時會直接跳過值為 0 的塊，所以消耗的計算資源就只和非零的權(quán)重的數(shù)目成正比，而不是像以往一樣和輸出/輸出特征的數(shù)目成正比。存儲這些參數(shù)的開銷同樣和非零的權(quán)重的數(shù)目成正比。

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

與cuBLAS相比，這個內(nèi)核在不同稀疏比例下的加速倍數(shù)。測試條件：很寬的神經(jīng)網(wǎng)絡（12288個隱層神經(jīng)元），塊大小為 32x32，mini-batch 大小為 32；測試硬件為 NVIDIA Titan X Pascal GPU，CUDA 版本為 8.0。在測試的這些稀疏比例下，相比 cuSPARSE 的速度提升比例還要高一些。

應用這個計算內(nèi)核

OpenAI的研究人員們也展示了一些在TensorFlow中進行稀疏矩陣乘法的示例代碼

from blocksparse.matmul import BlocksparseMatMul
import tensorflow as tf
import numpy as np

hidden_size = 4096
block_size = 32
minibatch_size = 64

# Create a (random) sparsity pattern
sparsity = np.random.randint(2, size=(hidden_size//block_size,hidden_size//block_size))

# Initialize the sparse matrix multiplication object
bsmm = BlocksparseMatMul(sparsity, block_size=block_size)

# Input to graph
x = tf.placeholder(tf.float32, shape=[None, hidden_size])

# Initialize block-sparse weights
w = tf.get_variable("w", bsmm.w_shape, dtype=tf.float32)

# Block-sparse matrix multiplication
y = bsmm(x, w)

# Run
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
result = sess.run([y], feed_dict = {x: np.ones((minibatch_size,hidden_size), dtype='float32')})
print(result)

微縮 LSTM

稀疏塊內(nèi)核有一種非常有意思的用途，就是用來創(chuàng)建微縮神經(jīng)網(wǎng)絡。微縮圖之間可以進行連接，圖中的任意兩個節(jié)點都只需要很少的幾個步驟就可以連接起來，即便整張圖有數(shù)十億個節(jié)點也可以。OpenAI的研究人員們想要實現(xiàn)這樣的微縮連接性的原因是，即便網(wǎng)絡是高度稀疏的，他們?nèi)匀幌Ｍ畔⒖梢栽谡麖垐D中快速傳播。人類大腦就顯示出了微縮連接模式，從而也帶來了「如果LSTM有同樣的特性，它的表現(xiàn)能否有所提高」的問題。通過微縮稀疏連接性的應用，OpenAI 的研究人員們高效地訓練了帶有大約 2 萬個隱層神經(jīng)元的 LSTM 模型，同時網(wǎng)絡的寬度也要比參數(shù)總數(shù)目類似的網(wǎng)絡寬 5 倍。訓練后的網(wǎng)絡在文本生成建模、半監(jiān)督情感分類上都有更好的表現(xiàn)。

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

在微縮圖中，即便稀疏程度很高的情況下節(jié)點之間也只需要很少的步數(shù)就可以互相連接。上面動圖里顯示的是從二維 Watts-Strogatz 微縮圖中，中央的節(jié)點（像素）向外激活的情況；另外為了更好的觀感做了隨機的平滑。在這張圖中，不同節(jié)點之間路徑長度的平均值小于5，和 OpenAI 研究員們的 LSTM 實驗中 Barabasi-Albert 圖的狀況類似。

情感表征學習

OpenAI 的研究人員們訓練了參數(shù)數(shù)目差不多的稀疏塊權(quán)重網(wǎng)絡和密集權(quán)重矩陣網(wǎng)絡，對比它們的表現(xiàn)。稀疏模型在所有的情感數(shù)據(jù)集上都取得了更好的表現(xiàn)。在 IMDB 數(shù)據(jù)集上，OpenAI 的這個稀疏模型把此前最好的 5.91% 錯誤率大幅降低到了 5.01%。相比 OpenAI 此前一些實驗中只在短句上有好的表現(xiàn)，這次在長句中也顯示出了有潛力的結(jié)果。

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡，一樣的計算開銷

基于生成式密集和稀疏模型提取的特征訓練的線性模型的情感分類結(jié)果。這里的密集和稀疏模型有幾乎相等的參數(shù)數(shù)目。

壓縮任務的表現(xiàn)

借助稀疏的、更寬的 LSTM 模型，比特數(shù)每字符的壓縮結(jié)果在實驗中從 1.059 進步到了 1.048，同樣是在具有差不多的參數(shù)數(shù)目的模型上達到的。帶有稀疏塊的線性層架構(gòu)如果換成密集連接的線性層，這個結(jié)果也可以得到進一步的提高。OpenAI 的研究人員們在用于 CIFAR-10 的 PixelCNN++ 模型上做了一個簡單的修改，把正常的 2D 卷積核換成了稀疏核，同時把網(wǎng)絡變得更深的同時保持其它的超參數(shù)不變。修改之后的網(wǎng)絡也把比特數(shù)每維度的數(shù)值從 2.92 降低到了 2.90，達到了這個數(shù)據(jù)集上的最好結(jié)果。

未來研究方向

神經(jīng)網(wǎng)絡中的多數(shù)權(quán)重在訓練結(jié)束后都可以剪枝。如果讓剪枝動作配合此次的稀疏內(nèi)核使用，那推理時能節(jié)省多少計算時間、提高多少計算速度呢？
在生物大腦中，網(wǎng)絡的稀疏結(jié)構(gòu)有一部分是在成長時確定的（成長的另一個作用是改變連接強度）。人造神經(jīng)網(wǎng)絡中是否也能有類似的做法呢，就是不僅通過梯度學習連接權(quán)重，同時還學習最優(yōu)的稀疏結(jié)構(gòu)？近期有一篇論文就提出了一種學習稀疏塊 RNN 的方法，OpenAI 最近也提出了一個算法用來在神經(jīng)網(wǎng)絡中做 L0 規(guī)范化，兩者都可以在這個方向上起到作用。
OpenAI 的研究人員們這次訓練了帶有上萬個隱層神經(jīng)元的 LSTM 模型，帶來了更好的文本建模表現(xiàn)。那么更廣泛地說，帶有很大的權(quán)重矩陣的模型如果用了稀疏層，就可以保持與更小的模型一樣的參數(shù)數(shù)目和計算開銷。相信一定有一些領(lǐng)域能讓這種方法發(fā)揮很大的作用。

論文地址：https://s3-us-west-2.amazonaws.com/openai-assets/blocksparse/blocksparsepaper.pdf

via OpenAI Blog，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。