TensorFlow中RNN實(shí)現(xiàn)的正確打開方式

本文作者：汪思穎

2017-09-04 14:46

導(dǎo)語：一起來練練手

雷鋒網(wǎng) AI科技評論按：本文作者何之源，原文載于知乎專欄AI Insight，雷鋒網(wǎng) AI科技評論獲其授權(quán)發(fā)布。

上周寫的文章《完全圖解RNN、RNN變體、Seq2Seq、Attention機(jī)制》介紹了一下RNN的幾種結(jié)構(gòu)，今天就來聊一聊如何在TensorFlow中實(shí)現(xiàn)這些結(jié)構(gòu)，這篇文章的主要內(nèi)容為：

一個(gè)完整的、循序漸進(jìn)的學(xué)習(xí)TensorFlow中RNN實(shí)現(xiàn)的方法。這個(gè)學(xué)習(xí)路徑的曲線較為平緩，應(yīng)該可以減少不少學(xué)習(xí)精力，幫助大家少走彎路。
一些可能會踩的坑
TensorFlow源碼分析
一個(gè)Char RNN實(shí)現(xiàn)示例，可以用來寫詩，生成歌詞，甚至可以用來寫網(wǎng)絡(luò)小說！（項(xiàng)目地址：https://github.com/hzy46/Char-RNN-TensorFlow）

一、學(xué)習(xí)單步的RNN：RNNCell

如果要學(xué)習(xí)TensorFlow中的RNN，第一站應(yīng)該就是去了解“RNNCell”，它是TensorFlow中實(shí)現(xiàn)RNN的基本單元，每個(gè)RNNCell都有一個(gè)call方法，使用方式是：(output, next_state) = call(input, state)。

借助圖片來說可能更容易理解。假設(shè)我們有一個(gè)初始狀態(tài)h0，還有輸入x1，調(diào)用call(x1, h0)后就可以得到(output1, h1)：

TensorFlow中RNN實(shí)現(xiàn)的正確打開方式

再調(diào)用一次call(x2, h1)就可以得到(output2, h2)：

TensorFlow中RNN實(shí)現(xiàn)的正確打開方式

也就是說，每調(diào)用一次RNNCell的call方法，就相當(dāng)于在時(shí)間上“推進(jìn)了一步”，這就是RNNCell的基本功能。

在代碼實(shí)現(xiàn)上，RNNCell只是一個(gè)抽象類，我們用的時(shí)候都是用的它的兩個(gè)子類BasicRNNCell和BasicLSTMCell。顧名思義，前者是RNN的基礎(chǔ)類，后者是LSTM的基礎(chǔ)類。這里推薦大家閱讀其源碼實(shí)現(xiàn)（地址：http://t.cn/RNJrfMl），一開始并不需要全部看一遍，只需要看下RNNCell、BasicRNNCell、BasicLSTMCell這三個(gè)類的注釋部分，應(yīng)該就可以理解它們的功能了。

除了call方法外，對于RNNCell，還有兩個(gè)類屬性比較重要：

state_size
output_size

前者是隱層的大小，后者是輸出的大小。比如我們通常是將一個(gè)batch送入模型計(jì)算，設(shè)輸入數(shù)據(jù)的形狀為(batch_size, input_size)，那么計(jì)算時(shí)得到的隱層狀態(tài)就是(batch_size, state_size)，輸出就是(batch_size, output_size)。

可以用下面的代碼驗(yàn)證一下（注意，以下代碼都基于TensorFlow最新的1.2版本）：

import tensorflow as tf
import numpy as np

cell = tf.nn.rnn_cell.BasicRNNCell(num_units=128) # state_size = 128
print(cell.state_size) # 128

inputs = tf.placeholder(np.float32, shape=(32, 100)) # 32 是 batch_size
h0 = cell.zero_state(32, np.float32) # 通過zero_state得到一個(gè)全0的初始狀態(tài)，形狀為(batch_size, state_size)
output, h1 = cell.call(inputs, h0) #調(diào)用call函數(shù)

print(h1.shape) # (32, 128)

對于BasicLSTMCell，情況有些許不同，因?yàn)長STM可以看做有兩個(gè)隱狀態(tài)h和c，對應(yīng)的隱層就是一個(gè)Tuple，每個(gè)都是(batch_size, state_size)的形狀：

import tensorflow as tf
import numpy as np
lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=128)
inputs = tf.placeholder(np.float32, shape=(32, 100)) # 32 是 batch_size
h0 = lstm_cell.zero_state(32, np.float32) # 通過zero_state得到一個(gè)全0的初始狀態(tài)
output, h1 = lstm_cell.call(inputs, h0)

print(h1.h) # shape=(32, 128)
print(h1.c) # shape=(32, 128)

二、學(xué)習(xí)如何一次執(zhí)行多步：tf.nn.dynamic_rnn

基礎(chǔ)的RNNCell有一個(gè)很明顯的問題：對于單個(gè)的RNNCell，我們使用它的call函數(shù)進(jìn)行運(yùn)算時(shí)，只是在序列時(shí)間上前進(jìn)了一步。比如使用x1、h0得到h1，通過x2、h1得到h2等。這樣的h話，如果我們的序列長度為10，就要調(diào)用10次call函數(shù)，比較麻煩。對此，TensorFlow提供了一個(gè)tf.nn.dynamic_rnn函數(shù)，使用該函數(shù)就相當(dāng)于調(diào)用了n次call函數(shù)。即通過{h0,x1, x2, …., xn}直接得{h1,h2…,hn}。

具體來說，設(shè)我們輸入數(shù)據(jù)的格式為(batch_size, time_steps, input_size)，其中time_steps表示序列本身的長度，如在Char RNN中，長度為10的句子對應(yīng)的time_steps就等于10。最后的input_size就表示輸入數(shù)據(jù)單個(gè)序列單個(gè)時(shí)間維度上固有的長度。另外我們已經(jīng)定義好了一個(gè)RNNCell，調(diào)用該RNNCell的call函數(shù)time_steps次，對應(yīng)的代碼就是：

# inputs: shape = (batch_size, time_steps, input_size)
# cell: RNNCell
# initial_state: shape = (batch_size, cell.state_size)。初始狀態(tài)。一般可以取零矩陣
outputs, state = tf.nn.dynamic_rnn(cell, inputs, initial_state=initial_state)

此時(shí)，得到的outputs就是time_steps步里所有的輸出。它的形狀為(batch_size, time_steps, cell.output_size)。state是最后一步的隱狀態(tài)，它的形狀為(batch_size, cell.state_size)。

此處建議大家閱讀tf.nn.dynamic_rnn的文檔（地址：https://www.tensorflow.org/api_docs/python/tf/nn/dynamic_rnn）做進(jìn)一步了解。

三、學(xué)習(xí)如何堆疊RNNCell：MultiRNNCell

很多時(shí)候，單層RNN的能力有限，我們需要多層的RNN。將x輸入第一層RNN的后得到隱層狀態(tài)h，這個(gè)隱層狀態(tài)就相當(dāng)于第二層RNN的輸入，第二層RNN的隱層狀態(tài)又相當(dāng)于第三層RNN的輸入，以此類推。在TensorFlow中，可以使用tf.nn.rnn_cell.MultiRNNCell函數(shù)對RNNCell進(jìn)行堆疊，相應(yīng)的示例程序如下：

import tensorflow as tf
import numpy as np

# 每調(diào)用一次這個(gè)函數(shù)就返回一個(gè)BasicRNNCell
def get_a_cell():
return tf.nn.rnn_cell.BasicRNNCell(num_units=128)
# 用tf.nn.rnn_cell MultiRNNCell創(chuàng)建3層RNN
cell = tf.nn.rnn_cell.MultiRNNCell([get_a_cell() for _ in range(3)]) # 3層RNN
# 得到的cell實(shí)際也是RNNCell的子類
# 它的state_size是(128, 128, 128)
# (128, 128, 128)并不是128x128x128的意思
# 而是表示共有3個(gè)隱層狀態(tài)，每個(gè)隱層狀態(tài)的大小為128
print(cell.state_size) # (128, 128, 128)
# 使用對應(yīng)的call函數(shù)
inputs = tf.placeholder(np.float32, shape=(32, 100)) # 32 是 batch_size
h0 = cell.zero_state(32, np.float32) # 通過zero_state得到一個(gè)全0的初始狀態(tài)
output, h1 = cell.call(inputs, h0)
print(h1) # tuple中含有3個(gè)32x128的向量

通過MultiRNNCell得到的cell并不是什么新鮮事物，它實(shí)際也是RNNCell的子類，因此也有call方法、state_size和output_size屬性。同樣可以通過tf.nn.dynamic_rnn來一次運(yùn)行多步。

此處建議閱讀MutiRNNCell源碼（地址：http://t.cn/RNJrfMl）中的注釋進(jìn)一步了解其功能。

四、可能遇到的坑1：Output說明

在經(jīng)典RNN結(jié)構(gòu)中有這樣的圖：

TensorFlow中RNN實(shí)現(xiàn)的正確打開方式

在上面的代碼中，我們好像有意忽略了調(diào)用call或dynamic_rnn函數(shù)后得到的output的介紹。將上圖與TensorFlow的BasicRNNCell對照來看。h就對應(yīng)了BasicRNNCell的state_size。那么，y是不是就對應(yīng)了BasicRNNCell的output_size呢？答案是否定的。

找到源碼中BasicRNNCell的call函數(shù)實(shí)現(xiàn)：

def call(self, inputs, state):
"""Most basic RNN: output = new_state = act(W * input + U * state + B)."""
output = self._activation(_linear([inputs, state], self._num_units, True))
return output, output

這句“return output, output”說明在BasicRNNCell中，output其實(shí)和隱狀態(tài)的值是一樣的。因此，我們還需要額外對輸出定義新的變換，才能得到圖中真正的輸出y。由于output和隱狀態(tài)是一回事，所以在BasicRNNCell中，state_size永遠(yuǎn)等于output_size。TensorFlow是出于盡量精簡的目的來定義BasicRNNCell的，所以省略了輸出參數(shù)，我們這里一定要弄清楚它和圖中原始RNN定義的聯(lián)系與區(qū)別。

再來看一下BasicLSTMCell的call函數(shù)定義（函數(shù)的最后幾行）：

new_c = (
c * sigmoid(f + self._forget_bias) + sigmoid(i) * self._activation(j))
new_h = self._activation(new_c) * sigmoid(o)

if self._state_is_tuple:
new_state = LSTMStateTuple(new_c, new_h)
else:
new_state = array_ops.concat([new_c, new_h], 1)
return new_h, new_state

我們只需要關(guān)注self._state_is_tuple == True的情況，因?yàn)閟elf._state_is_tuple == False的情況將在未來被棄用。返回的隱狀態(tài)是new_c和new_h的組合，而output就是單獨(dú)的new_h。如果我們處理的是分類問題，那么我們還需要對new_h添加單獨(dú)的Softmax層才能得到最后的分類概率輸出。

還是建議大家親自看一下源碼實(shí)現(xiàn)（地址：http://t.cn/RNJsJoH）來搞明白其中的細(xì)節(jié)。

五、可能遇到的坑2：因版本原因引起的錯(cuò)誤

在前面我們講到堆疊RNN時(shí)，使用的代碼是：

# 每調(diào)用一次這個(gè)函數(shù)就返回一個(gè)BasicRNNCell
def get_a_cell():
return tf.nn.rnn_cell.BasicRNNCell(num_units=128)
# 用tf.nn.rnn_cell MultiRNNCell創(chuàng)建3層RNN
cell = tf.nn.rnn_cell.MultiRNNCell([get_a_cell() for _ in range(3)]) # 3層RNN

這個(gè)代碼在TensorFlow 1.2中是可以正確使用的。但在之前的版本中（以及網(wǎng)上很多相關(guān)教程），實(shí)現(xiàn)方式是這樣的：

one_cell = tf.nn.rnn_cell.BasicRNNCell(num_units=128)
cell = tf.nn.rnn_cell.MultiRNNCell([one_cell] * 3) # 3層RNN

如果在TensorFlow 1.2中還按照原來的方式定義，就會引起錯(cuò)誤！

六、一個(gè)練手項(xiàng)目：Char RNN

上面的內(nèi)容實(shí)際上就是TensorFlow中實(shí)現(xiàn)RNN的基本知識了。這個(gè)時(shí)候，建議大家用一個(gè)項(xiàng)目來練習(xí)鞏固一下。此處特別推薦Char RNN項(xiàng)目，這個(gè)項(xiàng)目對應(yīng)的是經(jīng)典的RNN結(jié)構(gòu)，實(shí)現(xiàn)它使用的TensorFlow函數(shù)就是上面說到的幾個(gè)，項(xiàng)目本身又比較有趣，可以用來做文本生成，平常大家看到的用深度學(xué)習(xí)來寫詩寫歌詞的基本用的就是它了。

Char RNN的實(shí)現(xiàn)已經(jīng)有很多了，可以自己去Github上面找，我這里也做了一個(gè)實(shí)現(xiàn)，供大家參考。項(xiàng)目地址為：hzy46/Char-RNN-TensorFlow（地址：https://github.com/hzy46/Char-RNN-TensorFlow）。代碼的部分實(shí)現(xiàn)來自于《安娜卡列尼娜文本生成——利用TensorFlow構(gòu)建LSTM模型》

這篇專欄，在此感謝 @天雨粟。

我主要向代碼中添加了embedding層，以支持中文，另外重新整理了代碼結(jié)構(gòu)，將API改成了最新的TensorFlow 1.2版本。

可以用這個(gè)項(xiàng)目來寫詩（以下詩句都是自動(dòng)生成的）：

何人無不見，此地自何如。
一夜山邊去，江山一夜歸。
山風(fēng)春草色，秋水夜聲深。
何事同相見，應(yīng)知舊子人。
何當(dāng)不相見，何處見江邊。
一葉生云里，春風(fēng)出竹堂。
何時(shí)有相訪，不得在君心。

還可以生成代碼：

static int page_cpus(struct flags *str)
{
int rc;
struct rq *do_init;
};

/*
* Core_trace_periods the time in is is that supsed,
*/
#endif

/*
* Intendifint to state anded.
*/
int print_init(struct priority *rt)
{ /* Comment sighind if see task so and the sections */
console(string, &can);
}

此外生成英文更不是問題（使用莎士比亞的文本訓(xùn)練）：

LAUNCE:
The formity so mistalied on his, thou hast she was
to her hears, what we shall be that say a soun man
Would the lord and all a fouls and too, the say,
That we destent and here with my peace.

PALINA:
Why, are the must thou art breath or thy saming,
I have sate it him with too to have me of
I the camples.

最后，如果你腦洞夠大，還可以來做一些更有意思的事情，比如我用了著名的網(wǎng)絡(luò)小說《斗破蒼穹》訓(xùn)練了一個(gè)RNN模型，可以生成下面的文本：

聞言，蕭炎一怔，旋即目光轉(zhuǎn)向一旁的那名灰袍青年，然后目光在那位老者身上掃過，那里，一個(gè)巨大的石臺上，有著一個(gè)巨大的巨坑，一些黑色光柱，正在從中，一道巨大的黑色巨蟒，一股極度恐怖的氣息，從天空上暴射而出，然后在其中一些一道道目光中，閃電般的出現(xiàn)在了那些人影，在那種靈魂之中，卻是有著許些強(qiáng)者的感覺，在他們面前，那一道道身影，卻是如同一道黑影一般，在那一道道目光中，在這片天地間，在那巨大的空間中，彌漫而開……

“這是一位斗尊階別，不過不管你，也不可能會出手，那些家伙，可以為了這里，這里也是能夠有著一些異常，而且他，也是不能將其他人給你的靈魂，所以，這些事，我也是不可能將這一個(gè)人的強(qiáng)者給吞天蟒，這般一次，我們的實(shí)力，便是能夠?qū)⒅畵魵ⅰ?br/>
“這里的人，也是能夠與魂殿強(qiáng)者抗衡?！?br/>
蕭炎眼眸中也是掠過一抹驚駭，旋即一笑，旋即一聲冷喝，身后那些魂殿殿主便是對于蕭炎，一道冷喝的身體，在天空之上暴射而出，一股恐怖的勁氣，便是從天空傾灑而下。

“嗤！”

還是挺好玩的吧，另外還嘗試了生成日文等等。

七、學(xué)習(xí)完整版的LSTMCell

上面只說了基礎(chǔ)版的BasicRNNCell和BasicLSTMCell。TensorFlow中還有一個(gè)“完全體”的LSTM：LSTMCell。這個(gè)完整版的LSTM可以定義peephole，添加輸出的投影層，以及給LSTM的遺忘單元設(shè)置bias等，可以參考其源碼（地址：https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/ops/rnn_cell_impl.py#L417）了解使用方法。

八、學(xué)習(xí)最新的Seq2Seq API

Google在TensorFlow的1.2版本（1.3.0的rc版已經(jīng)出了，貌似正式版也要出了，更新真是快）中更新了Seq2Seq API，使用這個(gè)API我們可以不用手動(dòng)地去定義Seq2Seq模型中的Encoder和Decoder。此外它還和1.2版本中的新數(shù)據(jù)讀入方式Datasets兼容?？梢?a target="_blank" rel=nofollow>閱讀此處的文檔（地址：http://www.tensorflow.org/api_docs/python/tf/contrib/seq2seq）學(xué)習(xí)它的使用方法。

九、總結(jié)

最后簡單地總結(jié)一下，這篇文章提供了一個(gè)學(xué)習(xí)TensorFlow RNN實(shí)現(xiàn)的詳細(xì)路徑，其中包括了學(xué)習(xí)順序、可能會踩的坑、源碼分析以及一個(gè)示例項(xiàng)目hzy46/Char-RNN-TensorFlow（地址：https://github.com/hzy46/Char-RNN-TensorFlow），希望能對大家有所幫助。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。