簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

本文作者：宗仁

2019-03-06 16:55

導(dǎo)語(yǔ)：本系列文章通過(guò)通俗易懂的方式介紹強(qiáng)化學(xué)習(xí)的基本概念，雖然語(yǔ)言通俗，但是內(nèi)容依舊非常嚴(yán)謹(jǐn)性。

本系列文章通過(guò)通俗易懂的方式介紹強(qiáng)化學(xué)習(xí)的基本概念，雖然語(yǔ)言通俗，但是內(nèi)容依舊非常嚴(yán)謹(jǐn)性。文中用很多的公式，對(duì)數(shù)學(xué)公式頭疼的讀者可能會(huì)被嚇住，但是如果讀者一步一步follow下來(lái)，就會(huì)發(fā)現(xiàn)公式的推導(dǎo)非常自然，對(duì)于透徹的理解這些基本概念非常有幫助。除了理論之外，文章還會(huì)介紹每種算法的實(shí)現(xiàn)代碼，深入解答每一行關(guān)鍵代碼。讓讀者不但理解理論和算法，同時(shí)還能知道怎么用代碼來(lái)實(shí)現(xiàn)。通過(guò)理論與實(shí)際的結(jié)合，更加深入的理解學(xué)過(guò)的概念。讀者只需要基本的Python編程知識(shí)，文中每一個(gè)算法都有對(duì)應(yīng)的Jupyter Notebook代碼。（文章來(lái)源，李理的Github博客）

本教程會(huì)介紹使用seq2seq模型實(shí)現(xiàn)一個(gè)chatbot，訓(xùn)練數(shù)據(jù)來(lái)自Cornell電影對(duì)話語(yǔ)料庫(kù)。對(duì)話系統(tǒng)是目前的研究熱點(diǎn)，它在客服、可穿戴設(shè)備和智能家居等場(chǎng)景有廣泛應(yīng)用。

傳統(tǒng)的對(duì)話系統(tǒng)要么基于檢索的方法——提前準(zhǔn)備一個(gè)問(wèn)答庫(kù)，根據(jù)用戶的輸入尋找類(lèi)似的問(wèn)題和答案。這更像一個(gè)問(wèn)答系統(tǒng)，它很難進(jìn)行多輪的交互，而且答案是固定不變的。要么基于預(yù)先設(shè)置的對(duì)話流程，這主要用于slot-filling(Task-Oriented)的任務(wù)，比如查詢機(jī)票需要用戶提供日期，達(dá)到城市等信息。這種方法的缺點(diǎn)是比較死板，如果用戶的意圖在設(shè)計(jì)的流程之外，那么就無(wú)法處理，而且對(duì)話的流程也一般比較固定，要支持用戶隨意的話題內(nèi)跳轉(zhuǎn)和話題間切換比較困難。

因此目前學(xué)術(shù)界的研究熱點(diǎn)是根據(jù)大量的對(duì)話數(shù)據(jù)，自動(dòng)的End-to-End的使用Seq2Seq模型學(xué)習(xí)對(duì)話模型。它的好處是不需要人來(lái)設(shè)計(jì)這個(gè)對(duì)話流程，完全是數(shù)據(jù)驅(qū)動(dòng)的方法。它的缺點(diǎn)是流程不受人(開(kāi)發(fā)者)控制，在嚴(yán)肅的場(chǎng)景(比如客服)下使用會(huì)有比較大的風(fēng)險(xiǎn)，而且需要大量的對(duì)話數(shù)據(jù)，這在很多實(shí)際應(yīng)用中是很難得到的。因此目前seq2seq模型的對(duì)話系統(tǒng)更多的是用于類(lèi)似小冰的閑聊機(jī)器人上，最近也有不少論文研究把這種方法用于task-oriented的任務(wù)，但還不是太成熟，在業(yè)界還很少被使用。

效果

本文使用的Cornell電影對(duì)話語(yǔ)料庫(kù)就是偏向于閑聊的語(yǔ)料庫(kù)。

本教程的主要內(nèi)容參考了PyTorch官方教程。讀者可以從這里獲取完整代碼。下面是這個(gè)教程實(shí)現(xiàn)的對(duì)話效果示例：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

準(zhǔn)備

首先我們通過(guò)下載鏈接下載訓(xùn)練語(yǔ)料庫(kù)，這是一個(gè)zip文件，把它下載后解壓到項(xiàng)目目錄的子目錄data下。接下來(lái)我們導(dǎo)入需要用到的模塊，這主要是PyTorch的模塊：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

加載和預(yù)處理數(shù)據(jù)

接下來(lái)我們需要對(duì)原始數(shù)據(jù)進(jìn)行變換然后用合適的數(shù)據(jù)結(jié)構(gòu)加載到內(nèi)存里。

Cornell電影對(duì)話語(yǔ)料庫(kù)是電影人物的對(duì)話數(shù)據(jù)，它包括：

10,292對(duì)電影人物(一部電影有多個(gè)人物，他們兩兩之間可能存在對(duì)話)的220,579個(gè)對(duì)話
617部電影的9,035個(gè)人物
總共304,713個(gè)utterance(utterance是對(duì)話中的語(yǔ)音片段，不一定是完整的句子)

這個(gè)數(shù)據(jù)集是比較大并且多樣的(diverse)，語(yǔ)言形式、時(shí)代和情感都有很多樣。這樣的數(shù)據(jù)可以使得我們的chatbot對(duì)于不同的輸入更加魯棒(robust)。

首先我們來(lái)看一下原始數(shù)據(jù)長(zhǎng)什么樣：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

解壓后的目錄有很多文件，我們會(huì)用到的文件包括movie_lines.txt。上面的代碼輸出這個(gè)文件的前10行，結(jié)果如下：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

注意：上面的move_lines.txt每行都是一個(gè)utterance，但是這個(gè)文件看不出哪些utterance是組成一段對(duì)話的，這需要 movie_conversations.txt 文件：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

每一行用”+++$+++”分割成4列，第一列表示第一個(gè)人物的ID，第二列表示第二個(gè)人物的ID，第三列表示電影的ID，第四列表示這兩個(gè)人物在這部電影中的一段對(duì)話，比如第一行的表示人物u0和u2在電影m0中的一段對(duì)話包含ID為L(zhǎng)194、L195、L196和L197的4個(gè)utterance。注意：兩個(gè)人物在一部電影中會(huì)有多段對(duì)話，中間可能穿插其他人之間的對(duì)話，而且即使中間沒(méi)有其他人說(shuō)話，這兩個(gè)人物對(duì)話的內(nèi)容從語(yǔ)義上也可能是屬于不同的對(duì)話(話題)。所以我們看到第二行還是u0和u2在電影m0中的對(duì)話，它包含L198和L199兩個(gè)utterance，L198是緊接著L197之后的，但是它們屬于兩個(gè)對(duì)話(話題)。

數(shù)據(jù)處理

為了使用方便，我們會(huì)把原始數(shù)據(jù)處理成一個(gè)新的文件，這個(gè)新文件的每一行都是用TAB分割問(wèn)題(query)和答案(response)對(duì)。為了實(shí)現(xiàn)這個(gè)目的，我們首先定義一些用于parsing原始文件 movie_lines.txt 的輔助函數(shù)。

loadLines 把movie_lines.txt 文件切分成 (lineID, characterID, movieID, character, text)
loadConversations 把上面的行g(shù)roup成一個(gè)個(gè)多輪的對(duì)話
extractSentencePairs 從上面的每個(gè)對(duì)話中抽取句對(duì)

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

接下來(lái)我們利用上面的3個(gè)函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行處理，最終得到formatted_movie_lines.txt。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

上面的代碼會(huì)生成一個(gè)新的文件formatted_movie_lines.txt，這文件每一行包含一對(duì)句對(duì)，用tab分割。下面是前十行：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

創(chuàng)建詞典

接下來(lái)我們需要構(gòu)建詞典然后把問(wèn)答句對(duì)加載到內(nèi)存里。

我們的輸入是一個(gè)句對(duì)，每個(gè)句子都是詞的序列，但是機(jī)器學(xué)習(xí)只能處理數(shù)值，因此我們需要建立詞到數(shù)字ID的映射。

為此，我們會(huì)定義一個(gè)Voc類(lèi)，它會(huì)保存詞到ID的映射，同時(shí)也保存反向的從ID到詞的映射。除此之外，它還記錄每個(gè)詞出現(xiàn)的次數(shù)，以及總共出現(xiàn)的詞的個(gè)數(shù)。這個(gè)類(lèi)提供addWord方法來(lái)增加一個(gè)詞， addSentence方法來(lái)增加句子，也提供方法trim來(lái)去除低頻的詞。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

有了上面的Voc類(lèi)我們就可以通過(guò)問(wèn)答句對(duì)來(lái)構(gòu)建詞典了。但是在構(gòu)建之前我們需要進(jìn)行一些預(yù)處理。

首先我們需要使用函數(shù)unicodeToAscii來(lái)把unicode字符變成ascii，比如把à變成a。注意，這里的代碼只是用于處理西方文字，如果是中文，這個(gè)函數(shù)直接會(huì)丟棄掉。接下來(lái)把所有字母變成小寫(xiě)同時(shí)丟棄掉字母和常見(jiàn)標(biāo)點(diǎn)(.!?)之外的所有字符。最后為了訓(xùn)練收斂，我們會(huì)用函數(shù)filterPairs去掉長(zhǎng)度超過(guò)MAX_LENGTH的句子(句對(duì))。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

上面的代碼的輸出為：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

我們可以看到，原來(lái)共有221282個(gè)句對(duì)，經(jīng)過(guò)處理后我們只保留了64271個(gè)句對(duì)。

另外為了收斂更快，我們可以去除掉一些低頻詞。這可以分為兩步：

1) 使用voc.trim函數(shù)去掉頻次低于MIN_COUNT 的詞。
2) 去掉包含低頻詞的句子(只保留這樣的句子——每一個(gè)詞都是高頻的，也就是在voc中出現(xiàn)的)

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

代碼的輸出為：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

18005個(gè)詞之中，頻次大于等于3的只有43%，去掉低頻的57%的詞之后，保留的句子為53165，占比為82%。

為模型準(zhǔn)備數(shù)據(jù)

前面我們構(gòu)建了詞典，并且對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理并且濾掉一些句對(duì)，但是模型最終用到的是Tensor。最簡(jiǎn)單的辦法是一次處理一個(gè)句對(duì)，那么上面得到的句對(duì)直接就可以使用。但是為了加快訓(xùn)練速度，尤其是重復(fù)利用GPU的并行能力，我們需要一次處理一個(gè)batch的數(shù)據(jù)。

對(duì)于某些問(wèn)題，比如圖像來(lái)說(shuō)，輸入可能是固定大小的(或者通過(guò)預(yù)處理縮放成固定大?。菍?duì)于文本來(lái)說(shuō)，我們很難把一個(gè)二十個(gè)詞的句子”縮放”成十個(gè)詞同時(shí)還保持語(yǔ)義不變。但是為了充分利用GPU等計(jì)算自由，我們又必須變成固定大小的Tensor，因此我們通常會(huì)使用Padding的技巧，把短的句子補(bǔ)充上零使得輸入大小是(batch, max_length)，這樣通過(guò)一次就能實(shí)現(xiàn)一個(gè)batch數(shù)據(jù)的forward或者backward計(jì)算。當(dāng)然padding的部分的結(jié)果是沒(méi)有意義的，比如某個(gè)句子實(shí)際長(zhǎng)度是5，而max_length是10，那么最終forward的輸出應(yīng)該是第5個(gè)時(shí)刻的輸出，后面5個(gè)時(shí)刻計(jì)算是無(wú)用功。方向計(jì)算梯度的時(shí)候也是類(lèi)似的，我們需要從第5個(gè)時(shí)刻開(kāi)始反向計(jì)算梯度。為了提高效率，我們通常把長(zhǎng)度接近的訓(xùn)練數(shù)據(jù)放到一個(gè)batch里面，這樣無(wú)用的計(jì)算是最少的。因此我們通常把全部訓(xùn)練數(shù)據(jù)根據(jù)長(zhǎng)度劃分成一些組，比如長(zhǎng)度小于4的一組，長(zhǎng)度4到8的一組，長(zhǎng)度8到12的一組，…。然后每次隨機(jī)的選擇一個(gè)組，再隨機(jī)的從一組里選擇batch個(gè)數(shù)據(jù)。不過(guò)本教程并沒(méi)有這么做，而是每次隨機(jī)的從所有pair里隨機(jī)選擇batch個(gè)數(shù)據(jù)。

原始的輸入通常是batch個(gè)list，表示batch個(gè)句子，因此自然的表示方法為(batch, max_length)，這種表示方法第一維是batch，每移動(dòng)一個(gè)下標(biāo)得到的是一個(gè)樣本的max_length個(gè)詞(包括padding)。因?yàn)镽NN的依賴關(guān)系，我們?cè)谟?jì)算t+1時(shí)刻必須知道t時(shí)刻的結(jié)果，因此我們無(wú)法用多個(gè)核同時(shí)計(jì)算一個(gè)樣本的forward。但是不同樣本之間是沒(méi)有依賴關(guān)系的，因此我們可以在根據(jù)t時(shí)刻batch樣本的當(dāng)前狀態(tài)計(jì)算batch個(gè)樣本的輸出和新?tīng)顟B(tài)，然后再計(jì)算t+2時(shí)刻，…。為了便于GPU一次取出t時(shí)刻的batch個(gè)數(shù)據(jù)，我們通常把輸入從(batch, max_length)變成(max_length, batch)，這樣使得t時(shí)刻的batch個(gè)數(shù)據(jù)在內(nèi)存(顯存)中是連續(xù)的，從而讀取效率更高。這個(gè)過(guò)程如下圖所示，原始輸入的大小是(batch=6, max_length=4)，轉(zhuǎn)置之后變成(4,6)。這樣某個(gè)時(shí)刻的6個(gè)樣本數(shù)據(jù)在內(nèi)存中是連續(xù)的。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

因此我們會(huì)用一些工具函數(shù)來(lái)實(shí)現(xiàn)上述處理。

inputVar函數(shù)把batch個(gè)句子padding后變成一個(gè)LongTensor，大小是(max_length, batch)，同時(shí)會(huì)返回一個(gè)大小是batch的list lengths，說(shuō)明每個(gè)句子的實(shí)際長(zhǎng)度，這個(gè)參數(shù)后面會(huì)傳給PyTorch，從而在forward和backward計(jì)算的時(shí)候使用實(shí)際的長(zhǎng)度。

outputVar函數(shù)和inputVar類(lèi)似，但是它輸出的第二個(gè)參數(shù)不是lengths，而是一個(gè)大小為(max_length, batch)的mask矩陣(tensor)，某位是0表示這個(gè)位置是padding，1表示不是padding，這樣做的目的是后面計(jì)算方便。當(dāng)然這兩種表示是等價(jià)的，只不過(guò)lengths表示更加緊湊，但是計(jì)算起來(lái)不同方便，而mask矩陣和outputVar直接相乘就可以把padding的位置給mask(變成0)掉，這在計(jì)算loss時(shí)會(huì)非常方便。

batch2TrainData 則利用上面的兩個(gè)函數(shù)把一個(gè)batch的句對(duì)處理成合適的輸入和輸出Tensor。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

示例的輸出為：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

我們可以看到input_variable的每一列表示一個(gè)樣本，而每一行表示batch(5)個(gè)樣本在這個(gè)時(shí)刻的值。而lengths表示真實(shí)的長(zhǎng)度。類(lèi)似的target_variable也是每一列表示一個(gè)樣本，而mask的shape和target_variable一樣，如果某個(gè)位置是0，則表示padding。

定義模型

Seq2Seq 模型

我們這個(gè)chatbot的核心是一個(gè)sequence-to-sequence(seq2seq)模型。 seq2seq模型的輸入是一個(gè)變長(zhǎng)的序列，而輸出也是一個(gè)變長(zhǎng)的序列。而且這兩個(gè)序列的長(zhǎng)度并不相同。一般我們使用RNN來(lái)處理變長(zhǎng)的序列，Sutskever等人的論文發(fā)現(xiàn)通過(guò)使用兩個(gè)RNN可以解決這類(lèi)問(wèn)題。這類(lèi)問(wèn)題的輸入和輸出都是變長(zhǎng)的而且長(zhǎng)度不一樣，包括問(wèn)答系統(tǒng)、機(jī)器翻譯、自動(dòng)摘要等等都可以使用seq2seq模型來(lái)解決。其中一個(gè)RNN叫做Encoder，它把變長(zhǎng)的輸入序列編碼成一個(gè)固定長(zhǎng)度的context向量，我們一般可以認(rèn)為這個(gè)向量包含了輸入句子的語(yǔ)義。而第二個(gè)RNN叫做Decoder，初始隱狀態(tài)是Encoder的輸出context向量，輸入是(表示句子開(kāi)始的特殊Token)，然后用RNN計(jì)算第一個(gè)時(shí)刻的輸出，接著用第一個(gè)時(shí)刻的輸出和隱狀態(tài)計(jì)算第二個(gè)時(shí)刻的輸出和新的隱狀態(tài)，...，直到某個(gè)時(shí)刻輸出特殊的(表示句子結(jié)束的特殊Token)或者長(zhǎng)度超過(guò)一個(gè)閾值。Seq2Seq模型如下圖所示。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

Encoder

Encoder是個(gè)RNN，它會(huì)遍歷輸入的每一個(gè)Token(詞)，每個(gè)時(shí)刻的輸入是上一個(gè)時(shí)刻的隱狀態(tài)和輸入，然后會(huì)有一個(gè)輸出和新的隱狀態(tài)。這個(gè)新的隱狀態(tài)會(huì)作為下一個(gè)時(shí)刻的輸入隱狀態(tài)。每個(gè)時(shí)刻都有一個(gè)輸出，對(duì)于seq2seq模型來(lái)說(shuō)，我們通常只保留最后一個(gè)時(shí)刻的隱狀態(tài)，認(rèn)為它編碼了整個(gè)句子的語(yǔ)義，但是后面我們會(huì)用到Attention機(jī)制，它還會(huì)用到Encoder每個(gè)時(shí)刻的輸出。Encoder處理結(jié)束后會(huì)把最后一個(gè)時(shí)刻的隱狀態(tài)作為Decoder的初始隱狀態(tài)。

實(shí)際我們通常使用多層的Gated Recurrent Unit(GRU)或者LSTM來(lái)作為Encoder，這里使用GRU，讀者可以參考Cho等人2014年的[論文]。

此外我們會(huì)使用雙向的RNN，如下圖所示。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

注意在接入RNN之前會(huì)有一個(gè)embedding層，用來(lái)把每一個(gè)詞(ID或者one-hot向量)映射成一個(gè)連續(xù)的稠密的向量，我們可以認(rèn)為這個(gè)向量編碼了一個(gè)詞的語(yǔ)義。在我們的模型里，我們把它的大小定義成和RNN的隱狀態(tài)大小一樣(但是并不是一定要一樣)。有了Embedding之后，模型會(huì)把相似的詞編碼成相似的向量(距離比較近)。

最后，為了把padding的batch數(shù)據(jù)傳給RNN，我們需要使用下面的兩個(gè)函數(shù)來(lái)進(jìn)行pack和unpack，后面我們會(huì)詳細(xì)介紹它們。這兩個(gè)函數(shù)是：

torch.nn.utils.rnn.pack_padded_sequence
torch.nn.utils.rnn.pad_packed_sequence

計(jì)算圖:

1) 把詞的ID通過(guò)Embedding層變成向量。 2) 把padding后的數(shù)據(jù)進(jìn)行pack。 3) 傳入GRU進(jìn)行Forward計(jì)算。 4) Unpack計(jì)算結(jié)果 5) 把雙向GRU的結(jié)果向量加起來(lái)。 6) 返回(所有時(shí)刻的)輸出和最后時(shí)刻的隱狀態(tài)。

輸入:

input_seq: 一個(gè)batch的輸入句子，shape是(max_length, batch_size)

input_lengths: 一個(gè)長(zhǎng)度為batch的list，表示句子的實(shí)際長(zhǎng)度。

hidden: 初始化隱狀態(tài)(通常是零)，shape是(n_layers x num_directions, batch_size, hidden_size)

輸出:

outputs: 最后一層GRU的輸出向量(雙向的向量加在了一起)，shape(max_length, batch_size, hidden_size)

hidden: 最后一個(gè)時(shí)刻的隱狀態(tài)，shape是(n_layers x num_directions, batch_size, hidden_size)

EncoderRNN代碼如下，請(qǐng)讀者詳細(xì)閱讀注釋。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

Decoder

Decoder也是一個(gè)RNN，它每個(gè)時(shí)刻輸出一個(gè)詞。每個(gè)時(shí)刻的輸入是上一個(gè)時(shí)刻的隱狀態(tài)和上一個(gè)時(shí)刻的輸出。一開(kāi)始的隱狀態(tài)是Encoder最后時(shí)刻的隱狀態(tài)，輸入是特殊的。然后使用RNN計(jì)算新的隱狀態(tài)和輸出第一個(gè)詞，接著用新的隱狀態(tài)和第一個(gè)詞計(jì)算第二個(gè)詞，...，直到遇到，結(jié)束輸出。普通的RNN Decoder的問(wèn)題是它只依賴與Encoder最后一個(gè)時(shí)刻的隱狀態(tài)，雖然理論上這個(gè)隱狀態(tài)(context向量)可以編碼輸入句子的語(yǔ)義，但是實(shí)際會(huì)比較困難。因此當(dāng)輸入句子很長(zhǎng)的時(shí)候，效果會(huì)很長(zhǎng)。

為了解決這個(gè)問(wèn)題，Bahdanau等人在論文里提出了注意力機(jī)制(attention mechanism)，在Decoder進(jìn)行t時(shí)刻計(jì)算的時(shí)候，除了t-1時(shí)刻的隱狀態(tài)，當(dāng)前時(shí)刻的輸入，注意力機(jī)制還可以參考Encoder所有時(shí)刻的輸入。拿機(jī)器翻譯來(lái)說(shuō)，我們?cè)诜g以句子的第t個(gè)詞的時(shí)候會(huì)把注意力機(jī)制在某個(gè)詞上。當(dāng)然常見(jiàn)的注意力是一種soft的注意力，假設(shè)輸入有5個(gè)詞，注意力可能是一個(gè)概率，比如(0.6,0.1,0.1,0.1,0.1)，表示當(dāng)前最關(guān)注的是輸入的第一個(gè)詞。同時(shí)我們之前也計(jì)算出每個(gè)時(shí)刻的輸出向量，假設(shè)5個(gè)時(shí)刻分別是$y_1,…,y_5$，那么我們可以用attention概率加權(quán)得到當(dāng)前時(shí)刻的context向量$0.6y_1+0.1y_2+…+0.1y_5$。

注意力有很多方法計(jì)算，我們這里介紹Luong等人在論文提出的方法。它是用當(dāng)前時(shí)刻的GRU計(jì)算出的新的隱狀態(tài)來(lái)計(jì)算注意力得分，首先它用一個(gè)score函數(shù)計(jì)算這個(gè)隱狀態(tài)和Encoder的輸出的相似度得分，得分越大，說(shuō)明越應(yīng)該注意這個(gè)詞。然后再用softmax函數(shù)把score變成概率。那機(jī)器翻譯為例，在t時(shí)刻，$h_t$表示t時(shí)刻的GRU輸出的新的隱狀態(tài)，我們可以認(rèn)為$h_t$表示當(dāng)前需要翻譯的語(yǔ)義。通過(guò)計(jì)算$h_t$與$y_1,…,y_n$的得分，如果$h_t$與$y_1$的得分很高，那么我們可以認(rèn)為當(dāng)前主要翻譯詞$x_1$的語(yǔ)義。有很多中score函數(shù)的計(jì)算方法，如下圖所示：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

上式中$h_t$表示t時(shí)刻的隱狀態(tài)，比如第一種計(jì)算score的方法，直接計(jì)算$h_t$與$h_s$的內(nèi)積，內(nèi)積越大，說(shuō)明這兩個(gè)向量越相似，因此注意力也更多的放到這個(gè)詞上。第二種方法也類(lèi)似，只是引入了一個(gè)可以學(xué)習(xí)的矩陣，我們可以認(rèn)為它先對(duì)$h_t$做一個(gè)線性變換，然后在與$h_s$計(jì)算內(nèi)積。而第三種方法把它們拼接起來(lái)然后用一個(gè)全連接網(wǎng)絡(luò)來(lái)計(jì)算score。

注意，我們前面介紹的是分別計(jì)算$h_t$和$y_1$的內(nèi)積、$h_t$和$y_2$的內(nèi)積，…。但是為了效率，可以一次計(jì)算$h_t$與$h_s=[y_1,y_2,…,y_n]$的乘積。計(jì)算過(guò)程如下圖所示。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

上面的代碼實(shí)現(xiàn)了dot、general和concat三種score計(jì)算方法，分別和前面的三個(gè)公式對(duì)應(yīng)，我們這里介紹最簡(jiǎn)單的dot方法。代碼里也有一些注釋?zhuān)挥衐ot_score函數(shù)比較難以理解，我們來(lái)分析一下。首先這個(gè)函數(shù)的輸入輸入hidden的shape是(1, batch=64, hidden_size=500)，encoder_outputs的shape是(input_lengths=10, batch=64, hidden_size=500)。

怎么計(jì)算hidden和10個(gè)encoder輸出向量的內(nèi)積呢？為了簡(jiǎn)便，我們先假設(shè)batch是1，這樣可以把第二維(batch維)去掉，因此hidden是(1, 500)，而encoder_outputs是(10, 500)。內(nèi)積的定義是兩個(gè)向量對(duì)應(yīng)位相乘然后相加，但是encoder_outputs是10個(gè)500維的向量。當(dāng)然我們可以寫(xiě)一個(gè)for循環(huán)來(lái)計(jì)算，但是效率很低。這里用到一個(gè)小的技巧，利用broadcasting，hidden * encoder_outputs可以理解為把hidden從(1,500)復(fù)制成(10, 500)（當(dāng)然實(shí)際實(shí)現(xiàn)并不會(huì)這么做），然后兩個(gè)(10, 500)的矩陣進(jìn)行乘法。注意，這里的乘法不是矩陣乘法，而是所謂的Hadamard乘法，其實(shí)就是把對(duì)應(yīng)位置的乘起來(lái)，比如下面的例子：

因此hidden * encoder_outputs就可以把hidden向量(500個(gè)數(shù))與encoder_outputs的10個(gè)向量(500個(gè)數(shù))對(duì)應(yīng)的位置相乘。而內(nèi)積還需要把這500個(gè)乘積加起來(lái)，因此后面使用torch.sum(hidden * encoder_output, dim=2)，把第2維500個(gè)乘積加起來(lái)，最終得到10個(gè)score值。當(dāng)然我們實(shí)際還有一個(gè)batch維度，因此最終得到的attn_energies是(10, 64)。接著在forward函數(shù)里把a(bǔ)ttn_energies轉(zhuǎn)置成(64, 10)，然后使用softmax函數(shù)把10個(gè)score變成概率，shape仍然是(64, 10)，為了后面使用方便，我們用unsqueeze(1)把它變成(64, 1, 10)。

有了注意力的子模塊之后，我們就可以實(shí)現(xiàn)Decoder了。Encoder可以一次把一個(gè)序列輸入GRU，得到整個(gè)序列的輸出。但是Decoder t時(shí)刻的輸入是t-1時(shí)刻的輸出，在t-1時(shí)刻計(jì)算完成之前是未知的，因此只能一次處理一個(gè)時(shí)刻的數(shù)據(jù)。因此Encoder的GRU的輸入是(max_length, batch, hidden_size)，而Decoder的輸入是(1, batch, hidden_size)。此外Decoder只能利用前面的信息，所以只能使用單向(而不是雙向)的GRU，而Encoder的GRU是雙向的，如果兩種的hidden_size是一樣的，則Decoder的隱單元個(gè)數(shù)少了一半，那怎么把Encoder的最后時(shí)刻的隱狀態(tài)作為Decoder的初始隱狀態(tài)呢？這里是把每個(gè)時(shí)刻雙向結(jié)果加起來(lái)的，因此它們的大小就能匹配了（請(qǐng)讀者參考前面Encoder雙向相加的部分代碼）。

計(jì)算圖:

1) 把詞ID輸入Embedding層 2) 使用單向的GRU繼續(xù)Forward進(jìn)行一個(gè)時(shí)刻的計(jì)算。 3) 使用新的隱狀態(tài)計(jì)算注意力權(quán)重 4) 用注意力權(quán)重得到context向量 5) context向量和GRU的輸出拼接起來(lái)，然后再進(jìn)過(guò)一個(gè)全連接網(wǎng)絡(luò)，使得輸出大小仍然是hidden_size 6) 使用一個(gè)投影矩陣把輸出從hidden_size變成詞典大小，然后用softmax變成概率 7) 返回輸出和新的隱狀態(tài)

輸入:

input_step: shape是(1, batch_size)

last_hidden: 上一個(gè)時(shí)刻的隱狀態(tài)， shape是(n_layers x num_directions, batch_size, hidden_size)

encoder_outputs: encoder的輸出， shape是(max_length, batch_size, hidden_size)

輸出:

output: 當(dāng)前時(shí)刻輸出每個(gè)詞的概率，shape是(batch_size, voc.num_words)

hidden: 新的隱狀態(tài)，shape是(n_layers x num_directions, batch_size, hidden_size)

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

定義訓(xùn)練過(guò)程

Masked損失

forward實(shí)現(xiàn)之后，我們就需要計(jì)算loss。seq2seq有兩個(gè)RNN，Encoder RNN是沒(méi)有直接定義損失函數(shù)的，它是通過(guò)影響Decoder從而影響最終的輸出以及l(fā)oss。Decoder輸出一個(gè)序列，前面我們介紹的是Decoder在預(yù)測(cè)時(shí)的過(guò)程，它的長(zhǎng)度是不固定的，只有遇到EOS才結(jié)束。給定一個(gè)問(wèn)答句對(duì)，我們可以把問(wèn)題輸入Encoder，然后用Decoder得到一個(gè)輸出序列，但是這個(gè)輸出序列和”真實(shí)”的答案長(zhǎng)度并不相同。

而且即使長(zhǎng)度相同并且語(yǔ)義相似，也很難直接知道預(yù)測(cè)的答案和真實(shí)的答案是否類(lèi)似。那么我們?cè)趺从?jì)算loss呢？比如輸入是”What is your name?”，訓(xùn)練數(shù)據(jù)中的答案是”I am LiLi”。假設(shè)模型有兩種預(yù)測(cè)：”I am fine”和”My name is LiLi”。從語(yǔ)義上顯然第二種答案更好，但是如果字面上比較的話可能第一種更好。

但是讓機(jī)器知道”I am LiLi”和”My name is LiLi”的語(yǔ)義很接近這是非常困難的，所以實(shí)際上我們通常還是通過(guò)字面上里進(jìn)行比較。我們會(huì)限制Decoder的輸出，使得Decoder的輸出長(zhǎng)度和”真實(shí)”答案一樣，然后逐個(gè)時(shí)刻比較。Decoder輸出的是每個(gè)詞的概率分布，因此可以使用交叉熵?fù)p失函數(shù)。但是這里還有一個(gè)問(wèn)題，因?yàn)槭且粋€(gè)batch的數(shù)據(jù)里有一些是padding的，因此這些位置的預(yù)測(cè)是沒(méi)有必要計(jì)算loss的，因此我們需要使用前面的mask矩陣把對(duì)應(yīng)位置的loss去掉，我們可以通過(guò)下面的函數(shù)來(lái)實(shí)現(xiàn)計(jì)算Masked的loss。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot 上面的代碼有幾個(gè)需要注意的地方。首先是masked_select函數(shù)，我們來(lái)看一個(gè)例子：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

它要求mask和被mask的tensor的shape是一樣的，然后從crossEntropy選出mask值為1的那些值。輸出的維度會(huì)減1。

另外為了實(shí)現(xiàn)交叉熵這里使用了gather函數(shù)，這是一種比較底層的實(shí)現(xiàn)方法，更簡(jiǎn)便的方法應(yīng)該使用CrossEntropyLoss或者NLLLoss，其中CrossEntropy等價(jià)與LogSoftmax+NLLLoss。

交叉熵的定義為：$H(p,q)=-\sum_xp(x)logq(x)$。其中p和q是兩個(gè)隨機(jī)變量的概率分布，這里是離散的隨機(jī)變量，如果是連續(xù)的需要把求和變成積分。在我們這里p是真實(shí)的分布，也就是one-hot的，而q是模型預(yù)測(cè)的softmax的輸出。因?yàn)閜是one-hot的，所以只需要計(jì)算真實(shí)分類(lèi)對(duì)應(yīng)的那個(gè)值。

比如假設(shè)一個(gè)5分類(lèi)的問(wèn)題，當(dāng)前正確分類(lèi)是2(下標(biāo)從0-4)，而模型的預(yù)測(cè)是(0.1,0.1,0.4,0.2,0.2)，則H=-log(0.4)。用交叉熵作為分類(lèi)的Loss是比較合理的，正確的分類(lèi)是2，那么模型在下標(biāo)為2的地方預(yù)測(cè)的概率$q_2$越大，則$-logq_2$越小，也就是loss越小。

假設(shè)inp是：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

也就是batch=2，而分類(lèi)數(shù)(詞典大小)是4，inp是模型預(yù)測(cè)的分類(lèi)概率。而target = [2,3] ，表示第一個(gè)樣本的正確分類(lèi)是第三個(gè)類(lèi)別(概率是0.4），第二個(gè)樣本的正確分類(lèi)是第四個(gè)類(lèi)別(概率是0.3)。因此我們需要計(jì)算的是 -log(0.4) - log(0.3)。怎么不用for循環(huán)求出來(lái)呢？我們可以使用torch.gather函數(shù)首先把0.4和0.3選出來(lái)：

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

一次迭代的訓(xùn)練過(guò)程

函數(shù)train實(shí)現(xiàn)一個(gè)batch數(shù)據(jù)的訓(xùn)練。前面我們提到過(guò)，在訓(xùn)練的時(shí)候我們會(huì)限制Decoder的輸出，使得Decoder的輸出長(zhǎng)度和”真實(shí)”答案一樣長(zhǎng)。但是我們?cè)谟?xùn)練的時(shí)候如果讓Decoder自行輸出，那么收斂可能會(huì)比較慢，因?yàn)镈ecoder在t時(shí)刻的輸入來(lái)自t-1時(shí)刻的輸出。如果前面預(yù)測(cè)錯(cuò)了，那么后面很可能都會(huì)錯(cuò)下去。另外一種方法叫做teacher forcing，它不管模型在t-1時(shí)刻做什么預(yù)測(cè)都把t-1時(shí)刻的正確答案作為t時(shí)刻的輸入。但是如果只用teacher forcing也有問(wèn)題，因?yàn)樵谡鎸?shí)的Decoder的是是沒(méi)有老師來(lái)幫它糾正錯(cuò)誤的。所以比較好的方法是更加一個(gè)teacher_forcing_ratio參數(shù)隨機(jī)的來(lái)確定本次訓(xùn)練是否teacher forcing。

另外使用到的一個(gè)技巧是梯度裁剪(gradient clipping) 。這個(gè)技巧通常是為了防止梯度爆炸(exploding gradient)，它把參數(shù)限制在一個(gè)范圍之內(nèi)，從而可以避免梯度的梯度過(guò)大或者出現(xiàn)NaN等問(wèn)題。注意：雖然它的名字叫梯度裁剪，但實(shí)際它是對(duì)模型的參數(shù)進(jìn)行裁剪，它把整個(gè)參數(shù)看成一個(gè)向量，如果這個(gè)向量的模大于max_norm，那么就把這個(gè)向量除以一個(gè)值使得模等于max_norm，因此也等價(jià)于把這個(gè)向量投影到半徑為max_norm的球上。它的效果如下圖所示。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

操作步驟:

1) 把整個(gè)batch的輸入傳入encoder 2) 把decoder的輸入設(shè)置為特殊的，初始隱狀態(tài)設(shè)置為encoder最后時(shí)刻的隱狀態(tài) 3) decoder每次處理一個(gè)時(shí)刻的forward計(jì)算 4) 如果是teacher forcing，把上個(gè)時(shí)刻的"正確的"詞作為當(dāng)前輸入，否則用上一個(gè)時(shí)刻的輸出作為當(dāng)前時(shí)刻的輸入 5) 計(jì)算loss 6) 反向計(jì)算梯度 7) 對(duì)梯度進(jìn)行裁剪 8) 更新模型(包括encoder和decoder)參數(shù)

注意，PyTorch的RNN模塊(RNN, LSTM, GRU)也可以當(dāng)成普通的非循環(huán)的網(wǎng)絡(luò)來(lái)使用。在Encoder部分，我們是直接把所有時(shí)刻的數(shù)據(jù)都傳入RNN，讓它一次計(jì)算出所有的結(jié)果，但是在Decoder的時(shí)候(非teacher forcing)后一個(gè)時(shí)刻的輸入來(lái)自前一個(gè)時(shí)刻的輸出，因此無(wú)法一次計(jì)算。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

訓(xùn)練迭代過(guò)程

最后是把前面的代碼組合起來(lái)進(jìn)行訓(xùn)練。函數(shù)trainIters用于進(jìn)行n_iterations次minibatch的訓(xùn)練。

值得注意的是我們定期會(huì)保存模型，我們會(huì)保存一個(gè)tar包，包括encoder和decoder的state_dicts(參數(shù)),優(yōu)化器(optimizers)的state_dicts, loss和迭代次數(shù)。這樣保存模型的好處是從中恢復(fù)后我們既可以進(jìn)行預(yù)測(cè)也可以進(jìn)行訓(xùn)練(因?yàn)橛袃?yōu)化器的參數(shù)和迭代的次數(shù))。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

效果測(cè)試

模型訓(xùn)練完成之后，我們需要測(cè)試它的效果。最簡(jiǎn)單直接的方法就是和chatbot來(lái)聊天。因此我們需要用Decoder來(lái)生成一個(gè)響應(yīng)。

貪心解碼(Greedy decoding)算法

最簡(jiǎn)單的解碼算法是貪心算法，也就是每次都選擇概率最高的那個(gè)詞，然后把這個(gè)詞作為下一個(gè)時(shí)刻的輸入，直到遇到EOS結(jié)束解碼或者達(dá)到一個(gè)最大長(zhǎng)度。但是貪心算法不一定能得到最優(yōu)解，因?yàn)槟硞€(gè)答案可能開(kāi)始的幾個(gè)詞的概率并不太高，但是后來(lái)概率會(huì)很大。因此除了貪心算法，我們通常也可以使用Beam-Search算法，也就是每個(gè)時(shí)刻保留概率最高的Top K個(gè)結(jié)果，然后下一個(gè)時(shí)刻嘗試把這K個(gè)結(jié)果輸入(當(dāng)然需要能恢復(fù)RNN的狀態(tài))，然后再?gòu)闹羞x擇概率最高的K個(gè)。

為了實(shí)現(xiàn)貪心解碼算法，我們定義一個(gè)GreedySearchDecoder類(lèi)。這個(gè)類(lèi)的forwar的方法需要傳入一個(gè)輸入序列(input_seq)，其shape是(input_seq length, 1)，輸入長(zhǎng)度input_length和最大輸出長(zhǎng)度max_length。就是過(guò)程如下：

1) 把輸入傳給Encoder，得到所有時(shí)刻的輸出和最后一個(gè)時(shí)刻的隱狀態(tài)。 2) 把Encoder最后時(shí)刻的隱狀態(tài)作為Decoder的初始狀態(tài)。 3) Decoder的第一輸入初始化為SOS。 4) 定義保存解碼結(jié)果的tensor 5) 循環(huán)直到最大解碼長(zhǎng)度 a) 把當(dāng)前輸入傳入Decoder b) 得到概率最大的詞以及概率 c) 把這個(gè)詞和概率保存下來(lái) d) 把當(dāng)前輸出的詞作為下一個(gè)時(shí)刻的輸入 6) 返回所有的詞和概率

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

測(cè)試對(duì)話函數(shù)

解碼方法完成后，我們寫(xiě)一個(gè)函數(shù)來(lái)測(cè)試從終端輸入一個(gè)句子然后來(lái)看看chatbot的回復(fù)。我們需要用前面的函數(shù)來(lái)把句子分詞，然后變成ID傳入解碼器，得到輸出的ID后再轉(zhuǎn)換成文字。我們會(huì)實(shí)現(xiàn)一個(gè)evaluate函數(shù)，由它來(lái)完成這些工作。我們需要把一個(gè)句子變成輸入需要的格式——shape為(batch, max_length)，即使只有一個(gè)輸入也需要增加一個(gè)batch維度。我們首先把句子分詞，然后變成ID的序列，然后轉(zhuǎn)置成合適的格式。此外我們還需要?jiǎng)?chuàng)建一個(gè)名為lengths的tensor，雖然只有一個(gè)，來(lái)表示輸入的實(shí)際長(zhǎng)度。接著我們構(gòu)造類(lèi)GreedySearchDecoder的實(shí)例searcher，然后用searcher來(lái)進(jìn)行解碼得到輸出的ID，最后我們把這些ID變成詞并且去掉EOS之后的內(nèi)容。

另外一個(gè)evaluateInput函數(shù)作為chatbot的用戶接口，當(dāng)運(yùn)行它的時(shí)候，它會(huì)首先提示用戶輸入一個(gè)句子，然后使用evaluate來(lái)生成回復(fù)。然后繼續(xù)對(duì)話直到用戶輸入”q”或者”quit”。如果用戶輸入的詞不在詞典里，我們會(huì)輸出錯(cuò)誤信息(當(dāng)然還有一種辦法是忽略這些詞)然后提示用戶重新輸入。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot

訓(xùn)練和測(cè)試模型

最后我們可以來(lái)訓(xùn)練模型和進(jìn)行評(píng)測(cè)了。

不論是我們像訓(xùn)練模型還是測(cè)試對(duì)話，我們都需要初始化encoder和decoder模型參數(shù)。在下面的代碼，我們從頭開(kāi)始訓(xùn)練模型或者從某個(gè)checkpoint加載模型。讀者可以嘗試不同的超參數(shù)配置來(lái)進(jìn)行調(diào)優(yōu)。

簡(jiǎn)單易懂------使用PyTorch實(shí)現(xiàn)Chatbot