強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）

本文作者：汪思穎

2017-10-16 16:42

導(dǎo)語(yǔ)：關(guān)于一些細(xì)節(jié)和延伸。

雷鋒網(wǎng) AI科技評(píng)論按，本文作者華南理工大學(xué)胡楊，本文首發(fā)于知乎專(zhuān)欄GAN + 文本生成 + 讀博干貨，雷鋒網(wǎng) AI科技評(píng)論獲其授權(quán)轉(zhuǎn)載。本文為下篇，上篇參見(jiàn)強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（上）。

5. 一些細(xì)節(jié) + 一些延伸

上文所述的，只是 RL + GAN 進(jìn)行文本生成的基本原理，大家知道，GAN在實(shí)際運(yùn)行過(guò)程中任然存在諸多不確定因素，為了盡可能優(yōu)化 GAN 文本生成的效果，而后發(fā)掘更多GAN在NLP領(lǐng)域的潛力，還有一些值得一提的細(xì)節(jié)。

5.1. Reward Baseline：獎(jiǎng)勵(lì)值上的 Bias

在4.2節(jié)中提到，我們采用鑒別器D給予生成樣本 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的概率得分（ $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 屬于真實(shí)樣本的概率）作為獎(jiǎng)勵(lì) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，既然是概率值，應(yīng)該意識(shí)到這些概率得分都是非負(fù)的，如此一來(lái)即便生成出再差的結(jié)果，鑒別器D也不會(huì)給出負(fù) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 進(jìn)行懲罰。從理論上來(lái)講，生成器的訓(xùn)練會(huì)趨向于降低較小獎(jiǎng)勵(lì)值樣本 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 出現(xiàn)的概率而提高較大獎(jiǎng)勵(lì)值樣本 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 出現(xiàn)的概率，然而在實(shí)做時(shí)，由于采樣不全等不可控因素的存在，這樣不夠分明的獎(jiǎng)懲區(qū)別將有可能使得生成器G的訓(xùn)練變得偏頗。

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）

實(shí)際上，在強(qiáng)化學(xué)習(xí)的對(duì)話生成模型當(dāng)中，就已經(jīng)出現(xiàn)了此類(lèi)問(wèn)題。解決的方法很簡(jiǎn)單，我們?cè)O(shè)置一個(gè)獎(jiǎng)勵(lì)值 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的基準(zhǔn)值Baseline，每次計(jì)算獎(jiǎng)勵(lì)值的時(shí)候，在后面減去這個(gè)基準(zhǔn)值作為最終的獎(jiǎng)勵(lì) or 懲罰值，使得生成器G的生成結(jié)果每次得到的獎(jiǎng)懲有正有負(fù)，顯得更加分明。記獎(jiǎng)懲基準(zhǔn)值為 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，則4.1節(jié)中優(yōu)化梯度的計(jì)算公式修改為：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

對(duì)應(yīng)地，在 RL + GAN 的文本生成任務(wù)中，同樣在鑒別器D對(duì)各個(gè)生成樣本打出的概率得分上減去獎(jiǎng)懲基準(zhǔn)值 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，則4.2節(jié)中 SeqGAN 與 Conditional SeqGAN 期望獎(jiǎng)勵(lì)值的優(yōu)化梯度計(jì)算公式也分別修改為如下：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

5.2. REGS：一人犯錯(cuò)一人當(dāng)

細(xì)心的讀者可以發(fā)現(xiàn)，在SeqGAN的獎(jiǎng)勵(lì)優(yōu)化梯度計(jì)算公式的推導(dǎo)中，由鑒別器D給予的生成樣本獎(jiǎng)勵(lì)得分其實(shí)是順應(yīng)序列文本的生成過(guò)程，逐詞產(chǎn)生的，可以看到之前的推導(dǎo)公式中顯示了對(duì)于Partly文本序列的階段性獎(jiǎng)勵(lì)值求和再求平均。然而在起初的實(shí)驗(yàn)中，根據(jù)最終推導(dǎo)的獎(jiǎng)勵(lì)值優(yōu)化梯度計(jì)算公式，鑒別器D被訓(xùn)練為用于對(duì)整句生成結(jié)果進(jìn)行評(píng)估打分，這樣的話，鑒別器D的打分對(duì)于生成序列中的每一個(gè)token都是同等的存在，要獎(jiǎng)勵(lì)就一起獎(jiǎng)勵(lì)（獎(jiǎng)勵(lì)值可視為相同），要懲罰就一起懲罰，這種做法會(huì)導(dǎo)致一個(gè)后果，看下面的例子。

比如有這樣一個(gè)對(duì)話組（包含真實(shí)回答和生成回答）：

question = ['你', '叫', '什么', '名字', '？']
real_answer = ['我', '叫', '張三', '。']
fake_answer = ['我', '不', '知道', '。']

很顯然，鑒別器D能夠輕易辨識(shí)后者回答是假的，必然會(huì)給出極低的獎(jiǎng)勵(lì)值得分，但是仔細(xì)對(duì)比真/假兩個(gè)回答可以發(fā)現(xiàn)，第一個(gè)詞 “我 ” 其實(shí)和真實(shí)樣本的第一個(gè)詞是一樣的，而最后一個(gè)字符 “?！逼鋵?shí)也并無(wú)大礙，它們其實(shí)并沒(méi)有錯(cuò)，真正錯(cuò)誤的是 “不 ” 和 “知道 ” 這兩個(gè)詞，但很不幸，鑒別器判定 fake_answer 的整體回答是假的，原本無(wú)辜的詞項(xiàng) “我 ” 和 “?！?也要跟著一起接受低分判定的懲罰。

讓我們回到 GAN + RL 對(duì)文本生成模型的優(yōu)化原理，假設(shè) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 是面對(duì)輸入上文 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 時(shí)生成對(duì)話下文 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的概率，我們將它拆分成逐個(gè)單詞拼接的形式，每一個(gè)出現(xiàn)的詞匯都將收到之前context的影響。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

在4.1，4.2節(jié)中提到，如果生成樣本 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 被鑒別器D打出低分（受到懲罰），生成器G將被訓(xùn)練于降低產(chǎn)出此結(jié)果的概率。結(jié)合上面這條公式，倘若單獨(dú)將生成序列中的一部分前綴 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 拿出來(lái)與真實(shí)樣本中完全相同，豈不是也要接受整體低分而帶來(lái)的懲罰？

解決這一缺陷的直接方法就是把獎(jiǎng)懲的判定粒度進(jìn)一步細(xì)化到 word 或 character 級(jí)別，在文本逐詞生成的過(guò)程中對(duì)partly的生成結(jié)果進(jìn)行打分。這種處理其實(shí)在SeqGAN的論文中[17]就已經(jīng)實(shí)施了，拓展到Conditional SeqGAN中，優(yōu)化梯度的計(jì)算公式應(yīng)改寫(xiě)為如下：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

公式中， $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 是計(jì)算的關(guān)鍵，它代表鑒別器D在文本逐詞生成過(guò)程中獲得部分文本的情況下對(duì)于最終reward的估計(jì)，簡(jiǎn)而言之就是每得到一個(gè)新的生成詞，就結(jié)合此前生成的前序文本估計(jì)最終reward，并作為該生成詞單獨(dú)的reward，SeqGAN的論文中使用蒙特卡洛搜索[21]（Monte Carlo Search，MC search）的方法計(jì)算部分生成序列對(duì)于整體reward的估計(jì)值。而在Conditional SeqGAN的論文中，賦予了這種處理一個(gè)名字 —— Reward for Every Generation Step（REGS）。

5.3. MC Search & Discriminator for Partially Decoded Sequences：準(zhǔn)度與速度的抉擇

上一節(jié)說(shuō)到SeqGAN中使用MC search進(jìn)行部分序列獎(jiǎng)勵(lì)估計(jì)值 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的計(jì)算，作為REGS操作的關(guān)鍵計(jì)算，其難處在于，我們并不能預(yù)知部分生成序列能給我們帶來(lái)的最終結(jié)果，就好像一場(chǎng)籃球比賽，可能半場(chǎng)結(jié)束比分領(lǐng)先，卻也不能妄言最終的比賽結(jié)果一樣。

既然如此，在只得到部分序列的情況下， $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 只得估計(jì)獲得，Monte Carlo Search[21]就是其中一種估計(jì)方法，Monte Carlo Search的思想極其簡(jiǎn)單，假設(shè)我們已經(jīng)擁有了部分生成的前綴 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，我們使用當(dāng)前的Generator，強(qiáng)制固定這個(gè)前綴，并重復(fù)生成出$M$個(gè)完整的序列（有點(diǎn)采樣實(shí)驗(yàn)的意思），分別交給鑒別器D進(jìn)行打分，這 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 個(gè)模擬樣本的平均獎(jiǎng)勵(lì)得分即為部分序列 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的獎(jiǎng)勵(lì)估計(jì)值 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

當(dāng)然，使用MC search的缺點(diǎn)也很明顯：每生成一個(gè)詞，就要進(jìn)行 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 次生成采樣，非常耗時(shí)；還有一小點(diǎn)，每當(dāng)我們計(jì)算較為后期的一些部分序列獎(jiǎng)勵(lì)估計(jì)值的時(shí)候，總是會(huì)無(wú)法避免地再一次計(jì)算前面早期生成的項(xiàng)，這樣計(jì)算出來(lái)的 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 可能導(dǎo)致對(duì)于較前子序列（比如第一個(gè)詞）的過(guò)擬合。

另外一種方法提出于Conditional SeqGAN的論文，干脆訓(xùn)練一個(gè)可以對(duì)部分已生成前綴進(jìn)行打分的new鑒別器D。將某真實(shí)樣本的 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的全部前綴子序列（必須從第一個(gè)詞開(kāi)始）集合記作 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，同樣將某生成樣本$X^-$的全部前綴子序列集合記作 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，我們每次從這兩者中隨機(jī)挑選一個(gè)或若干個(gè)標(biāo)定為 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 或 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ （與原序列相同），與原序列一同加入鑒別器D的訓(xùn)練中，這樣訓(xùn)練得到的Discriminator便增添了給前綴子序列打分的能力，直接使用這樣的Discriminator給前綴子序列打分即可獲得 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 。這種方法的耗時(shí)比起使用MC search要少很多，但得損失一定的準(zhǔn)度。

一句話總結(jié)兩種 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的計(jì)算方法：一種是利用部分序列YY出完整序列來(lái)給鑒別器打分，而另一種則直接將部分序列加入鑒別器的訓(xùn)練過(guò)程，得到可以為部分序列打分的鑒別器，一個(gè)較慢，另一個(gè)快卻損失準(zhǔn)度，如何選擇就看大家了。

5.4. Teacher Forcing：給Generator一個(gè)榜樣

在開(kāi)始講解SeqGAN中的Teacher Forcing之前，先幫助大家簡(jiǎn)單了結(jié)一下RNN運(yùn)行的兩種mode：(1). Free-running mode；(2). Teacher-Forcing mode[22]。前者就是正常的RNN運(yùn)行方式：上一個(gè)state的輸出就做為下一個(gè)state的輸入，這樣做時(shí)有風(fēng)險(xiǎn)的，因?yàn)樵赗NN訓(xùn)練的早期，靠前的state中如果出現(xiàn)了極差的結(jié)果，那么后面的全部state都會(huì)受牽連，以至于最終結(jié)果非常不好也很難溯源到發(fā)生錯(cuò)誤的源頭，而后者Teacher-Forcing mode的做法就是，每次不使用上一個(gè)state的輸出作為下一個(gè)state的輸入，而是直接使用ground truth的對(duì)應(yīng)上一項(xiàng)作為下一個(gè)state的輸入。

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）

就拿Seq2Seq模型來(lái)舉例，我們假設(shè)正輸出到第三項(xiàng)，準(zhǔn)備生成第四項(xiàng)：

input = ['a', 'b', 'c', 'e', 'f', 'g', 'h']
output = ['o', 'p', 's', ...]
label = ['o', 'p', 'q', 'r', 's', 't', 'u']

Free-running mode下的decoder會(huì)將第三項(xiàng)錯(cuò)誤的輸出 output[2] = 's'（下標(biāo)從0開(kāi)始）作為下一個(gè)state的輸入，而在Teacher-forcing mode下，decoder則會(huì)將正確樣本的第三項(xiàng) label[2] = 'q' 作為下一個(gè)state的輸入。當(dāng)然這么做也有它的缺點(diǎn)，因?yàn)橐蕾?lài)標(biāo)簽數(shù)據(jù)，在training的時(shí)候會(huì)有較好的效果，但是在testing的時(shí)候就不能得到ground truth的支持了。最好的結(jié)果是將Free-running mode的behavior訓(xùn)練得盡可能接近于Teacher-forcing mode，Professor Forcing[23]使用GAN嘗試實(shí)現(xiàn)了這一目標(biāo)。

當(dāng)然，這些都是題外話，我們要回到Teacher-Forcing mode最初的motivation：訓(xùn)練（迭代）早期的RNN非常弱，幾乎不能給出好的生成結(jié)果（以至于破灌破摔，產(chǎn)生垃圾的output影響后面的state），必須依靠ground truth強(qiáng)行扶著走，才能慢慢進(jìn)入正軌。

SeqGAN也存在這樣的問(wèn)題，一開(kāi)始的生成器G非常弱，即便是經(jīng)過(guò)一定量的預(yù)訓(xùn)練，也幾乎生成不出好的Result，然后這些bad result給到鑒別器D必然只能返回很低的 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ （懲罰），生成器G的訓(xùn)練只能根據(jù)鑒別器的打分來(lái)優(yōu)化而無(wú)法得到good example的指導(dǎo)，永遠(yuǎn)不知道什么是好的結(jié)果，結(jié)果必然是惡性循環(huán)。于是，有必要在SeqGAN訓(xùn)練中給到生成器G真實(shí)樣本的指導(dǎo)，也就是告訴生成器：“什么樣的樣本才配得到高分 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ?”

4.2節(jié)中提到，生成器G 和判別器D的訓(xùn)練時(shí)交替進(jìn)行的，由于鑒別器返回的打分是判定輸入樣本為真的概率，我們可以隨機(jī)取出一部分真實(shí)的樣本對(duì)話組 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，然后直接設(shè)置他們的鑒別器獎(jiǎng)勵(lì)值為 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ （或者其他任意定義的最高分），將它們加入生成器G的訓(xùn)練過(guò)程中，這樣生成器就能知道何種樣本能得到最高的獎(jiǎng)勵(lì)，從而一定程度上避免了SeqGAN的訓(xùn)練過(guò)程由于一方的弱勢(shì)而發(fā)生崩塌。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

或者也可以這樣：用訓(xùn)練好的鑒別器D也為隨機(jī)抽樣的真實(shí)樣本打分，然后加入到生成器G的訓(xùn)練過(guò)程中，不過(guò)，一定要確保鑒別器D已經(jīng)得到充分訓(xùn)練，至少給予任意真實(shí)樣本 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的打分要高于baseline才行（獎(jiǎng)勵(lì)值經(jīng)過(guò)偏置處理后也必須為正）。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

5.5. Actor-Critic：更廣義上的GAN？

在DeepMind的一篇半綜述式的文章[24]中，談到了強(qiáng)化學(xué)習(xí)中的另一個(gè)特殊的模型——Actor-Critic，并分析了這個(gè)模型與GAN之間的聯(lián)系。

首先我們回顧一下GAN中鑒別器D和生成器G優(yōu)化時(shí)的目標(biāo)函數(shù)：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

再說(shuō)說(shuō)強(qiáng)化學(xué)習(xí)，在基于策略迭代的強(qiáng)化學(xué)習(xí)中，通過(guò)嘗試當(dāng)前策略的action，從環(huán)境獲得 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，然后更新策略。這種操作在游戲?qū)嶒?yàn)環(huán)境中非常有效，因?yàn)橛螒蛳到y(tǒng)有封閉且清晰的環(huán)境，能夠穩(wěn)定地根據(jù)各種接收到的action客觀地給出對(duì)應(yīng) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，而在現(xiàn)實(shí)生活中，很多時(shí)候并沒(méi)有封閉清晰的環(huán)境，給定action應(yīng)該得到什么樣的 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 本身也不準(zhǔn)確，只能通過(guò)設(shè)定DIY的打分器來(lái)實(shí)現(xiàn)，顯然這么做很難完美m(xù)odel真實(shí)世界千變?nèi)f化的情況。

那么，能不能先學(xué)習(xí)出一個(gè)能夠準(zhǔn)確評(píng)估出獎(jiǎng)勵(lì)值的值函數(shù) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，盡可能地描述環(huán)境，對(duì)各種action返回較為公正的預(yù)期獎(jiǎng)勵(lì)呢？也就是說(shuō) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的估計(jì)模型本身也是被學(xué)習(xí)的，這就是Actor-Critic，Actor部分采用傳統(tǒng)的Policy Gradient優(yōu)化策略 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，Critic部分借助“Q-Learning”學(xué)習(xí)出最優(yōu)的action-value值函數(shù)，聽(tīng)起來(lái)有沒(méi)有點(diǎn)像GAN的模式？來(lái)看看它的目標(biāo)函數(shù)，其中 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 指任意一中Divergence，值域非負(fù)當(dāng)且僅當(dāng)兩個(gè)分布相同時(shí)取值為零即可（比如，KL-divergence， JS-divergence 等等）：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

文中將GANs模型比作一種特殊形式的Actor-Critic，并比較了兩者各自的特點(diǎn)以及后續(xù)的改進(jìn)技術(shù)在兩者上的適配情況。試想一下，既然強(qiáng)化學(xué)習(xí)技術(shù)幫助GAN解決了在離散型數(shù)據(jù)上的梯度傳播問(wèn)題，那么同為強(qiáng)化學(xué)習(xí)的Actor-Critic也為對(duì)抗式文本生成提供了另外一種可能。

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）

5.6. IRGAN：兩個(gè)檢索模型的對(duì)抗

IRGAN[25]這篇工作發(fā)表于2017年的SIGIR，從作者的陣容來(lái)看就注定不是一篇平凡的作品，其中就包含SeqGAN的原班人馬，作者將生成對(duì)抗網(wǎng)絡(luò)的思想應(yīng)用于信息檢索領(lǐng)域，卻又不拘泥于傳統(tǒng)GAN的經(jīng)典Framework，而是利用了IR領(lǐng)域原本就存在的兩種不同路數(shù)的model：生成式IR模型和判別式IR模型。

生成式IR模型目標(biāo)是產(chǎn)生一個(gè)query $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ document的關(guān)聯(lián)度分布，利用這個(gè)分布對(duì)每個(gè)輸入的query返回相關(guān)的檢索結(jié)果；而判別式IR模型看上去更像是一個(gè)二類(lèi)分類(lèi)器，它的目標(biāo)是盡可能地區(qū)分有關(guān)聯(lián)查詢(xún)對(duì)和無(wú)關(guān)聯(lián)查詢(xún)對(duì)，對(duì)于給定的查詢(xún)對(duì)，判別式IR模型給出該查詢(xún)對(duì)中的兩項(xiàng)的關(guān)聯(lián)程度。

光從兩個(gè)模型簡(jiǎn)單的介紹來(lái)看就能絲絲感覺(jué)到它們之間特殊的聯(lián)系，兩種風(fēng)格迥異的IR模型在GAN的思想中“有緣地”走到了對(duì)立面，我們將生成式IR模型記作： $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，將判別式IR模型記作： $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，于是整個(gè)IRGAN的目標(biāo)函數(shù)為：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

在IRGAN中，鑒別器D定義為判別式IR模型的邏輯回歸：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

于是鑒別器D的目標(biāo)函數(shù)進(jìn)一步寫(xiě)為：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

相對(duì)地，生成器G就直接輸出以query為condition答案池中所有document與該query的關(guān)聯(lián)分布，不幸地，我們必須將通過(guò)這個(gè)關(guān)聯(lián)分布，過(guò)濾出當(dāng)前認(rèn)為最相關(guān)的document答案，才能作為鑒別器D的輸入來(lái)判定此時(shí)此刻檢索結(jié)果的質(zhì)量，原本連續(xù)型的分布經(jīng)過(guò)這一步的折騰又變成離散型的數(shù)據(jù)了，還好,我們有強(qiáng)化學(xué)習(xí)，設(shè) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，則生成器G的目標(biāo)函數(shù)被寫(xiě)成：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

也就是最大化鑒別器D給出的獎(jiǎng)勵(lì)，而這個(gè)獎(jiǎng)勵(lì)值主要來(lái)源于檢索結(jié)果形成的查詢(xún)對(duì) $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 在判別式IR模型中被認(rèn)為確實(shí)有關(guān)聯(lián)的概率之和。將求和符號(hào)內(nèi)的項(xiàng)記作： $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，按照Policy Gradient的方式進(jìn)行梯度優(yōu)化，并使用4.1節(jié)中的推導(dǎo)方法描述 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 的優(yōu)化梯度，在實(shí)做時(shí)為了方便，采樣 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 個(gè)當(dāng)前生成式IR模型給出的查詢(xún)結(jié)果求近似。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

當(dāng)然，也不能忘了我們的baseline—— $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ ，文中設(shè)置baseline為當(dāng)前查詢(xún)結(jié)果的平均期望 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 。

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

上述是針對(duì)Pointwise情形的IR任務(wù)，不同于Pointwise情形著重于得到直接的檢索結(jié)果，Pairwise情形的IR把更多精力放在了ranking上，其返回結(jié)果 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 中全是非對(duì)稱(chēng)二元對(duì)，其中 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 比 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 與當(dāng)前的查詢(xún)項(xiàng)關(guān)聯(lián)性更高。IRGAN也可以擴(kuò)展到Pairwise的情形，原則是：“一切從減”。鑒別器函數(shù)將改寫(xiě)為：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

而假設(shè)生成器G是一個(gè)softmax函數(shù)，則Pairwise情形下的變形和簡(jiǎn)化推導(dǎo)如下：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

IRGAN在Pairwise情形下的總目標(biāo)函數(shù)如下，其中， $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 表示真實(shí)的非對(duì)稱(chēng)二元組，而 $強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$ 則表示生成式IR模型生成的二元組：

$強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）$

IRGAN的一大特點(diǎn)是，對(duì)抗model中的兩個(gè)組件各自都是一種IR模型，所以經(jīng)過(guò)對(duì)抗訓(xùn)練之后，不管拿出來(lái)哪個(gè)，都有希望突破原先的瓶頸。作者還關(guān)于IRGAN的訓(xùn)練目標(biāo)是否符合納什均衡做了一些討論，盡管在真實(shí)檢索的應(yīng)用中很難獲得所謂的真實(shí)關(guān)聯(lián)分布，但作者認(rèn)為不管是觀察到的關(guān)聯(lián)樣本還是未觀察到的關(guān)聯(lián)樣本，判別IR模型的輸出總是和生成IR模型的對(duì)應(yīng)輸出存在著正相關(guān)的作用力，于是也孕育而生了文中那個(gè)關(guān)于浮力和拖拽重物最終達(dá)到漂浮平衡狀態(tài)的略顯晦澀的比喻。

強(qiáng)化學(xué)習(xí)在生成對(duì)抗網(wǎng)絡(luò)文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）

結(jié)語(yǔ)

這一領(lǐng)域的發(fā)展之迅速，也許在我完成這篇Blog的時(shí)候，又有一批工作爭(zhēng)先恐后的冒出來(lái)了，但最終的結(jié)局肯定不止于此，我也不怎么擅長(zhǎng)結(jié)尾，也許要等待GAN來(lái)為我，為我們帶來(lái)一個(gè)奇妙的結(jié)局。

Acknowledgement

要特別感謝臺(tái)灣大學(xué)李宏毅老師生動(dòng)的授課[26]，這為我在多個(gè)知識(shí)點(diǎn)上的理解帶來(lái)了重要的幫助。

Reference

[1] 何永燦CSDN. 好玩的文本生成[EB/OL]. http://geek.csdn.net/news/detail/131622.

[2] Ashwin, K, Vijayakumar, Michael, Cogswell, Ramprasath, R, Selvaraju, Qing, Sun, Stefan, Lee, David, Crandall, Dhruv, Batra. Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models[J/OL]. https://arxiv.org/abs/1610.02424v1.

[3] Minh-Thang, Luong, Hieu, Pham, Christopher, D, Manning. Effective Approaches to At-tention-based Neural Machine Translation[J/OL]. https://arxiv.org/abs/1508.04025.

[4] W. Chan, N. Jaitly, Q. Le and O. Vinyals, “Listen, attend and spell: A neural network for large vocabulary conversational speech recognition,” ICASSP, 2016, https://research.google.com/pubs/pub44926.html.

[5] Jiwei, Li, Minh-Thang, Luong, Dan, Jurafsky. A Hierarchical Neural Autoencoder for Par-agraphs and Documents[J/OL]. https://arxiv.org/abs/1506.01057.

[6] 鄭華濱. 從PM到GAN——LSTM之父Schmidhuber橫跨22年的怨念[EB/OL]. https://zhuanlan.zhihu.com/p/27159510?utm_source=zhihu&utm_medium=social.

[7] Jürgen, Schmidhuber. Learning Factorial Codes by Predictability Minimization[J]. Neural Computation, 1992, 4(6): 863-879, http://www.mitpressjournals.org/doi/abs/10.1162/neco.1992.4.6.863.

[8] Ian, J, Goodfellow, Jean, Pouget-Abadie, Mehdi, Mirza, Bing, Xu, David, Warde-Farley, Sherjil, Ozair, Aaron, Courville, Yoshua, Bengio. Generative Adversarial Networks[J/OL]. https://arxiv.org/abs/1406.2661v1.

[9] Samuel, R, Bowman, Luke, Vilnis, Oriol, Vinyals, Andrew, M, Dai, Rafal, Jozefowicz, Samy, Bengio. Generating Sentences from a Continuous Space[J/OL]. https://arxiv.org/abs/1511.06349.

[10] 鄭華濱. 令人拍案叫絕的Wasserstein GAN[EB/OL]. https://zhuanlan.zhihu.com/p/25071913.

[11] Ishaan, Gulrajani, Faruk, Ahmed, Martin, Arjovsky, Vincent, Dumoulin, Aaron, Courville. Improved Training of Wasserstein GANs[J/OL]. https://arxiv.org/abs/1704.00028.

[12] Matt, J, Kusner, José, Miguel, Hernández-Lobato. GANS for Sequences of Discrete Ele-ments with the Gumbel-softmax Distribution[J/OL]. https://arxiv.org/abs/1611.04051.

[13] Martin, Arjovsky, Soumith, Chintala, Léon, Bottou. Wasserstein GAN[J/OL]. https://arxiv.org/abs/1701.07875v1.

[14] Sebastian, Nowozin, Botond, Cseke, Ryota, Tomioka. f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization[J/OL]. https://arxiv.org/abs/1606.00709.

[15] Eric, Jang, Shixiang, Gu, Ben, Poole. Categorical Reparameterization with Gum-bel-Softmax[J/OL]. https://arxiv.org/abs/1611.01144.

[16] Jiwei, Li, Will, Monroe, Alan, Ritter, Michel, Galley, Jianfeng, Gao, Dan, Jurafsky. Deep Reinforcement Learning for Dialogue Generation[J/OL]. https://arxiv.org/abs/1606.01541v3.

[17] Lantao, Yu, Weinan, Zhang, Jun, Wang, Yong, Yu. SeqGAN: Sequence Generative Adver-sarial Nets with Policy Gradient[J/OL]. https://arxiv.org/abs/1609.05473.

[18] Mehdi, Mirza, Simon, Osindero. Conditional Generative Adversarial Nets[J/OL]. https://arxiv.org/abs/1411.1784.

[19] Scott, Reed, Zeynep, Akata, Xinchen, Yan, Lajanugen, Logeswaran, Bernt, Schiele, Honglak, Lee. Generative Adversarial Text to Image Synthesis[J/OL]. https://arxiv.org/abs/1605.05396.

[20] Jiwei, Li, Will, Monroe, Tianlin, Shi, Sébastien, Jean, Alan, Ritter, Dan, Jurafsky. Adver-sarial Learning for Neural Dialogue Generation[J/OL]. https://arxiv.org/abs/1701.06547.

[21] Silver, D.; Huang, A.; Maddison, C. J.;Guez, A.; Sifre, L.; et al. 2016. Mastering the game

of go with deep neural networks and tree search. Nature 529(7587):484–489, http://www.nature.com/nature/journal/v529/n7587/abs/nature16961.html.

[22] Williams, R. J. and Zipser, D. (1989). A learning algorithm for continually running fully recurrent neural networks. Neural computation, 1(2), 270–280, http://www.mitpressjournals.org/doi/abs/10.1162/neco.1989.1.2.270.

[23] Alex, Lamb, Anirudh, Goyal, Ying, Zhang, Saizheng, Zhang, Aaron, Courville, Yoshua, Bengio. Professor Forcing: A New Algorithm for Training Recurrent Networks[J/OL]. https://arxiv.org/abs/1610.09038v1.

[24] David, Pfau, Oriol, Vinyals. Connecting Generative Adversarial Networks and Ac-tor-Critic Methods[J/OL]. https://arxiv.org/abs/1610.01945.

[25] Jun, Wang, Lantao, Yu, Weinan, Zhang, Yu, Gong, Yinghui, Xu, Benyou, Wang, Peng, Zhang, Dell, Zhang. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models[J/OL]. https://arxiv.org/abs/1705.10513v1.

[26] Hungyi, Lee. Machine Learning and having it Deep and Structured[EB/OL]. http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html.

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門(mén)文章