丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給劉鵬
發(fā)送

0

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

本文作者: 劉鵬 2018-07-16 09:51
導(dǎo)語(yǔ):深度學(xué)習(xí) (DL)+ 強(qiáng)化學(xué)習(xí) (RL) = 人工智能 (AI)

雷鋒網(wǎng) AI 研習(xí)社按:當(dāng) AlphaGO 橫掃之后,越來(lái)越多的學(xué)者意識(shí)到強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域所扮演的重要角色。同時(shí)隨著深度學(xué)習(xí)的發(fā)展,應(yīng)用深度學(xué)習(xí),很多自然語(yǔ)言的傳統(tǒng)難題得到突破。另外,引用 David Silver 的一句話(huà):深度學(xué)習(xí) (DL)+ 強(qiáng)化學(xué)習(xí) (RL) = 人工智能 (AI)。

近日,在雷鋒網(wǎng) AI 研習(xí)社公開(kāi)課上,廣東工業(yè)大學(xué)葉志豪介紹了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩大利器如何結(jié)合并應(yīng)用于 NLP 中的文本生成和對(duì)話(huà)任務(wù)。公開(kāi)課回放視頻網(wǎng)址:http://www.mooc.ai/course/503/reviews/#nav-tabs

葉志豪,就讀于廣東工業(yè)大學(xué),主要研究方向?yàn)樯疃葘W(xué)習(xí),強(qiáng)化學(xué)習(xí),自然語(yǔ)言處理,對(duì)話(huà)及問(wèn)答系統(tǒng)。

分享主題:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用

分享提綱:

1、強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)介紹。

2、強(qiáng)化學(xué)習(xí)在文本生成的應(yīng)用代表。

3、強(qiáng)化學(xué)習(xí)在對(duì)話(huà)任務(wù)的應(yīng)用代表。

雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:

我今天要講的是強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用,為什么要講強(qiáng)化學(xué)習(xí)和在 NLP 上的應(yīng)用?因?yàn)槲矣X(jué)得強(qiáng)化學(xué)習(xí)在 NLP 上有很大的的應(yīng)用前景。

我今天主要講強(qiáng)化學(xué)習(xí)和其在 NLP 上的簡(jiǎn)單應(yīng)用,因?yàn)閺?qiáng)化學(xué)習(xí)的門(mén)類(lèi)很多,想要深入了解的話(huà),內(nèi)容太多,它在 NLP 上的應(yīng)用也很多,不同方向有不一樣的應(yīng)用。今天主要講解它在文本生成和對(duì)話(huà)系統(tǒng)上的應(yīng)用,因?yàn)槲覍?duì)這個(gè)方面了解比較深入,最近也在做這個(gè)課題,如果你們有興趣也可以關(guān)注我的知乎專(zhuān)欄:AI 遇見(jiàn)機(jī)器學(xué)習(xí)。

在講解中,我會(huì)介紹幾篇代表性的論文,我的工作會(huì)放在最后跟你們討論,我們現(xiàn)在開(kāi)始講強(qiáng)化學(xué)習(xí)。

我們先看一下強(qiáng)化學(xué)習(xí)是什么,強(qiáng)化學(xué)習(xí)有兩個(gè)主要組成部分,一個(gè)是 agent,另一個(gè)是環(huán)境。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

舉個(gè)例子,在下圍棋的時(shí)候,alpha Go 就可以看成是一個(gè) agent,其他的 agent 主要是給出一個(gè)動(dòng)作、一個(gè)環(huán)境,然后它會(huì)記憶環(huán)境給它的一個(gè)觀(guān)測(cè),給出自己的一個(gè)動(dòng)作,在給出自己的動(dòng)作之后,一般會(huì)有環(huán)境回饋一個(gè)獎(jiǎng)勵(lì)機(jī)制給它,然后這個(gè)獎(jiǎng)勵(lì)可以是正的,也可以是負(fù)的,負(fù)的就變成了懲罰。

對(duì)于環(huán)境,它首先是接收了一個(gè)來(lái)自 agent 的一個(gè)動(dòng)作,然后接著會(huì)出 agent 的一個(gè)觀(guān)測(cè),類(lèi)似剛才講解過(guò)的流程,它在接收到一個(gè) agent 之后也會(huì)反饋一個(gè)信號(hào)給它,這就是一個(gè)大體流程,我們研究強(qiáng)化學(xué)習(xí),主要研究 agent 的一個(gè)決策。

比如,alpha Go 是一個(gè) agent,環(huán)境可以看成是圍棋的規(guī)則,即下棋的一個(gè)形式。強(qiáng)化學(xué)習(xí),影響未來(lái)對(duì) agent 的一個(gè)反饋,它的動(dòng)作會(huì)影響它的反饋,如果是比較不好的動(dòng)作,環(huán)境會(huì)給它一個(gè)負(fù)的懲罰,agent 的每一個(gè)動(dòng)作都會(huì)影響它的未來(lái)的狀態(tài),狀態(tài)是有些人懂,有些人不懂,關(guān)于未來(lái)的狀態(tài)我們之后再做解釋。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

剛才也提到,給出一個(gè)動(dòng)作之后,環(huán)境會(huì)給出一個(gè)獎(jiǎng)勵(lì)的信號(hào)(可能正也可能負(fù)),我們的目標(biāo),「agent 什么時(shí)候才是一個(gè)成功的(有利于我們的)agent」,如 alpha Go,什么時(shí)候它才能在圍棋上戰(zhàn)勝人類(lèi),這時(shí)是看它的 reward,如果在 reward 是好的情況下,什么是贏,什么是輸,我們肯定更希望 agent 每局都贏,每局都是一個(gè)正的獎(jiǎng)勵(lì)信號(hào)。

接下來(lái),講一下強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別,主要的區(qū)別可以歸納為兩點(diǎn)。和監(jiān)督學(xué)習(xí)比較,強(qiáng)化學(xué)習(xí)的信號(hào)是一個(gè)獎(jiǎng)勵(lì)信號(hào),有樣本、有標(biāo)簽,然后就是輸入的不同。因?yàn)槲覀兂R?jiàn)的,像我們的輸入模型,它們都是獨(dú)立分布的,但是對(duì)強(qiáng)化學(xué)習(xí)來(lái)說(shuō),一般它是一個(gè)序列,也就是說(shuō)它的每一個(gè)動(dòng)作的輸出和它的輸入是有關(guān)系的,它兩次的輸入有可能是相關(guān)聯(lián)的,很大程度上一般都是相關(guān)聯(lián)的,這兩點(diǎn)是強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的一個(gè)區(qū)別。

另外的一個(gè)區(qū)別,是強(qiáng)化學(xué)習(xí)的一個(gè)應(yīng)用,觀(guān)察上圖,可以看到強(qiáng)化學(xué)習(xí)的很多應(yīng)用,比如在計(jì)算機(jī)科學(xué)、工程學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)方面的應(yīng)用,但這是非常多的應(yīng)用,而每個(gè)人感興趣的地方也不一樣,大家可以選擇自己感興趣的自行了解。

簡(jiǎn)單介紹一下強(qiáng)化學(xué)習(xí)的一些概念,首先是狀態(tài),環(huán)境給一個(gè)觀(guān)測(cè)給 agent,然后 agent 給一個(gè)動(dòng)作給環(huán)境,環(huán)境再反饋一個(gè)獎(jiǎng)勵(lì)信號(hào),全部組成起來(lái)。換句話(huà)說(shuō),不同的觀(guān)測(cè),agent 會(huì)給出一個(gè)不同的動(dòng)作,不同的動(dòng)作,環(huán)境也會(huì)給出一個(gè)不同的獎(jiǎng)勵(lì),這一系列的一個(gè)經(jīng)歷或軌跡,就變成了一個(gè)狀態(tài)。

舉個(gè)例子,我們?cè)谙聡宓臅r(shí)候,圍棋中有 19*19 的格子,每一個(gè)格子對(duì)應(yīng)不同的動(dòng)作,但是每一個(gè)格子對(duì)應(yīng)不同的動(dòng)作之后,會(huì)有一個(gè)獎(jiǎng)勵(lì)或者有一個(gè)懲罰,這一系列的一個(gè)軌跡就會(huì)形成一個(gè)狀態(tài),agent 和環(huán)境的一個(gè)表示,也存在環(huán)境的配置可能不夠獎(jiǎng)勵(lì)機(jī)制的限定之類(lèi)的情況。

策略:分為確定性策略和隨機(jī)策略。

確定性策略,從字面意思上理解比較清楚,確定性策略就是指在某一個(gè)狀態(tài)下,它的動(dòng)作應(yīng)該是確定的,比如我們剛才舉例的圍棋,某一個(gè)格子上要不要落子,這個(gè)策略是確定的。

隨機(jī)策略,隨機(jī)策略就是在某一個(gè)格子上,「下不下」是由概率分布,比如「下」的概率是 80%,「不下」的概率是 20%。當(dāng)然,在現(xiàn)實(shí)應(yīng)用中會(huì)復(fù)雜很多。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

Value function:分為兩種,一個(gè)是 V-value function,一個(gè)是 Q-value function,但是這里因?yàn)闀r(shí)間有限,我們就只介紹 Q-value function,它表示的是未來(lái)的總的 reward 的一個(gè)估計(jì),或者是一個(gè)期望,它表示當(dāng)前策略的一個(gè)狀況,也就是當(dāng)前策略的一個(gè)好壞程度,它的定義是上圖(下)的一行公式(截自教材),公式中都是順時(shí)的一個(gè)獎(jiǎng)勵(lì),表示一個(gè)隨著 t 的增加然后遞減的過(guò)程,因?yàn)樗牵?,1)之間的,表示某個(gè)策略的好壞程度和總的一個(gè)價(jià)值,這就是說(shuō)這個(gè)策略的價(jià)值是這樣的,這里的 value function 可以定義為 Bellman 等式,該公式的推導(dǎo)過(guò)程這里不作講解,我們可以看直接結(jié)果,這個(gè)等式可以求解下一個(gè)函數(shù),利于求解它的策略。對(duì)于一個(gè)應(yīng)用,它肯定是有一個(gè)最優(yōu)的價(jià)值函數(shù),比如,圍棋方面可能會(huì)有一個(gè)最優(yōu)的價(jià)值函數(shù),一般來(lái)說(shuō),最優(yōu)的價(jià)值函數(shù)對(duì)應(yīng)的都是最優(yōu)策略。

比如,下圍棋的時(shí)候,給出一個(gè)狀態(tài)函數(shù),其實(shí)我們最重要的是得出那個(gè)策略,這個(gè)策略就決定了我們下圍棋的最后結(jié)果,我們想求它的最優(yōu)策略的話(huà),一般是求它的最優(yōu)函數(shù)來(lái)確定。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

根據(jù)這些不同的方法和不同的角度,對(duì)強(qiáng)化學(xué)習(xí)的分類(lèi),強(qiáng)化學(xué)習(xí)的分類(lèi)方式有很多種,這里給出了 value-based RL(基于價(jià)值函數(shù)),policy-based RL(基于策略的函數(shù)),model-based RL(基于模型的函數(shù))的分類(lèi),可以按著順序來(lái)了解。

value-based RL(基于價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí))

基于價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí),它先通過(guò)對(duì)現(xiàn)狀進(jìn)行一個(gè)價(jià)值函數(shù)的估計(jì),進(jìn)而去提升策略,估計(jì)這個(gè)策略,再重復(fù)循環(huán),再估計(jì)當(dāng)前策略下的函數(shù),再用當(dāng)前價(jià)值函數(shù)來(lái)提升它的策略,兩步,第一步估計(jì)價(jià)值函數(shù),第二步是提升它的策略,這兩步一直循環(huán)。

基于值的函數(shù)分為在線(xiàn)學(xué)習(xí)和離線(xiàn)學(xué)習(xí)兩種方式,在線(xiàn)學(xué)習(xí)的代表學(xué)習(xí)方法是 Sarsa,離線(xiàn)學(xué)習(xí)代表的是 Q-learning。

policy-based RL(基于策略的強(qiáng)化學(xué)習(xí))

基于策略的強(qiáng)化學(xué)習(xí),一開(kāi)始先估計(jì)它的值函數(shù),經(jīng)過(guò)價(jià)值函數(shù)進(jìn)一步得到它的最優(yōu)策略,但是基于策略的強(qiáng)化學(xué)習(xí)直接估計(jì)它的最優(yōu)策略。但是我們估計(jì)這個(gè)最優(yōu)策略的時(shí)候,同時(shí)也必須由那個(gè)自然數(shù)來(lái)進(jìn)行領(lǐng)導(dǎo),一個(gè)擬合或者使它得到了那個(gè)獎(jiǎng)勵(lì)最大化。

基于策略的強(qiáng)化學(xué)習(xí),代表性的有策略梯度和 REINFORE 算法。另外,圖(右上)可以看出它們是有交叉的,這些交叉可以是 AC 算法或比較高級(jí)的一些算法。

model-based RL(基于模型的強(qiáng)化學(xué)習(xí))

強(qiáng)化學(xué)習(xí)分為兩部分,一個(gè)是環(huán)境,一個(gè)是 agent,但很多時(shí)候,環(huán)境的觀(guān)測(cè)是不完整的,或者是沒(méi)有那個(gè)環(huán)境的,這時(shí),我們可能需要提前去模擬出這個(gè)環(huán)境,我記得有幅圖比較形象,有環(huán)境的MDP是真實(shí)地球,模擬環(huán)境可以看出整個(gè)地球的地圖,也就是地球的模擬。我們進(jìn)一步利用這個(gè)模擬出來(lái)的地球來(lái)求它的價(jià)值函數(shù)和最終策略,我們比較熟悉的搜索之類(lèi)的就是這種代表性的算法。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

下面來(lái)介紹什么是深度強(qiáng)化學(xué)習(xí),以我的理解,深度強(qiáng)化學(xué)習(xí)指的是擬合它的策略、價(jià)值函數(shù)、模型。深度學(xué)習(xí)一般來(lái)說(shuō)就是深度神經(jīng)網(wǎng)絡(luò)(其他深度樹(shù)之類(lèi)的不在考慮范圍內(nèi)),它還有個(gè)特點(diǎn):利用梯度下降或者其他擬合改進(jìn)之后的一個(gè)算法來(lái)擬合?,F(xiàn)在,深度強(qiáng)化學(xué)習(xí)也越來(lái)越強(qiáng)大,不斷得到發(fā)展。

deep learning 的話(huà)其實(shí)很早就有了,它通過(guò)先估計(jì)值,通過(guò)這個(gè)價(jià)值函數(shù),再進(jìn)行一個(gè)策略,或者最大化價(jià)值函數(shù)得到那個(gè)策略,很早之前就有一個(gè)擬合,是用非線(xiàn)性擬合的方式,去擬合這個(gè)價(jià)值函數(shù),輸入一個(gè)函數(shù),就是 Q-value function。

此前的那些用擬合和非擬合工具,存在兩個(gè)主要的問(wèn)題,這兩個(gè)主要的問(wèn)題,會(huì)導(dǎo)致用線(xiàn)性、非線(xiàn)性或者那些擬合網(wǎng)絡(luò),有時(shí)會(huì)導(dǎo)致偏差,繼而會(huì)導(dǎo)致樣本之間是有很強(qiáng)的相關(guān)聯(lián)性。有一個(gè)假設(shè),它是獨(dú)立分布的,如果樣本有一個(gè)很大的相關(guān)聯(lián)度的話(huà),會(huì)產(chǎn)生一個(gè)偏差。另外一個(gè)就是它的偏差是不穩(wěn)定的(可以這么理解)。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

deep Q-learning 根據(jù)以下三點(diǎn)進(jìn)行改進(jìn),使它的能力或者 DQN 的那些應(yīng)用也非常成功。

一、deep Q-learning 使用了深度卷積神經(jīng)網(wǎng)絡(luò),深度神經(jīng)卷積網(wǎng)絡(luò)在 imageNet 上有很多成功的應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)也有非常強(qiáng)的擬合能力,輸入和輸出之間非常多的線(xiàn)形操作,這是我們想要的。

二、為了解決剛才提及的兩個(gè)主要問(wèn)題,deep Q-learning 采用了隨機(jī)采樣,同時(shí),這兩個(gè)主要問(wèn)題是離線(xiàn)學(xué)習(xí)的做法,通過(guò)之前的樣本或者別人的樣本來(lái)進(jìn)行訓(xùn)練,這樣會(huì)隨機(jī)對(duì)樣本進(jìn)行打亂,這里其實(shí)做了一步,將樣本的相關(guān)性打亂,變得更加隨機(jī)、更加獨(dú)立分布。還有一種輸入法是利用別人已經(jīng)訓(xùn)練好的樣本,那些更好的軌跡或者狀態(tài)之類(lèi)的進(jìn)行訓(xùn)練,類(lèi)似于站在別人的肩膀上看世界,這樣更加的好,也會(huì)更加的適合卷積神經(jīng)網(wǎng)絡(luò)去訓(xùn)練

三、deep Q-learning 用 Q-target,Q-target 是之前的一個(gè)參數(shù),它是固定的,它給出的值,可以看 loss function 這里,公式的具體講解大家可以回放公開(kāi)課視頻至第 24 分鐘進(jìn)行查看。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

下面來(lái)講解基于訓(xùn)練的,我記得 alpha Go 那里也是 process 過(guò)的,它跟前面講解的方式不一樣,它是直接輸入一個(gè)狀態(tài),然后輸出動(dòng)作或者策略,我們要擬合的是由動(dòng)作到神經(jīng)之間的神經(jīng)網(wǎng)絡(luò),但怎么擬合?

一般來(lái)說(shuō),我們先對(duì)這個(gè)應(yīng)用進(jìn)行采樣,先下一萬(wàn)盤(pán)圍棋,記憶每一盤(pán)的軌跡,并且標(biāo)記下來(lái),利用大量的樣本進(jìn)行擬合,如何設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制是很重要的一點(diǎn),圍棋可以利用它的規(guī)則進(jìn)行設(shè)計(jì),我們利用這種機(jī)制讓更好的軌跡更有可能發(fā)生。換句話(huà)說(shuō),我們利用那些獎(jiǎng)勵(lì)機(jī)制,發(fā)展成我們想要的動(dòng)作和策略,如果設(shè)計(jì)得很好,就能很好擬合從狀態(tài)到設(shè)計(jì)的擬合。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

關(guān)于這樣做的好處和壞處,最突出的好處是,我們之前提到的 Q-learning 和基于值的強(qiáng)化學(xué)習(xí),它們先通過(guò)估計(jì)價(jià)值函數(shù),然后這個(gè)價(jià)值函數(shù)再去進(jìn)一步得到它的策略。但是,我們?cè)趺磳?shí)現(xiàn)從價(jià)值函數(shù)到策略的轉(zhuǎn)化,還是通過(guò)最大化那個(gè)價(jià)值函數(shù),在每一個(gè)動(dòng)作下最大化那個(gè)價(jià)值函數(shù),得到那個(gè)動(dòng)作或者策略。

但是如果你的動(dòng)作很多,或者是一個(gè)連續(xù)動(dòng)作空間的話(huà),很有可能對(duì) GPU 消耗過(guò)大,電腦的計(jì)算能力無(wú)法承受,就會(huì)變得很低效。如果是高維或者連續(xù)型的一個(gè)空間的話(huà),用 growth network 就可以很好解決,因?yàn)閺臓顟B(tài)到動(dòng)作,直接輸出的是一個(gè)動(dòng)作,而不是一個(gè)價(jià)值,從價(jià)值再去映射到它的策略,映射那一部分已經(jīng)被我們?nèi)サ袅?,如此一?lái),我們就可以減少大量的計(jì)算。另外,它可以學(xué)習(xí)到隨機(jī)性的一個(gè)策略。

關(guān)于壞處,最重要的是一個(gè)高分差的問(wèn)題,可以使用其它計(jì)算機(jī)類(lèi)的方法進(jìn)行解決。

現(xiàn)在講一下確定性與隨機(jī)策略的區(qū)別,前面給出的是它們的好處。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

如果是隨機(jī)性策略的話(huà),會(huì)得到更多探索性。當(dāng)是一個(gè)確定性的話(huà),它會(huì)更加有效,但它會(huì)有一些問(wèn)題,比如圖(右)的例子,設(shè)定是需要拿到中間的錢(qián),如果用確定性的 policies 的話(huà)(用 Q-learning 的算法去學(xué)習(xí)),最終學(xué)習(xí)到的是中間的狀態(tài)。假設(shè)是每個(gè)格子只能了解兩邊的情況,灰色格子兩邊都是白色格子,agent 只能看到兩邊格子都是白色的。右邊的灰色格子同理,只能看到兩邊是白色的,不能判斷哪邊更好哪邊更壞。

如果用 Q-learning 去訓(xùn)練這個(gè)模型,最終得到的一個(gè)策略就是中間紅色箭頭標(biāo)注的那樣(上圖),可能發(fā)生的情況是:「從白色到灰色,灰色到白色一直循環(huán)」,永遠(yuǎn)都到不了最終要到的地方,在確定性策略下,永遠(yuǎn)都找不到可能性的存在。

另外一種情況,采用隨機(jī)性策略,兩個(gè)灰格子不知道左右兩邊,它會(huì)隨機(jī)拋一個(gè)硬幣,有可能跑到左邊,這樣會(huì)得到一個(gè)負(fù)的獎(jiǎng)勵(lì),也有可能跑到右邊,得到一個(gè)正的獎(jiǎng)勵(lì),得到了我們最終想要的結(jié)果。它不會(huì)像確定性策略那樣一直循環(huán)下去,這就是隨機(jī)性策略的一個(gè)好處... 此處詳細(xì)講解可回放視頻至第 31 分鐘查看。

強(qiáng)化學(xué)習(xí)為什么能應(yīng)用在自然語(yǔ)言處理上?

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

首先,現(xiàn)在最主要的一個(gè)解決方式是,強(qiáng)化學(xué)習(xí)對(duì)一個(gè)離散空間上的決策是有天然的優(yōu)勢(shì)。

一、強(qiáng)化學(xué)習(xí)在策略決策或文本生成上具有天然優(yōu)勢(shì),因?yàn)槲覀冊(cè)跀M合 Q-wise learning 的時(shí)候,我們發(fā)現(xiàn)(除強(qiáng)化學(xué)習(xí)之外的)其他方式都不能很好的達(dá)到我們理想的效果。

二、在任務(wù)型對(duì)話(huà)系統(tǒng)中,給定一個(gè)對(duì)話(huà)之后,會(huì)有一個(gè)決策過(guò)程,也就是指,這個(gè)系統(tǒng)下一步是要問(wèn)問(wèn)題還是要回答問(wèn)題,這都是策略。我們可以把它們變成一個(gè)策略,再進(jìn)行一個(gè)策略決策,再進(jìn)行一個(gè)強(qiáng)化學(xué)習(xí),去擬合它和訓(xùn)練它。

三、在很多隱狀態(tài)的時(shí)候,我們有可能應(yīng)用到強(qiáng)化學(xué)習(xí),這時(shí),我們可以利用自己設(shè)立的權(quán)利機(jī)制來(lái)對(duì)隱狀態(tài)進(jìn)行一個(gè)訓(xùn)練或者擬合。

我認(rèn)為,第一點(diǎn)最重要,就是強(qiáng)化學(xué)習(xí)在天然的離散空間上可以 work 的一個(gè)原因,因?yàn)槟壳暗淖匀徽Z(yǔ)言處理大多都是一個(gè)離散空間的自然語(yǔ)言處理、生成或者是序列決策,這時(shí),我們很天然地可以利用到強(qiáng)化學(xué)習(xí)去擬合和運(yùn)作。另外,它的決策函數(shù)是可以自己制定的一個(gè)過(guò)程,但這個(gè)制定復(fù)雜,不同的應(yīng)用也有不同的方式。

下面,我會(huì)講解四篇有代表性的論文。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

注:此部分的詳細(xì)解讀,大家可回放公開(kāi)課視頻至第 38 分鐘查看

第一篇是 sequence generative adversarial nets with policy gradient,這是首篇用 GAN 在 NLP 上的應(yīng)用,此前 GAN 不能應(yīng)用文本生成和自然語(yǔ)言處理,這時(shí),強(qiáng)化學(xué)習(xí)就起到了決定性的作用,這是至關(guān)重要的一部分,所以今天我們拿出來(lái)講一下,而且 sequence 也比較出名和具有代表性,是強(qiáng)化學(xué)習(xí)在文本生成的一個(gè)應(yīng)用。

首先,為什么之前的 GAN 不能應(yīng)用于自然語(yǔ)言處理和文本生成?

因?yàn)橹霸谂袆e器給出生成器一些梯度信號(hào)的時(shí)候,在圖像連續(xù)型是可以 work 的,一旦變成了一個(gè)文本生成離散型的時(shí)候,它是不能夠...... 此部分的詳細(xì)講解大家可回放公開(kāi)課視頻至第 36 分鐘查看。

圖像識(shí)別,判別器給生成器一個(gè)梯度的信號(hào),這時(shí),判別器給生成器 0.1 的改進(jìn),生成器對(duì)圖像像素進(jìn)化+0.1,它的像素會(huì)變化,暗度會(huì)有一定的改變,這時(shí),象征它的圖像會(huì)有一定的變化。

換成文本后,我們用 threshold 和 word-embedding 給一個(gè)表示的話(huà),就加 0.1,比如,「我」這個(gè)詞加了 0.1,它可能在詞庫(kù)里找不到代表這個(gè)詞的,加 0.1 的這個(gè)詞可能并不存在。另外,我們可能會(huì)利用一種強(qiáng)制把它變成最接近的那個(gè)詞,比如,「我」+0.1 更靠近「我們」這個(gè)詞,就變成「我們」,如此一來(lái),可能會(huì)近一步,偏差一直下去的話(huà),生成的效果可能不好,這就是原始的一個(gè)問(wèn)題,這時(shí),我們可以利用強(qiáng)化學(xué)習(xí)解決它。

sequence generative adversarial nets 主要也是這方面的一個(gè)應(yīng)用,它的主要 contribution 也是第一次利用強(qiáng)化學(xué)習(xí)、利用 GAN 去生成結(jié)構(gòu)圖。sequence generative adversarial nets 使用效率比較高的 CNN,效果比較好。生成器用的是 LSTM,LSTM 之后,用策略梯度去優(yōu)化,這里存在一個(gè)問(wèn)題:

LSTM 生成一個(gè)單詞,因?yàn)?CNN 這時(shí)判別不出該單詞真或假的時(shí)候,它的句子很有可能不完整。LSTM 生成一個(gè)完整的句子,判別器得到這個(gè)句子之后,我們就可以把判別器當(dāng)成一個(gè)信號(hào),返回給生成器... 繼強(qiáng)化學(xué)習(xí)之后,利用擬合的、或訓(xùn)練的指函數(shù),判別器給定的一個(gè)信號(hào),生成器去擬合,它就是利用這樣的方式... 生成器生成的文本更好,效果還可以,大家可以參考它的資料復(fù)現(xiàn)一下。在對(duì)話(huà)方面的應(yīng)用,后來(lái)做了一些改進(jìn),一開(kāi)始說(shuō)要生成完整的句子,用蒙特卡洛樹(shù)去 sample 它就能得到一個(gè)句子,李博士也說(shuō),可以用不完整的句子讓它判別,之后得到一個(gè)獎(jiǎng)勵(lì)信號(hào)去訓(xùn)練,具體的內(nèi)容大家可以去看一下論文。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

這篇 2016 年發(fā)表的論文,是關(guān)于文本算法對(duì)序列生成的一種應(yīng)用,老早之前,我們就認(rèn)為 reinforce 算法和 AC 算法屬于策略的強(qiáng)化學(xué)習(xí),它是基于值函數(shù)的一種一個(gè)組合。

這篇論文主要是利用 actor critic 應(yīng)用在序列預(yù)測(cè)上的一個(gè)應(yīng)用,它主要解決 exposure bias 問(wèn)題,exposure bias 問(wèn)題可以簡(jiǎn)單解釋成,我們?cè)谏梢痪湓?huà)的時(shí)候,在訓(xùn)練的時(shí)候,一開(kāi)始的那個(gè) label,LSTM 輸入都是真實(shí)的輸入,那個(gè)句子是真實(shí)的句子,但是等到預(yù)測(cè)的時(shí)候,輸入是上一步得到的輸出作為下一步的輸入進(jìn)行輸入,這樣得到了一個(gè)結(jié)果,訓(xùn)練和預(yù)測(cè)不同的輸入,這樣導(dǎo)致的一個(gè)偏差,隨著序列的長(zhǎng)度的增加,它的偏差也會(huì)越來(lái)越大,這里就會(huì)產(chǎn)生一個(gè) exposure bias 問(wèn)題,然后他們這篇論文也是解決那一個(gè)問(wèn)題而做的,related work 有很多,大家可以自己去考證一下。

模型,actor 和 critic,一個(gè)是 decoder,一個(gè)是 encoder 的框架來(lái)形成的。actor 可以看成是輸入原來(lái)的一個(gè)句子。例如,actor 的應(yīng)用是應(yīng)用到一個(gè)翻譯上的,原來(lái)要翻譯的一個(gè)句子輸入成 encoder 的一個(gè)輸入,decoder 輸出的是翻譯后的一個(gè)序列,這個(gè)序列可以輸入給 critic 進(jìn)行值函數(shù)的一個(gè)判斷,這個(gè)值函數(shù)的判斷輸入在 encoder 的里面的時(shí)候是真實(shí)的.. 詳細(xì)解讀大家可回放公開(kāi)課視頻至第 47 分鐘查看。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

這篇論文的內(nèi)容是,用強(qiáng)化學(xué)習(xí)去解決對(duì)話(huà)生成的一個(gè)問(wèn)題。對(duì)話(huà)生成的主要問(wèn)題是,會(huì)生成一個(gè)很一般的一個(gè)回答,比如「see you later」這種很沒(méi)有營(yíng)養(yǎng)的一種回答。另外,它會(huì)形成一個(gè)循環(huán),就是「see you later」「see you later」「see you later」這種,這篇論文的作者是李博士,他在對(duì)話(huà)生成方面發(fā)表過(guò)不少好的論文,大家也可以去看一下。

利用一個(gè)強(qiáng)化學(xué)習(xí)把原來(lái)的損失函數(shù)進(jìn)行一個(gè)改變... 去擬合的一個(gè) seq2seq,我們通常利用其它的自然區(qū)域去擬合 seq2seq... 我們可以自己設(shè)計(jì) reward,利用這個(gè) reward 讓系統(tǒng)生成我們自己想要、使系統(tǒng)更加靈活的一種方式。如果我們想在強(qiáng)化學(xué)習(xí)有所應(yīng)用的話(huà),這篇論文有很大的參考價(jià)值。

基于策略的強(qiáng)化學(xué)習(xí)有一點(diǎn)很重要,利用值函數(shù)進(jìn)行引導(dǎo),讓我們得到更好的想要的策略。這里給出了 3 種 reward,之后,再將這 3 種 reward 進(jìn)行加權(quán)平均,得到了一個(gè)最終的 reward,每一個(gè) reward 都有它自己的一個(gè)意義。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

最后一篇的關(guān)于任務(wù)型對(duì)話(huà)方面的內(nèi)容,強(qiáng)化學(xué)習(xí)最主要作用是運(yùn)用強(qiáng)化學(xué)習(xí)去訓(xùn)練它的決策策略,根據(jù)剛才提到的例子,客服系統(tǒng)需要預(yù)測(cè)問(wèn)問(wèn)題,這就是一個(gè)決策,需要利用強(qiáng)化學(xué)習(xí)去做這個(gè)決策,Q-learning 也可以,但是效果比較差,還有就是 Q-learning 需要大量的樣本,這時(shí),用強(qiáng)化學(xué)習(xí)就可以減少大部分的樣本,在很多應(yīng)用上比較方便。

這篇論文,是把它應(yīng)用到了一個(gè)個(gè)性化的系統(tǒng),它和普通的對(duì)話(huà)系統(tǒng)的一個(gè)較大的區(qū)別是,需要考慮個(gè)人信息的利用程度,另外,個(gè)性化的對(duì)話(huà)的一個(gè)數(shù)據(jù)更難獲得,所以我們需要考慮在數(shù)據(jù)不足的情況下,應(yīng)該怎樣去解決。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開(kāi)課視頻請(qǐng)到雷鋒網(wǎng) AI 慕課學(xué)院觀(guān)看。關(guān)注微信公眾號(hào):AI 研習(xí)社,可獲取最新公開(kāi)課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

葉志豪:介紹強(qiáng)化學(xué)習(xí)及其在 NLP 上的應(yīng)用 | 分享總結(jié)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)