丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

本文作者: AI研習(xí)社-譯站 2020-11-12 11:26
導(dǎo)語:本文我們將會聚焦于強(qiáng)化學(xué)習(xí)在現(xiàn)實生活中的實際應(yīng)用。

譯者:AI研習(xí)社(季一帆、Zephyr178

雙語原文鏈接:10 Real-Life Applications of Reinforcement Learning



強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

在強(qiáng)化學(xué)習(xí)中,我們使用獎懲機(jī)制來訓(xùn)練agents。Agent做出正確的行為會得到獎勵,做出錯誤的行為就會受到懲罰。這樣的話,agent就會試著將自己的錯誤行為最少化,將自己的正確行為最多化。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用  

本文我們將會聚焦于強(qiáng)化學(xué)習(xí)在現(xiàn)實生活中的實際應(yīng)用。

無人駕駛中的應(yīng)用

很多論文都提到了深度強(qiáng)化學(xué)習(xí)在自動駕駛領(lǐng)域中的應(yīng)用。在無人駕駛中,需要考慮的問題是非常多的,如:不同地方的限速不同限速,是否是可行駛區(qū)域,如何躲避障礙等問題。

有些自動駕駛的任務(wù)可以與強(qiáng)化學(xué)習(xí)相結(jié)合,比如軌跡優(yōu)化,運動規(guī)劃,動態(tài)路徑,最優(yōu)控制,以及高速路中的情景學(xué)習(xí)策略。

比如,自動停車策略能夠完成自動停車。變道能夠使用q-learning來實現(xiàn),超車能應(yīng)用超車學(xué)習(xí)策略來完成超車的同時躲避障礙并且此后保持一個穩(wěn)定得速度。

AWS DeepRacer是一款設(shè)計用來測試強(qiáng)化學(xué)習(xí)算法在實際軌道中的變現(xiàn)的自動駕駛賽車。它能使用攝像頭來可視化賽道,并且可以使用強(qiáng)化學(xué)習(xí)模型來控制油門和方向。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

Wayve.ai已經(jīng)成功應(yīng)用了強(qiáng)化學(xué)習(xí)來訓(xùn)練一輛車如何在白天駕駛。他們使用了深度強(qiáng)化學(xué)習(xí)算法來處理車道跟隨任務(wù)的問題。他們的網(wǎng)絡(luò)結(jié)構(gòu)是一個有4個卷積層和3個全連接層的深層神經(jīng)網(wǎng)絡(luò)。例子如圖。中間的圖像表示駕駛員視角。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

強(qiáng)化學(xué)習(xí)在工業(yè)自動化中的應(yīng)用

在工業(yè)自動化中,基于強(qiáng)化學(xué)習(xí)的機(jī)器人被用于執(zhí)行各種任務(wù)。這些機(jī)器人不僅效率比人類更高,還可以執(zhí)行危險任務(wù)。

Deepmind使用AI智能體來冷卻Google數(shù)據(jù)中心是一個成功的應(yīng)用案例。通過這種方式,節(jié)省了40%的能源支出。現(xiàn)在,這些數(shù)據(jù)中心完全由人工智能系統(tǒng)控制,除了很少數(shù)據(jù)中心的專家,幾乎不再需要其他人工干預(yù)。該系統(tǒng)的工作方式如下:

  • 每五分鐘從數(shù)據(jù)中心獲取數(shù)據(jù)快照,并將其輸入深度神經(jīng)網(wǎng)絡(luò)

  • 預(yù)測不同組合將如何影響未來的能源消耗

  • 在符合安全標(biāo)準(zhǔn)的情況下,采取具有最小功耗的措施

  • 向數(shù)據(jù)中心發(fā)送相應(yīng)措施并實施操作

當(dāng)然,具體的措施還是由本地控制系統(tǒng)操作完成。

強(qiáng)化學(xué)習(xí)在金融貿(mào)易中的應(yīng)用

有監(jiān)督的時間序列模型可用來預(yù)測未來的銷售額,還可以預(yù)測股票價格。然而,這些模型并不能決定在特定股價下應(yīng)采取何種行動,強(qiáng)化學(xué)習(xí)(RL)正是為此問題而生。通過市場基準(zhǔn)標(biāo)準(zhǔn)對RL模型進(jìn)行評估,確保RL智能體正確做出持有、購買或是出售的決定,以保證最佳收益。

通過強(qiáng)化學(xué)習(xí),金融貿(mào)易不再像從前那樣由分析師做出每一個決策,真正實現(xiàn)機(jī)器的自動決策。例如,IBM構(gòu)建有一個強(qiáng)大的、面向金融交易的強(qiáng)化學(xué)習(xí)平臺,該平臺根據(jù)每一筆金融交易的損失或利潤來調(diào)整獎勵函數(shù)。

強(qiáng)化學(xué)習(xí)在自然語言處理NLP中的應(yīng)用

RL可用于文本摘要、問答和機(jī)器翻譯等NLP任務(wù)。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基于RL的長文本問答方法。具體而言,首先從文檔中選出幾個與問題相關(guān)的句子,然后結(jié)合所選句子和問句通過RNN生成答案。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

該論文結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)生成抽象文本摘要。論文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解決基于注意力的RNN編解碼模型在摘要生成中面臨的問題。論文提出了一種新的內(nèi)注意力神經(jīng)網(wǎng)絡(luò),通過該注意力可以關(guān)注輸入并連續(xù)生成輸出,監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)被用于模型訓(xùn)練。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

至于機(jī)器翻譯,科羅拉多大學(xué)和馬里蘭大學(xué)的研究人員提出了一種基于強(qiáng)化學(xué)習(xí)的機(jī)器翻譯模型,該模型能夠?qū)W習(xí)預(yù)測單詞是否可信,并通過RL來決定是否需要輸入更多信息來幫助翻譯。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

斯坦福大學(xué)、俄亥俄州立大學(xué)和微軟研究所的研究人員提出Deep-RL,可用于對話生成任務(wù)。Deep-RL使用兩個虛擬智能體模擬對話,并學(xué)習(xí)多輪對話中的未來獎勵的建模,同時,應(yīng)用策略梯度方法使高質(zhì)量對話獲得更高獎勵,如連貫性、信息豐富度和簡潔性等。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

點此鏈接查看更多RL在NLP中的應(yīng)用。

強(qiáng)化學(xué)習(xí)在醫(yī)療保健中的應(yīng)用

醫(yī)療保健領(lǐng)域,RL系統(tǒng)為患者只能提供治療策略。該系統(tǒng)能夠利用以往的經(jīng)驗找到最優(yōu)的策略,而無需生物系統(tǒng)的數(shù)學(xué)模型等先驗信息,這使得基于RL的系統(tǒng)具有更廣泛的適用性。

基于RL的醫(yī)療保健動態(tài)治療方案(DTRs)包括慢性病或重癥監(jiān)護(hù)、自動化醫(yī)療診斷及其他一些領(lǐng)域。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

DTRs的輸入是一組對患者的臨床觀察和評估數(shù)據(jù),輸出則是每個階段的治療方案。通過RL,DTRs能夠確定患者在特定時間的最佳治療方案,實現(xiàn)時間依賴性決策。

在醫(yī)療保健中,RL方法還可用于根據(jù)治療的延遲效應(yīng)改善長期結(jié)果。

對于慢性病,RL方法還可用于發(fā)現(xiàn)和生成最佳DTRs。

通過本文,您可以深入研究RL在醫(yī)療保健中的應(yīng)用。

強(qiáng)化學(xué)習(xí)在工程中的應(yīng)用

在工程領(lǐng)域,F(xiàn)acebook提出了開源強(qiáng)化學(xué)習(xí)平臺?——?Horizon,該平臺利用強(qiáng)化學(xué)習(xí)來優(yōu)化大規(guī)模生產(chǎn)系統(tǒng)。在Facebook內(nèi)部,Horizon被用于:

  • 個性化指南

  • 向用戶發(fā)送更有意義的通知

  • 優(yōu)化視頻流質(zhì)量

Horizon主要流程包括:

  • 模擬環(huán)境

  • 用于數(shù)據(jù)處理的分布式數(shù)據(jù)平臺

  • 模型的訓(xùn)練與輸出

一個典型例子是,強(qiáng)化學(xué)習(xí)根據(jù)視頻緩沖區(qū)的狀態(tài)和其他機(jī)器學(xué)習(xí)系統(tǒng)的估計可選擇的為用戶提供低比特率或高比特率的視頻。

Horizon還能夠處理以下問題:

  • 大規(guī)模部署

  • 特征規(guī)范化

  • 分布式學(xué)習(xí)

  • 超大規(guī)模數(shù)據(jù)的處理和服務(wù),如包含高維數(shù)據(jù)和數(shù)千特征的數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)在新聞推薦中的應(yīng)用

新聞推薦領(lǐng)域,用戶的喜好不是一成不變的,僅僅基于評論和(歷史)喜好向用戶推薦新聞無法一勞永逸?;趶?qiáng)化學(xué)習(xí)的系統(tǒng)則可以動態(tài)跟蹤讀者反饋并更新推薦。

構(gòu)建這樣一個系統(tǒng)需要獲取新聞特征、讀者特征、上下文特征和讀者閱讀的新聞特征。其中,新聞特征包括但不限于內(nèi)容、標(biāo)題和發(fā)布者;讀者特征是指讀者與內(nèi)容的交互方式,如點擊和共享;上下文特征包括新聞的時間和新鮮度等。然后根據(jù)用戶行為定義獎勵函數(shù),訓(xùn)練RL模型。

強(qiáng)化學(xué)習(xí)在游戲中的應(yīng)用

RL在游戲領(lǐng)域中的應(yīng)用備受關(guān)注,且極為成功,最典型的便是前些年人盡皆知的AlphaGoZero。通過強(qiáng)化學(xué)習(xí),AlphaGoZero能夠從頭學(xué)習(xí)圍棋游戲,并自我學(xué)習(xí)。經(jīng)過40天的訓(xùn)練,AlphaGoZero的表現(xiàn)超過了世界排名第一的柯潔。該模型僅包含一個神經(jīng)網(wǎng)絡(luò),且只將黑白棋子作為輸入特征。由于網(wǎng)絡(luò)單一,一個簡單的樹搜索算法被用來評估位置移動和樣本移動,而無需任何蒙特卡羅展開。

實時競價——強(qiáng)化學(xué)習(xí)在廣告營銷中的應(yīng)用

該論文提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的實時競價策略。對大量廣告商進(jìn)行聚類,然后為每個聚類分配一個策略投標(biāo)智能體實現(xiàn)競標(biāo)。同時,為了平衡廣告主之間的競爭與合作,論文還提出了分布式協(xié)同多智能體競價(DCMAB)。

在市場營銷中,選擇正確的目標(biāo)全體才可帶來高回報,因此個人精準(zhǔn)定位至關(guān)重要的。論文以中國最大的電子商務(wù)平臺淘寶網(wǎng)為研究對象,表明上述多智能體強(qiáng)化學(xué)習(xí)優(yōu)于現(xiàn)有的單智能體強(qiáng)化學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)在機(jī)器人控制中的應(yīng)用

通過深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法訓(xùn)練機(jī)器人,可以使其能夠抓取各種物體,甚至是訓(xùn)練中未出現(xiàn)過的物體。因此,可將其用于裝配線上產(chǎn)品的制造。

上述想法是通過結(jié)合大規(guī)模分布式優(yōu)化和QT-Opt(一種深度Q-Learning變體)實現(xiàn)的。其中,QT-Opt支持連續(xù)動作空間操作,這使其可以很好處理機(jī)器人問題。在實踐中,先離線訓(xùn)練模型,然后在真實的機(jī)器人上進(jìn)行部署和微調(diào)。

針對抓取任務(wù),谷歌AI用了4個月時間,使用7個機(jī)器人運行了800機(jī)器人時。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

實驗表明,在700次實驗中,QT-Opt方法有96%的概率成功抓取陌生的物體,而之前的方法僅有78%的成功率。

總結(jié)

強(qiáng)化學(xué)習(xí)是一個非常有趣且值得廣泛研究的領(lǐng)域,RL技術(shù)的進(jìn)步及其在現(xiàn)實各領(lǐng)域的應(yīng)用勢必將取得更大的成功。

在本文中,我們粗略介紹了強(qiáng)化學(xué)習(xí)的不同領(lǐng)域應(yīng)用。希望這能激發(fā)起你的好奇心,并引起你對RL的熱愛和研究。如果想了解更多,推薦查看這兩個項目:https://github.com/aikorea/awesome-rl,https://github.com/dennybritz/reinforcement-learning。


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

強(qiáng)化學(xué)習(xí)的10個現(xiàn)實應(yīng)用

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說