丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給sunshine_lady
發(fā)送

0

被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機

本文作者: sunshine_lady 編輯:郭奕欣 2017-04-13 16:17
導(dǎo)語:Maluuba初創(chuàng)公司致力于研究多重引導(dǎo)強化學(xué)習(xí)機,為機器學(xué)習(xí)再添領(lǐng)導(dǎo)能力。

被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機

Maluuba 位于蒙特利爾(加拿大東南部港市),是加拿大的人工智能初創(chuàng)公司,于今年年初被微軟收購。雷鋒網(wǎng)了解到,該創(chuàng)業(yè)公司及其研究團(tuán)隊致力于開發(fā)一種更為優(yōu)異的機器智能工具,以分析無結(jié)構(gòu)化文本,從而使人機交互更加自然。團(tuán)隊日前完成了他們的處女作《Multi-Advisor Reinforcement Learning》,這是該團(tuán)隊前段時間的工作重心。

其論文強調(diào)了“多重引導(dǎo)強化學(xué)習(xí)機(multi-advisor reinforcement learning)”理論,將問題分解得更加簡單且易于計算。此外, Maluuba 公司正進(jìn)行有效的嘗試,教會機器一些領(lǐng)導(dǎo)技巧。從而化解以往的困難問題。

被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機

有哪些問題亟待解決?

死板,是目前人機交互界面仍然無法克服的難題,并且這種交互很容易出現(xiàn)各式各樣的問題。 雷鋒網(wǎng)了解到,雖然目前行業(yè)領(lǐng)先的 Siri ,  Alexa 和 Cortana 已遠(yuǎn)遠(yuǎn)超過以往的對話系統(tǒng),但是它們表現(xiàn)出的智能仍然和普通的人類智力相差甚遠(yuǎn)。

如果我們從計算機的角度出發(fā),思考這一系統(tǒng)可擁有的最大能力時,我們就可以理解:即使是一個容納盡可能完整體系的模型,也不足以替代工程師創(chuàng)造出特定需求的智能工具,而只能在某些限定下有良好的表現(xiàn)。這就是為什么你可命令Siri幫你打電話,但是不能要求它組織一場大型晚宴。

強化學(xué)習(xí)( reinforcement learning, 機器學(xué)習(xí)的分支)從被提出以來,倍受智能領(lǐng)域研究工作者的關(guān)注。如之前的描述,強化學(xué)習(xí)從經(jīng)濟(jì)學(xué)家的實用性概念中借鑒了新的思想,并不斷嘗試量化并反復(fù)地評估和給出決策。采用“游戲化”機制處理問題,并圖形化地設(shè)置一些智能系統(tǒng)可以優(yōu)化的“節(jié)點”,這樣智能系統(tǒng)就可以改進(jìn),而不是直接的為自動汽車定義所有的行駛規(guī)則。當(dāng)駕駛超過雙黃線時,系統(tǒng)可以動態(tài)的丟棄一些節(jié)點;當(dāng)系統(tǒng)維持在速度限定內(nèi)時,系統(tǒng)可以有保留的加入一些節(jié)點。這一思想可為系統(tǒng)提供更多的自適應(yīng)性,但是這仍是一個相當(dāng)復(fù)雜的問題,需要很大的計算量。于是,多重引導(dǎo)強化學(xué)習(xí)機的到來將巧妙化解這些問題。

被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機

問題解決

針對強化學(xué)習(xí),Maluuba 試圖解決這些復(fù)雜的問題。他們的方法是使用多重“引導(dǎo)者”(“advisors”)的概念來突破問題,將其約減并模塊化。傳統(tǒng)的強化學(xué)習(xí)算法采用的是單智能體( Agent )強化學(xué)習(xí)法(Single-Agent reinforcement),但是近期采用多智能體的算法已經(jīng)越顯常見了。

在 Maluuba 的訪談中,該團(tuán)隊展示了一個關(guān)于智能排程助手的案例??赡苡谐蝗?,智能算法會按不同的會議等級分配不同的智能體,而不是讓單智能體學(xué)習(xí)算法去安排每一種最佳的會議日程。

困難在于,如何調(diào)動所有的智能體相互協(xié)作。

Maluuba 最初想到的方法是讓這些智能體像人類一樣分解問題。而讓人們協(xié)同的高效工作本就是一個不小的工程,即便分而治之的思想有時可以超過單槍匹馬的決策。因此,解決的方法是讓聚合器( aggregator  )坐在所有“引導(dǎo)者”的上方來做決定。在 Maluuba 的論文中,每一個引導(dǎo)者針對待解決的大問題都會有不同的側(cè)重點。如果引導(dǎo)者們持有不同的觀點,聚合器將站出來進(jìn)行仲裁。

Maluuba 使用 Pac-Man 女士設(shè)計的簡化版程序 Pac-Boy ,用于測試不同的多重引導(dǎo)強化聚合學(xué)習(xí)框架理論。該團(tuán)隊渴望學(xué)習(xí)人類是如何高效的分解問題。另外,如何組織及管理眾多最優(yōu)聚合器,在理想情況下也是存在一些通用方法的。這就是該團(tuán)隊熱衷于此的原因。于是他們決定讓機器學(xué)習(xí)“101領(lǐng)導(dǎo)法則(leadership 101)”。

多強化學(xué)習(xí)機的優(yōu)勢何在?

多強化學(xué)習(xí)機可以大幅度地提升CPU和GPU的計算效率。打破這樣一個計算瓶頸的同時也使得多服務(wù)器并行計算變得更加便于實施。降低計算復(fù)雜度是全世界科研工作者研究強化學(xué)習(xí)時的一把鑰匙。該研究團(tuán)隊成員表示,這一問題也伴隨著微軟公司發(fā)展至今。微軟開啟了 Azure 云平臺,為機器學(xué)習(xí)團(tuán)隊搭建了交流渠道。當(dāng) Azure 開始運作時, Maluuba 便扮演了語言文本分析領(lǐng)域的重要角色。

盡管強化學(xué)習(xí)本身并不是一個嶄新的概念, Maluuba 在這上面傾注了大量的資源。團(tuán)隊成員肯定,團(tuán)隊已經(jīng)看到強化學(xué)習(xí)在 DeepMind 開發(fā)的 AlphaGo 上表現(xiàn)出的巨大潛力,未來的聯(lián)合研究項目將會帶來更加有效的以及適應(yīng)性更強的增強學(xué)習(xí)方法。這或許將為微軟的面向會話的產(chǎn)品帶來更多的用戶。

via  Techcrunch,雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

被微軟收購后,Maluuba著手研究多重引導(dǎo)強化學(xué)習(xí)機

分享:
相關(guān)文章

外翻編輯

翻譯編輯,所譯的文章均來自國外相關(guān)實驗室發(fā)表的news。 轉(zhuǎn)載文章須注明翻譯作者。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說