丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型

本文作者: 楊曉凡 編輯:郭奕欣 2018-02-25 10:17
導(dǎo)語(yǔ):- 請(qǐng)開(kāi)始你的觀察 - 請(qǐng)開(kāi)始你的表演

心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型

雷鋒網(wǎng) AI 科技評(píng)論按:人類對(duì)各種深度學(xué)習(xí)模型最常見(jiàn)的不滿之一就是難以解釋、無(wú)法理解,即便可以查看訓(xùn)練好的網(wǎng)絡(luò)的每個(gè)連接的權(quán)重,也說(shuō)不清網(wǎng)絡(luò)利用的數(shù)據(jù)模式是哪些,以及網(wǎng)絡(luò)目前的運(yùn)行狀況里有哪些問(wèn)題。

不過(guò),人類從不懷疑自己可以理解另一個(gè)人類:我們可以通過(guò)各種方法了解并描述別人的訴求、觀念和當(dāng)下的想法,可以推測(cè)別人知道哪些信息,可以猜測(cè)別人的未來(lái)行動(dòng),我們同時(shí)也就以此為基礎(chǔ)考慮如何和別人互動(dòng)。其實(shí)絕大多數(shù)情況下我們都不會(huì)嘗試重建別人的腦神經(jīng)結(jié)構(gòu),不會(huì)嘗試估計(jì)別人的腦神經(jīng)元的活動(dòng)狀況如何、前額葉的連接性如何、海馬體的工作狀況如何。這時(shí)候我們所談的理解,就是對(duì)別人的心理狀況的高層次抽象,不再嘗試描述細(xì)碎的內(nèi)部運(yùn)行機(jī)理。這種注重于預(yù)測(cè)和計(jì)劃理解能力被稱為「心智理論 Theory of Mind」。(雷鋒網(wǎng) AI 科技評(píng)論注:心智理論,心理學(xué)術(shù)語(yǔ),是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力,這些心理狀態(tài)包括情緒、信仰、意圖、欲望、假裝與知識(shí)等)

在近期新發(fā)表的論文《Machine Theory of Mind》中,DeepMind 就以心智理論的視角重新研究了如何理解另一個(gè)模型的問(wèn)題。他們的目標(biāo)是讓環(huán)境中的觀察者在有限的數(shù)據(jù)下自動(dòng)學(xué)習(xí)如何對(duì)新遇到的智能體建模——不是嘗試學(xué)出一個(gè)模仿的算法,而是學(xué)習(xí)如何像人理解人一樣地預(yù)測(cè)另一個(gè)智能體的行為,甚至發(fā)現(xiàn)別的智能體的觀念和實(shí)際環(huán)境狀況之間的矛盾。他們把這種新理論稱為「Machine Theory of Mind」(機(jī)器心智理論),為此建立的模型稱為 ToMnet。在 DeepMind 的研究人員們看來(lái),這還可以是一種新的改進(jìn)深度學(xué)習(xí)的可解釋性的方法,可以不用再像以往那樣嘗試設(shè)計(jì)能表述自己內(nèi)在狀態(tài)的系統(tǒng),而是作為新的中轉(zhuǎn)系統(tǒng)、人機(jī)接口,縮小原系統(tǒng)的行為空間大小,把難以理解的神經(jīng)網(wǎng)絡(luò)以人類好理解的形式轉(zhuǎn)述出來(lái)。

DeepMind 的研究人員們把這個(gè)機(jī)器心智理論問(wèn)題形式化為一個(gè)元學(xué)習(xí)問(wèn)題,讓觀察者智能體學(xué)習(xí)如何在環(huán)境中遇到一個(gè)新智能體之后收集數(shù)據(jù)對(duì)它進(jìn)行建模,了解它的隱含特點(diǎn)和心理狀態(tài),從而更好地預(yù)測(cè)它的未來(lái)行為。

這個(gè)觀察者要學(xué)習(xí)的內(nèi)容也需要分為兩個(gè)層次,一個(gè)層次是基于網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)重的總體理論,它是對(duì)訓(xùn)練集中所有智能體的共有行為的隱式描述;另一個(gè)層次是在測(cè)試階段觀察單個(gè)智能體,嘗試描述它獨(dú)有的特征和心理狀態(tài)。而這兩個(gè)層次也就分別構(gòu)成了對(duì)智能體行為的先驗(yàn)和后驗(yàn)判斷。

心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型

ToMnet 架構(gòu):character net 從一組部分可觀察的馬爾可夫決策過(guò)程(POMDP)中解析一個(gè)智能體的過(guò)往行動(dòng)軌跡,形成特征嵌入 echar;mental state net 根據(jù)智能體當(dāng)前的行為解析出它當(dāng)前的心理狀態(tài)嵌入 emental。這些嵌入會(huì)作為 prediction net 的輸入,它查詢當(dāng)前狀態(tài)之后形成對(duì)未來(lái)預(yù)測(cè)的三個(gè)輸出:下一步行動(dòng)的可能性心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型,某個(gè)對(duì)象是否會(huì)被使用掉的可能性心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型,以及預(yù)測(cè)的后續(xù)的表征心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型。

在論文中,DeepMind 的研究人員們圍繞提出的 ToMnet 進(jìn)行了一系列難度遞增的實(shí)驗(yàn),逐步介紹 ToMnet 的設(shè)計(jì)思路、展示它的應(yīng)用典型的人類心理理論技巧對(duì)其它各種各樣的模型建模的能力。

  • 對(duì)于簡(jiǎn)單、隨機(jī)的智能體,ToMnet 可以學(xué)到對(duì)智能體特點(diǎn)的最優(yōu)層次化貝葉斯推理的近似;

  • 對(duì)于基于算法的智能體,ToMnet 可以通過(guò)小樣本反向強(qiáng)化學(xué)習(xí)找到它們的目標(biāo),以及理解它們?nèi)绾卧诔杀竞头答佒姓业狡胶猓?/p>

  • ToMnet 可以找到成群的強(qiáng)化學(xué)習(xí)智能體之間的多種變量的關(guān)鍵值,從而把它們分為不同的類別,并給智能體生成抽象嵌入。ToMnet 也可以給行為空間生成新的抽象;

  • 用部分可觀察馬爾可夫決策過(guò)程中的深度強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的 ToMnet 可以隱式地發(fā)現(xiàn)這些智能體持有的對(duì)環(huán)境的錯(cuò)誤觀念,而這正是人類的心理理論中的重要部分;

  • ToMnet 還可以訓(xùn)練用于預(yù)測(cè)別的智能體的觀念狀態(tài),顯式地揭露出別的智能體的錯(cuò)誤觀念。DeepMind 的研究人員們還表明 ToMnet 僅僅根據(jù)別的智能體的行為就可以能夠推知它們觀察到了哪些東西、接下來(lái)會(huì)傾向于相信什么。

心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型

帶有子任務(wù)的環(huán)境,其中的智能體可能會(huì)抱有對(duì)環(huán)境的錯(cuò)誤認(rèn)識(shí)。
  • 圖 (a) :智能體尋找子目標(biāo)(星星)的軌跡(紅色箭頭)。智能體只能觀察到環(huán)境的一部分:深灰色的區(qū)域還沒(méi)有觀察到,淺灰色的區(qū)域之前觀察過(guò),但在獲得子目標(biāo)之后就觀察不到了。
  • 圖 (b):當(dāng)智能體獲得子目標(biāo)后,所有其它的物體有一個(gè)很小的可能性會(huì)立即交換位置。(b) 左:交換發(fā)生在智能體視野之內(nèi);(b) 右:交換發(fā)生在智能體視野之外
  • 圖 (c):交換位置對(duì)智能體緊接著的策略產(chǎn)生的影響
  • 圖 (d):交換位置對(duì)智能體的經(jīng)驗(yàn)后續(xù)表征產(chǎn)生的影響

DeepMind 的這一系列實(shí)驗(yàn)內(nèi)容還比較簡(jiǎn)單,主要為了展示這樣的系統(tǒng)的主要思路和能力。要拓展它的能力和領(lǐng)域、與人類共同評(píng)比還有很長(zhǎng)的路要走。不過(guò),這種思路對(duì)于人類這樣依賴社交性思考的人物確實(shí)有著重要意義。

未來(lái) DeepMind 打算在其中繼續(xù)增加 ToMnet 需要做出的預(yù)測(cè)的數(shù)量、在建模其它智能體的行為過(guò)程中加入輕微的總結(jié)偏倚,以及如何根據(jù)自己的經(jīng)驗(yàn)和認(rèn)識(shí)把自己的模型告訴別的智能體。這些都是可能的多智能體合作研究中的重要課題。

另外值得一提的是,ICLR 2017 最佳論文獎(jiǎng)得主之一的張馳原也是這篇論文的作者之一。

論文地址:https://arxiv.org/abs/1802.07740

雷鋒網(wǎng) AI 科技評(píng)論編譯

相關(guān)文章:

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

DeepMind 繼續(xù)投資阿爾伯塔大學(xué),設(shè)立資助主席并贊助研究經(jīng)費(fèi)

既要深度學(xué)習(xí)又要符號(hào)化推理,DeepMind 新 JAIR 論文小試牛刀

DeepMind 開(kāi)源虛擬實(shí)驗(yàn)室 Psychlab,利用認(rèn)知心理學(xué)對(duì)智能體進(jìn)行研究

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

心理學(xué)帶來(lái)曙光,DeepMind要像理解人一樣理解模型

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)