心理學(xué)帶來(lái)曙光，DeepMind要像理解人一樣理解模型

本文作者：楊曉凡

編輯：郭奕欣

2018-02-25 10:17

導(dǎo)語(yǔ)：- 請(qǐng)開(kāi)始你的觀察 - 請(qǐng)開(kāi)始你的表演

雷鋒網(wǎng) AI 科技評(píng)論按：人類對(duì)各種深度學(xué)習(xí)模型最常見(jiàn)的不滿之一就是難以解釋、無(wú)法理解，即便可以查看訓(xùn)練好的網(wǎng)絡(luò)的每個(gè)連接的權(quán)重，也說(shuō)不清網(wǎng)絡(luò)利用的數(shù)據(jù)模式是哪些，以及網(wǎng)絡(luò)目前的運(yùn)行狀況里有哪些問(wèn)題。

不過(guò)，人類從不懷疑自己可以理解另一個(gè)人類：我們可以通過(guò)各種方法了解并描述別人的訴求、觀念和當(dāng)下的想法，可以推測(cè)別人知道哪些信息，可以猜測(cè)別人的未來(lái)行動(dòng)，我們同時(shí)也就以此為基礎(chǔ)考慮如何和別人互動(dòng)。其實(shí)絕大多數(shù)情況下我們都不會(huì)嘗試重建別人的腦神經(jīng)結(jié)構(gòu)，不會(huì)嘗試估計(jì)別人的腦神經(jīng)元的活動(dòng)狀況如何、前額葉的連接性如何、海馬體的工作狀況如何。這時(shí)候我們所談的理解，就是對(duì)別人的心理狀況的高層次抽象，不再嘗試描述細(xì)碎的內(nèi)部運(yùn)行機(jī)理。這種注重于預(yù)測(cè)和計(jì)劃理解能力被稱為「心智理論 Theory of Mind」。（雷鋒網(wǎng) AI 科技評(píng)論注：心智理論，心理學(xué)術(shù)語(yǔ)，是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力，這些心理狀態(tài)包括情緒、信仰、意圖、欲望、假裝與知識(shí)等）

在近期新發(fā)表的論文《Machine Theory of Mind》中，DeepMind 就以心智理論的視角重新研究了如何理解另一個(gè)模型的問(wèn)題。他們的目標(biāo)是讓環(huán)境中的觀察者在有限的數(shù)據(jù)下自動(dòng)學(xué)習(xí)如何對(duì)新遇到的智能體建?！皇菄L試學(xué)出一個(gè)模仿的算法，而是學(xué)習(xí)如何像人理解人一樣地預(yù)測(cè)另一個(gè)智能體的行為，甚至發(fā)現(xiàn)別的智能體的觀念和實(shí)際環(huán)境狀況之間的矛盾。他們把這種新理論稱為「Machine Theory of Mind」（機(jī)器心智理論），為此建立的模型稱為 ToMnet。在 DeepMind 的研究人員們看來(lái)，這還可以是一種新的改進(jìn)深度學(xué)習(xí)的可解釋性的方法，可以不用再像以往那樣嘗試設(shè)計(jì)能表述自己內(nèi)在狀態(tài)的系統(tǒng)，而是作為新的中轉(zhuǎn)系統(tǒng)、人機(jī)接口，縮小原系統(tǒng)的行為空間大小，把難以理解的神經(jīng)網(wǎng)絡(luò)以人類好理解的形式轉(zhuǎn)述出來(lái)。

DeepMind 的研究人員們把這個(gè)機(jī)器心智理論問(wèn)題形式化為一個(gè)元學(xué)習(xí)問(wèn)題，讓觀察者智能體學(xué)習(xí)如何在環(huán)境中遇到一個(gè)新智能體之后收集數(shù)據(jù)對(duì)它進(jìn)行建模，了解它的隱含特點(diǎn)和心理狀態(tài)，從而更好地預(yù)測(cè)它的未來(lái)行為。

這個(gè)觀察者要學(xué)習(xí)的內(nèi)容也需要分為兩個(gè)層次，一個(gè)層次是基于網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)重的總體理論，它是對(duì)訓(xùn)練集中所有智能體的共有行為的隱式描述；另一個(gè)層次是在測(cè)試階段觀察單個(gè)智能體，嘗試描述它獨(dú)有的特征和心理狀態(tài)。而這兩個(gè)層次也就分別構(gòu)成了對(duì)智能體行為的先驗(yàn)和后驗(yàn)判斷。

心理學(xué)帶來(lái)曙光，DeepMind要像理解人一樣理解模型

ToMnet 架構(gòu)：character net 從一組部分可觀察的馬爾可夫決策過(guò)程（POMDP）中解析一個(gè)智能體的過(guò)往行動(dòng)軌跡，形成特征嵌入 e_char；mental state net 根據(jù)智能體當(dāng)前的行為解析出它當(dāng)前的心理狀態(tài)嵌入 e_mental。這些嵌入會(huì)作為 prediction net 的輸入，它查詢當(dāng)前狀態(tài)之后形成對(duì)未來(lái)預(yù)測(cè)的三個(gè)輸出：下一步行動(dòng)的可能性，某個(gè)對(duì)象是否會(huì)被使用掉的可能性，以及預(yù)測(cè)的后續(xù)的表征。

在論文中，DeepMind 的研究人員們圍繞提出的 ToMnet 進(jìn)行了一系列難度遞增的實(shí)驗(yàn)，逐步介紹 ToMnet 的設(shè)計(jì)思路、展示它的應(yīng)用典型的人類心理理論技巧對(duì)其它各種各樣的模型建模的能力。

對(duì)于簡(jiǎn)單、隨機(jī)的智能體，ToMnet 可以學(xué)到對(duì)智能體特點(diǎn)的最優(yōu)層次化貝葉斯推理的近似；
對(duì)于基于算法的智能體，ToMnet 可以通過(guò)小樣本反向強(qiáng)化學(xué)習(xí)找到它們的目標(biāo)，以及理解它們?nèi)绾卧诔杀竞头答佒姓业狡胶猓?/p>
ToMnet 可以找到成群的強(qiáng)化學(xué)習(xí)智能體之間的多種變量的關(guān)鍵值，從而把它們分為不同的類別，并給智能體生成抽象嵌入。ToMnet 也可以給行為空間生成新的抽象；
用部分可觀察馬爾可夫決策過(guò)程中的深度強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的 ToMnet 可以隱式地發(fā)現(xiàn)這些智能體持有的對(duì)環(huán)境的錯(cuò)誤觀念，而這正是人類的心理理論中的重要部分；
ToMnet 還可以訓(xùn)練用于預(yù)測(cè)別的智能體的觀念狀態(tài)，顯式地揭露出別的智能體的錯(cuò)誤觀念。DeepMind 的研究人員們還表明 ToMnet 僅僅根據(jù)別的智能體的行為就可以能夠推知它們觀察到了哪些東西、接下來(lái)會(huì)傾向于相信什么。

心理學(xué)帶來(lái)曙光，DeepMind要像理解人一樣理解模型

帶有子任務(wù)的環(huán)境，其中的智能體可能會(huì)抱有對(duì)環(huán)境的錯(cuò)誤認(rèn)識(shí)。

圖 (a) ：智能體尋找子目標(biāo)（星星）的軌跡（紅色箭頭）。智能體只能觀察到環(huán)境的一部分：深灰色的區(qū)域還沒(méi)有觀察到，淺灰色的區(qū)域之前觀察過(guò)，但在獲得子目標(biāo)之后就觀察不到了。
圖 (b)：當(dāng)智能體獲得子目標(biāo)后，所有其它的物體有一個(gè)很小的可能性會(huì)立即交換位置。(b) 左：交換發(fā)生在智能體視野之內(nèi)；(b) 右：交換發(fā)生在智能體視野之外
圖 (c)：交換位置對(duì)智能體緊接著的策略產(chǎn)生的影響
圖 (d)：交換位置對(duì)智能體的經(jīng)驗(yàn)后續(xù)表征產(chǎn)生的影響

DeepMind 的這一系列實(shí)驗(yàn)內(nèi)容還比較簡(jiǎn)單，主要為了展示這樣的系統(tǒng)的主要思路和能力。要拓展它的能力和領(lǐng)域、與人類共同評(píng)比還有很長(zhǎng)的路要走。不過(guò)，這種思路對(duì)于人類這樣依賴社交性思考的人物確實(shí)有著重要意義。

未來(lái) DeepMind 打算在其中繼續(xù)增加 ToMnet 需要做出的預(yù)測(cè)的數(shù)量、在建模其它智能體的行為過(guò)程中加入輕微的總結(jié)偏倚，以及如何根據(jù)自己的經(jīng)驗(yàn)和認(rèn)識(shí)把自己的模型告訴別的智能體。這些都是可能的多智能體合作研究中的重要課題。

另外值得一提的是，ICLR 2017 最佳論文獎(jiǎng)得主之一的張馳原也是這篇論文的作者之一。

論文地址：https://arxiv.org/abs/1802.07740

雷鋒網(wǎng) AI 科技評(píng)論編譯

DeepMind 繼續(xù)投資阿爾伯塔大學(xué)，設(shè)立資助主席并贊助研究經(jīng)費(fèi)

既要深度學(xué)習(xí)又要符號(hào)化推理，DeepMind 新 JAIR 論文小試牛刀

DeepMind 開(kāi)源虛擬實(shí)驗(yàn)室 Psychlab，利用認(rèn)知心理學(xué)對(duì)智能體進(jìn)行研究

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。