0
雷鋒網(wǎng) AI 科技評(píng)論按:人類對(duì)各種深度學(xué)習(xí)模型最常見(jiàn)的不滿之一就是難以解釋、無(wú)法理解,即便可以查看訓(xùn)練好的網(wǎng)絡(luò)的每個(gè)連接的權(quán)重,也說(shuō)不清網(wǎng)絡(luò)利用的數(shù)據(jù)模式是哪些,以及網(wǎng)絡(luò)目前的運(yùn)行狀況里有哪些問(wèn)題。
不過(guò),人類從不懷疑自己可以理解另一個(gè)人類:我們可以通過(guò)各種方法了解并描述別人的訴求、觀念和當(dāng)下的想法,可以推測(cè)別人知道哪些信息,可以猜測(cè)別人的未來(lái)行動(dòng),我們同時(shí)也就以此為基礎(chǔ)考慮如何和別人互動(dòng)。其實(shí)絕大多數(shù)情況下我們都不會(huì)嘗試重建別人的腦神經(jīng)結(jié)構(gòu),不會(huì)嘗試估計(jì)別人的腦神經(jīng)元的活動(dòng)狀況如何、前額葉的連接性如何、海馬體的工作狀況如何。這時(shí)候我們所談的理解,就是對(duì)別人的心理狀況的高層次抽象,不再嘗試描述細(xì)碎的內(nèi)部運(yùn)行機(jī)理。這種注重于預(yù)測(cè)和計(jì)劃理解能力被稱為「心智理論 Theory of Mind」。(雷鋒網(wǎng) AI 科技評(píng)論注:心智理論,心理學(xué)術(shù)語(yǔ),是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力,這些心理狀態(tài)包括情緒、信仰、意圖、欲望、假裝與知識(shí)等)
在近期新發(fā)表的論文《Machine Theory of Mind》中,DeepMind 就以心智理論的視角重新研究了如何理解另一個(gè)模型的問(wèn)題。他們的目標(biāo)是讓環(huán)境中的觀察者在有限的數(shù)據(jù)下自動(dòng)學(xué)習(xí)如何對(duì)新遇到的智能體建模——不是嘗試學(xué)出一個(gè)模仿的算法,而是學(xué)習(xí)如何像人理解人一樣地預(yù)測(cè)另一個(gè)智能體的行為,甚至發(fā)現(xiàn)別的智能體的觀念和實(shí)際環(huán)境狀況之間的矛盾。他們把這種新理論稱為「Machine Theory of Mind」(機(jī)器心智理論),為此建立的模型稱為 ToMnet。在 DeepMind 的研究人員們看來(lái),這還可以是一種新的改進(jìn)深度學(xué)習(xí)的可解釋性的方法,可以不用再像以往那樣嘗試設(shè)計(jì)能表述自己內(nèi)在狀態(tài)的系統(tǒng),而是作為新的中轉(zhuǎn)系統(tǒng)、人機(jī)接口,縮小原系統(tǒng)的行為空間大小,把難以理解的神經(jīng)網(wǎng)絡(luò)以人類好理解的形式轉(zhuǎn)述出來(lái)。
DeepMind 的研究人員們把這個(gè)機(jī)器心智理論問(wèn)題形式化為一個(gè)元學(xué)習(xí)問(wèn)題,讓觀察者智能體學(xué)習(xí)如何在環(huán)境中遇到一個(gè)新智能體之后收集數(shù)據(jù)對(duì)它進(jìn)行建模,了解它的隱含特點(diǎn)和心理狀態(tài),從而更好地預(yù)測(cè)它的未來(lái)行為。
這個(gè)觀察者要學(xué)習(xí)的內(nèi)容也需要分為兩個(gè)層次,一個(gè)層次是基于網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)重的總體理論,它是對(duì)訓(xùn)練集中所有智能體的共有行為的隱式描述;另一個(gè)層次是在測(cè)試階段觀察單個(gè)智能體,嘗試描述它獨(dú)有的特征和心理狀態(tài)。而這兩個(gè)層次也就分別構(gòu)成了對(duì)智能體行為的先驗(yàn)和后驗(yàn)判斷。
在論文中,DeepMind 的研究人員們圍繞提出的 ToMnet 進(jìn)行了一系列難度遞增的實(shí)驗(yàn),逐步介紹 ToMnet 的設(shè)計(jì)思路、展示它的應(yīng)用典型的人類心理理論技巧對(duì)其它各種各樣的模型建模的能力。
對(duì)于簡(jiǎn)單、隨機(jī)的智能體,ToMnet 可以學(xué)到對(duì)智能體特點(diǎn)的最優(yōu)層次化貝葉斯推理的近似;
對(duì)于基于算法的智能體,ToMnet 可以通過(guò)小樣本反向強(qiáng)化學(xué)習(xí)找到它們的目標(biāo),以及理解它們?nèi)绾卧诔杀竞头答佒姓业狡胶猓?/p>
ToMnet 可以找到成群的強(qiáng)化學(xué)習(xí)智能體之間的多種變量的關(guān)鍵值,從而把它們分為不同的類別,并給智能體生成抽象嵌入。ToMnet 也可以給行為空間生成新的抽象;
用部分可觀察馬爾可夫決策過(guò)程中的深度強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的 ToMnet 可以隱式地發(fā)現(xiàn)這些智能體持有的對(duì)環(huán)境的錯(cuò)誤觀念,而這正是人類的心理理論中的重要部分;
ToMnet 還可以訓(xùn)練用于預(yù)測(cè)別的智能體的觀念狀態(tài),顯式地揭露出別的智能體的錯(cuò)誤觀念。DeepMind 的研究人員們還表明 ToMnet 僅僅根據(jù)別的智能體的行為就可以能夠推知它們觀察到了哪些東西、接下來(lái)會(huì)傾向于相信什么。
DeepMind 的這一系列實(shí)驗(yàn)內(nèi)容還比較簡(jiǎn)單,主要為了展示這樣的系統(tǒng)的主要思路和能力。要拓展它的能力和領(lǐng)域、與人類共同評(píng)比還有很長(zhǎng)的路要走。不過(guò),這種思路對(duì)于人類這樣依賴社交性思考的人物確實(shí)有著重要意義。
未來(lái) DeepMind 打算在其中繼續(xù)增加 ToMnet 需要做出的預(yù)測(cè)的數(shù)量、在建模其它智能體的行為過(guò)程中加入輕微的總結(jié)偏倚,以及如何根據(jù)自己的經(jīng)驗(yàn)和認(rèn)識(shí)把自己的模型告訴別的智能體。這些都是可能的多智能體合作研究中的重要課題。
另外值得一提的是,ICLR 2017 最佳論文獎(jiǎng)得主之一的張馳原也是這篇論文的作者之一。
論文地址:https://arxiv.org/abs/1802.07740
雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代
DeepMind 繼續(xù)投資阿爾伯塔大學(xué),設(shè)立資助主席并贊助研究經(jīng)費(fèi)
既要深度學(xué)習(xí)又要符號(hào)化推理,DeepMind 新 JAIR 論文小試牛刀
DeepMind 開(kāi)源虛擬實(shí)驗(yàn)室 Psychlab,利用認(rèn)知心理學(xué)對(duì)智能體進(jìn)行研究
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。