伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

本文作者：高云河

編輯：郭奕欣

2017-06-26 11:53

導(dǎo)語(yǔ)：伯克利AI實(shí)驗(yàn)室博客首篇文章，提出了一種神經(jīng)模塊網(wǎng)絡(luò)，使得神經(jīng)網(wǎng)絡(luò)能夠自主選擇自己的網(wǎng)絡(luò)結(jié)構(gòu)，完成推理任務(wù)。

深度神經(jīng)網(wǎng)絡(luò)雖然在圖像，語(yǔ)音，機(jī)器人等方面取得了巨大的成功，但是這些成功通常局限在識(shí)別任務(wù)或者生成任務(wù)中，對(duì)于推理任務(wù)，常規(guī)的神經(jīng)網(wǎng)絡(luò)通常是無(wú)能為力的。伯克利AI實(shí)驗(yàn)室近期開(kāi)通了博客，該博客的第一篇文章針對(duì)推理任務(wù)，提出了神經(jīng)模塊網(wǎng)絡(luò)，通過(guò)訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)模塊完成推理任務(wù)，每個(gè)神經(jīng)網(wǎng)絡(luò)模塊負(fù)責(zé)一個(gè)推理步驟，對(duì)于不同的推理任務(wù)，動(dòng)態(tài)的組合這些模塊，以生成針對(duì)不同問(wèn)題的新網(wǎng)絡(luò)結(jié)構(gòu)。

該文章的作者為 Jacob Andreas , 雷鋒網(wǎng)了解到，他是伯克利 NLP 四年級(jí)博士生，也是 BAIR 實(shí)驗(yàn)室成員。他的個(gè)人主頁(yè)上的介紹寫(xiě)著，“我希望能教計(jì)算機(jī)閱讀”，研究方向包括機(jī)器學(xué)習(xí)模型與結(jié)構(gòu)化神經(jīng)網(wǎng)絡(luò)方法。同時(shí)，他也是一個(gè)論文高產(chǎn)者，僅在今年就有多篇論文入選 ICML、ACL、CVPR 等主流國(guó)際頂級(jí)學(xué)術(shù)會(huì)議。雷鋒網(wǎng)對(duì)他發(fā)表的第一篇論文做了翻譯，全文如下：

問(wèn)題的引入

假設(shè)我們正在構(gòu)建一個(gè)家用機(jī)器人，并且希望它能夠回答有關(guān)周?chē)h(huán)境的問(wèn)題。我們可能會(huì)問(wèn)他這些問(wèn)題：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

如何確保機(jī)器人可以正確地回答這些問(wèn)題？深度學(xué)習(xí)的標(biāo)準(zhǔn)方法是收集大量的問(wèn)題，圖像和答案作為數(shù)據(jù)集，訓(xùn)練一個(gè)單一的神經(jīng)網(wǎng)絡(luò)，直接從問(wèn)題和圖像映射到答案。如果大多數(shù)問(wèn)題看起來(lái)像左邊的問(wèn)題，目前我們已經(jīng)有相似的圖像識(shí)別問(wèn)題的解決方案，這些單一的方法是非常有效的：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

但是對(duì)于右面的問(wèn)題，這種單一的神經(jīng)網(wǎng)絡(luò)就很難工作了：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

在這里訓(xùn)練好的單一網(wǎng)絡(luò)已經(jīng)放棄了，猜測(cè)給出了該圖像中最普遍的顏色。是什么使得這個(gè)問(wèn)題相比于上一個(gè)問(wèn)題更難？即使圖像更清晰簡(jiǎn)潔，該問(wèn)題仍需要許多推理步驟：模型必須要首先找到藍(lán)色的圓柱體，找到具有相同大小的另一對(duì)象，然后確定其顏色，而不是簡(jiǎn)單的識(shí)別圖像中的主要對(duì)象。這是一個(gè)復(fù)雜的計(jì)算，同時(shí)計(jì)算的復(fù)雜性與所提出的問(wèn)題密切相關(guān)。不同的問(wèn)題需要不同的步驟來(lái)解決。

深度學(xué)習(xí)中的主流范式是“一刀切”的方法：對(duì)于任何需要解決的問(wèn)題，設(shè)計(jì)一個(gè)固定的模型架構(gòu)，希望能夠捕獲關(guān)于輸入和輸出之間的一切關(guān)系，并通過(guò)標(biāo)定好的訓(xùn)練數(shù)據(jù)學(xué)習(xí)該模型的各種參數(shù)。

但現(xiàn)實(shí)世界的推理并不能以這種方式發(fā)揮作用：它涉及到各種不同的能力，不同的能力以新的方式結(jié)合以解決我們?cè)诂F(xiàn)實(shí)世界中遇到的每一個(gè)新挑戰(zhàn)。我們需要的是一個(gè)模型，它可以動(dòng)態(tài)地確定如何對(duì)擺在它面前的問(wèn)題進(jìn)行推理——一個(gè)可以選擇自己的結(jié)構(gòu)的網(wǎng)絡(luò)。伯克利AI實(shí)驗(yàn)室的研究者針對(duì)這一問(wèn)題，提出了一類(lèi)稱為神經(jīng)模塊網(wǎng)絡(luò)（Neural Module Network， NMN）的模型，它將這種更加靈活的解決方案融入到問(wèn)題解決過(guò)程中，同時(shí)也保留了深度學(xué)習(xí)有效的特性。

如何解決

上面提到的推理問(wèn)題涉及到三個(gè)不同的步驟：找到一個(gè)藍(lán)色圓柱找到其他與之相同尺寸的物體，確定其顏色。根據(jù)推理過(guò)程可以繪制下圖：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

一個(gè)不同的問(wèn)題可能涉及到不同的步驟，如果問(wèn)題是“有多少東西與球有相同的大小？”可以會(huì)得到下面的推理步驟:

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

一些基礎(chǔ)的操作，例如“比較大小”，在不同的問(wèn)題中是共享的，但是它們可能會(huì)通過(guò)不同的方式使用。MNM的關(guān)鍵思路是明確這種共享：使用兩個(gè)不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)回答上面的兩個(gè)問(wèn)題，但是在涉及到相同基本操作的網(wǎng)絡(luò)之間實(shí)現(xiàn)共享權(quán)重。

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

對(duì)于這樣的新型網(wǎng)絡(luò)結(jié)構(gòu)，如何進(jìn)行學(xué)習(xí)？實(shí)際上研究者同時(shí)訓(xùn)練了大量的不同的網(wǎng)絡(luò)，在適當(dāng)?shù)臅r(shí)候?qū)?shù)綁在一起，而不是通過(guò)許多輸入/輸出對(duì)訓(xùn)練單一的大型網(wǎng)絡(luò)。

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

上圖為幾種常見(jiàn)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)，包括DyNet 和TensorFlow Fold，通過(guò)動(dòng)態(tài)地將它們結(jié)合在一起，即可以完成不同的推理任務(wù)。

在訓(xùn)練過(guò)程結(jié)束時(shí)所獲得的并不是一個(gè)單一的深度網(wǎng)絡(luò)，而是一個(gè)神經(jīng)“模塊”的集合，每個(gè)模塊都實(shí)現(xiàn)了一個(gè)推理的步驟。當(dāng)希望在一個(gè)新的問(wèn)題實(shí)例上使用訓(xùn)練好的模型時(shí)，研究人員可以動(dòng)態(tài)的組合這些模塊，以生成針對(duì)該問(wèn)題的新網(wǎng)絡(luò)結(jié)構(gòu)。

關(guān)于這個(gè)過(guò)程一個(gè)值得注意的事情是，訓(xùn)練過(guò)程中不需要為單個(gè)模塊提供任何低級(jí)別的監(jiān)督：模型從來(lái)沒(méi)有看到藍(lán)色對(duì)象或者“左側(cè)”關(guān)系的孤立示例，模塊只能在較大的組合結(jié)構(gòu)中學(xué)習(xí)，只有（問(wèn)題，答案）對(duì)作為監(jiān)督，但訓(xùn)練程序能夠自動(dòng)推斷結(jié)構(gòu)部件與其負(fù)責(zé)的計(jì)算之間的正確關(guān)系：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

同樣的過(guò)程也能回答關(guān)于現(xiàn)實(shí)圖片的問(wèn)題，甚至能夠回答其他知識(shí)源的問(wèn)題，例如數(shù)據(jù)庫(kù)：

伯克利 AI 實(shí)驗(yàn)室博客發(fā)布首篇文章：讓神經(jīng)網(wǎng)絡(luò)自行選擇模塊，實(shí)現(xiàn)動(dòng)態(tài)推理

如何從問(wèn)題得到推理藍(lán)圖

這整個(gè)過(guò)程的關(guān)鍵因素是收集如上所屬的高級(jí)“推理藍(lán)圖”。這些藍(lán)圖告訴我們，每個(gè)問(wèn)題的網(wǎng)絡(luò)應(yīng)如何布局，以及不同的問(wèn)題如何互相關(guān)聯(lián)。但是這些藍(lán)圖是從哪里來(lái)的？

在對(duì)參考文獻(xiàn)1，2中的模型的初步研究中，研究者在設(shè)計(jì)特定問(wèn)題的神經(jīng)網(wǎng)絡(luò)和分析語(yǔ)法結(jié)構(gòu)之間找到了驚人的聯(lián)系。語(yǔ)言學(xué)家長(zhǎng)期以來(lái)一直認(rèn)為，問(wèn)題的語(yǔ)法與回答所需要的計(jì)算步驟的順序密切相關(guān)。由于自然語(yǔ)言處理方面的最新進(jìn)展，可以使用現(xiàn)成的語(yǔ)法分析工具來(lái)自動(dòng)提供這些藍(lán)圖的近似版本。

但從語(yǔ)言結(jié)構(gòu)到網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確映射仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題，轉(zhuǎn)換過(guò)程中容易出錯(cuò)。在后來(lái)的工作中，研究者轉(zhuǎn)向使用由人類(lèi)專(zhuān)家制作的數(shù)據(jù)，它們用理想化的推理藍(lán)圖直接標(biāo)注了一系列問(wèn)題，而沒(méi)有依靠語(yǔ)言分析。通過(guò)學(xué)習(xí)模仿這些人類(lèi)專(zhuān)家，該模型能夠大大提高預(yù)測(cè)的質(zhì)量。最令人驚訝的是，當(dāng)采用訓(xùn)練好的模型去模仿專(zhuān)家，但允許它自己修改這些專(zhuān)家的預(yù)測(cè)，它能夠在不同的問(wèn)題中找到比專(zhuān)家更好的解決方案。

總結(jié)

盡管近些年來(lái)深度學(xué)習(xí)方法取得了顯著的成功，但許多問(wèn)題仍然是一個(gè)挑戰(zhàn)，例如few-shot learning和復(fù)雜推理。這些問(wèn)題正是結(jié)構(gòu)化經(jīng)典方法所閃耀的地方，例如語(yǔ)義解析和程序歸納。神經(jīng)模塊網(wǎng)絡(luò)結(jié)合了經(jīng)典人工智能方法和深度學(xué)習(xí)方法兩者的優(yōu)點(diǎn)：離散組合的靈活性和數(shù)據(jù)高效性，同時(shí)結(jié)合了深度網(wǎng)絡(luò)的表征力量。NMN已經(jīng)在許多視覺(jué)和文本推理任務(wù)得到了成功。同時(shí)，研究者也在盡力將該方法應(yīng)用到更多的AI任務(wù)中。

參考文獻(xiàn)

Neural Module Networks. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. CVPR 2016. (arXiv)
Learning to Compose Neural Networks for Question Answering. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. NAACL 2016. (arXiv)
Modeling Relationships in Referential Expressions with Compositional Modular Networks. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell and Kate Saenko. CVPR 2017. (arXiv)

via berkeley.edu/blog/，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

高云河

知情人士

發(fā)私信

當(dāng)月熱門(mén)文章