0
雷鋒網(wǎng)AI科技評論按:每當(dāng)DeepMind發(fā)表一篇新論文時,媒體都會狂熱的跟蹤報道,而且會使用很多誤導(dǎo)人的短語。比如關(guān)于該關(guān)系推理網(wǎng)絡(luò)的報道:
DeepMind開發(fā)了一種神經(jīng)網(wǎng)絡(luò),能夠感知其周圍的物體。
實際上這種報導(dǎo)不僅僅是誤導(dǎo)性的,而且使得很多不明真相的吃瓜群眾感到恐慌:AI真的已經(jīng)強到如此地步了嗎?在這篇文章中,將介紹DeepMind論文:A simple neural network module for relational reasoning,試著通過最簡單的方式介紹這個最新的架構(gòu)。
從最簡單的角度來說,關(guān)系推理就是學(xué)著去理解不同物體之間的關(guān)系(思想)。這種能力被認(rèn)為是智能的一個基本特征。作者使用了一個圖來解釋什么是關(guān)系推理:
圖1,模型需要關(guān)注一個不同形狀、大小、顏色的物體,并能夠回答關(guān)于多個物體之間關(guān)系的問題
作者提出了一種神經(jīng)網(wǎng)絡(luò),其本質(zhì)是為了捕捉關(guān)系(就像卷積神經(jīng)網(wǎng)絡(luò)是為了捕捉圖像的特征)。他們提出了一個如下定義的架構(gòu):
等式1:推理網(wǎng)絡(luò)的定義
解釋:
對O的關(guān)系網(wǎng)絡(luò)是函數(shù)fΦ,其中O是想要學(xué)習(xí)關(guān)系的一組物體。
gθ是關(guān)于兩個物體:oi, oj的方程。輸出為我們所關(guān)心的“關(guān)系”。
Σ表示計算所有可能的物體對,計算他們的關(guān)系并加和。
在學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),反向傳播等的時候,我們很容易忘記這點,但實際上,神經(jīng)網(wǎng)絡(luò)就是一個數(shù)學(xué)函數(shù)!因此,上面等式1描述的就是一個神經(jīng)網(wǎng)絡(luò),更準(zhǔn)確的說是兩個神經(jīng)網(wǎng)絡(luò):
1. gθ,計算了一對物體之間的關(guān)系
2. fΦ,計算了所有g(shù)的加和,并計算了整個模型的最終輸出
gθ和fΦ在最簡單的情況下都是多層感知機。
作者提出了關(guān)系神經(jīng)網(wǎng)絡(luò)作為組件。他們可以接受編碼過的物體作為輸入,并從中學(xué)習(xí)關(guān)系,更重要的是,他們可以很容易的插入到卷積神經(jīng)網(wǎng)絡(luò),以及長短期記憶網(wǎng)絡(luò)(LSTM)中。
卷積網(wǎng)絡(luò)可以通過圖像學(xué)習(xí)到物體。這對于實際應(yīng)用有很大幫助,因為從圖像中推理遠(yuǎn)比用戶手工定義物體數(shù)組更實用。
LSTM和單詞嵌入何以用來理解問題的含義。這同樣更有實際意義,目前模型已經(jīng)可以接受英文句子作為輸入,而不是編碼的數(shù)組。
作者提出了一種方法將關(guān)系網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)結(jié)合到一起,構(gòu)建了一種端到端的神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)物體之間的關(guān)系。
圖2:端到端關(guān)系推理神經(jīng)網(wǎng)絡(luò)
圖2的解釋
圖像會通過一個標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)(CNN),在這個過程中卷積神經(jīng)網(wǎng)絡(luò)會通過k個濾波器提取圖像特征。推理網(wǎng)絡(luò)中的“物體”即是圖中網(wǎng)格每點的特征向量。例如,途中黃色的向量就代表一個“物體”。
問題會通過一個LSTM網(wǎng)絡(luò),這會產(chǎn)生該問題的特征性向量??梢源致缘乇硎具@個問題的“含義”。
對于等式1,這里有一個輕微的修正,加入了一個額外的項:
額外的一項q,表示LSTM的最終狀態(tài)。
在這之后,從CNN網(wǎng)絡(luò)中得到的“物體“以及從LSTM網(wǎng)絡(luò)中得到的向量被用來訓(xùn)練關(guān)系網(wǎng)絡(luò)。每個物體對,以及從LSTM中得到的問題向量都被用作gθ(一個神經(jīng)網(wǎng)絡(luò))的輸入。
將gθ的輸出求和,作為fΦ(另一個神經(jīng)網(wǎng)絡(luò))的輸入。然后優(yōu)化fΦ以回答問題。
作者在幾個數(shù)據(jù)集上展示了該模型的有效性。這里只介紹一個最重要的數(shù)據(jù)集中的結(jié)果—CLEVR數(shù)據(jù)集。
CLEVR數(shù)據(jù)集包括不同形狀、大小和顏色的物體的圖像。模型會被問到如下圖的問題:
這個立方體的材質(zhì)與這個圓柱體的材質(zhì)一樣嗎?
圖3:物體的類型(上),位置組合(中&下)
作者表示,在準(zhǔn)確度方面,其他系統(tǒng)都遠(yuǎn)遠(yuǎn)落后于他們的模型。這是由于關(guān)系網(wǎng)絡(luò)就是為捕捉關(guān)系而設(shè)計的。他們的模型達(dá)到了前所未有的96%+的準(zhǔn)確度,相比之下,使用stacked attention模型的準(zhǔn)確度只有75%。
圖3.1 CLEVR數(shù)據(jù)集上不同方法的比較
關(guān)系網(wǎng)絡(luò)機器適合于學(xué)習(xí)關(guān)系。該方法可以高效地使用數(shù)據(jù)。同時該方法也足夠靈活,可以與CNN,LSTM一起作為一個混合解決方案。
本文也想通過正確的解讀,來打破許多大型媒體關(guān)于“AI將會接管一切”的宣傳,讓大家正確的了解目前最好的方法能夠做到什么程度。
本文由雷鋒網(wǎng)編譯,欲進(jìn)一步了解,請閱讀原文。
原文地址:https://hackernoon.com/deepmind-relational-networks-demystified-b593e408b643
論文地址:https://arxiv.org/pdf/1706.01427.pdf,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。