0
雷鋒網(wǎng) AI科技評論按:DeepMind實驗室發(fā)布名為符號-概念聯(lián)合網(wǎng)絡(Symbol-Concept Association Network,SCAN)的新型神經(jīng)網(wǎng)絡模型,可以讓計算機模仿人類視覺和詞匯獲取的方法,通過重組學到的概念,來想象新的概念。
以下為雷鋒網(wǎng) AI科技評論根據(jù)DeepMind實驗室發(fā)布內(nèi)容編譯。
大約二千五百年前,一個美索不達米亞商人收集了一些粘土、木材和蘆葦,隨著時間的推移,通過這些材料,他們發(fā)明了算盤,能夠在商品交易過程中記錄貨物數(shù)量、理清資產(chǎn),這帶動了經(jīng)濟的蓬勃發(fā)展,也改變了人類社會。
那一刻的靈感也照亮了人類另一個驚人的能力:重組現(xiàn)有的概念,想象出全新的東西。不具名的的發(fā)明家思考他們想要解決的問題,建造奇妙的裝置,收集原材料來創(chuàng)造新的東西。粘土能塑造成算盤的框架,棍子能用來把算珠串起來,蘆葦可以編成算珠。算盤的每個組成部分都很常見,也各有區(qū)別,把他們用這種新的方式組合在一起,就出現(xiàn)了革命性的創(chuàng)造。
組合的思想是諸如創(chuàng)造力、想象力和語言表達等能力的核心。腦海中只要有少量熟悉的概念性模塊,我們就能創(chuàng)造出大量新東西。我們將概念從具體到一般進行歸類,形成不同層次,然后用新的方式重組層次里的不同部分。這種方式對我們來說很自然,但要將其應用于AI研究還是個挑戰(zhàn)。
在DeepMind的新論文中,提出了一種新的理論性方法來解決這個問題。此外,他們還展示了一種稱為符號-概念聯(lián)合網(wǎng)絡(Symbol-Concept Association Network,SCAN)的新型神經(jīng)網(wǎng)絡模型,這是首次通過模仿人類視覺和詞匯獲取的方法,學習自下而上的視覺概念層次,從而能夠通過語言指令想象出全新的概念。
他們的方法可以總結(jié)為以下幾點:
SCAN模型在視覺上與嬰兒在出生前幾個月看到的世界類似。這段時期,嬰兒的視線仍無法集中在半米以外的東西上,他們成天都在觀察各種映入眼簾、移動和旋轉(zhuǎn)的物體。為了模擬這個過程,他們將SCAN模型放在DeepMind實驗室的模擬3D世界中。在那兒,模型就像是嬰兒躺在嬰兒床上一樣,不能移動,但可以轉(zhuǎn)動頭部,并觀察在各種不同顏色的背景下可能呈現(xiàn)在他面前的物體,例如帽子、行李箱或冰棍。和嬰兒的視覺系統(tǒng)類似,這個模型會學習視覺世界的基本結(jié)構(gòu)以及如何用可表述的視覺特征來表示物體。例如,當看到蘋果時,模型將會學習根據(jù)其顏色、形狀、大小、位置或明暗來表示它
圖:SCAN模型依據(jù)物體的個體區(qū)分、顏色和旋轉(zhuǎn)、墻壁顏色、地板顏色等可表述的視覺特征等來學習,去表示視覺場景。
一旦模型能夠根據(jù)可表述的視覺特征來解析世界,就進入學習過程中的命名階段。這相當于嬰兒的單詞學習,大人開始為他們看到的各種東西提供單詞符號標簽。例如,在這個階段,父母可能指著一個蘋果對孩子說:“看,一個蘋果!”同樣的,對SCAN模型輸入基礎語言之后,它的經(jīng)驗也在增強。一張黃色墻壁背景下紅色行李箱的圖像將伴隨著“紅色行李箱、黃色墻壁”這樣的符號輸入。SCAN模型能夠通過在前一階段學習的視覺特征來構(gòu)建抽象概念,進而學習新的概念。例如,蘋果的概念可以根據(jù)其顏色、形狀和大小來說明,而諸如位置和明暗等其他視覺特征則會被認定為與其無關(guān)。
命名階段可以從任何層次學習視覺概念,同樣也可用于向模型教授“和”、“忽略”和“共同”等這些概念重組操作,這種教授是通過向模型展示如何正確使用這些操作的例子來實現(xiàn)的。例如,“和”的意思可以通過向SCAN模型展示一張金冠蘋果的圖像,同時伴隨“金冠蘋果是黃色的和蘋果” 這樣的指令來訓練。
一旦SCAN模型學習了一定數(shù)量的概念詞匯,并學會通過符號性的指令來處理它們,它就能在詞語形式的指示下,將常見的概念組合成新的概念,而不需要更多的圖像作為例子。通過這些指令,SCAN可以想象出大量新的視覺概念,如藍蘋果(“藍色的和蘋果”)或不同種類的蘋果(“澳洲青蘋是金冠蘋果,忽略黃色,和綠色”)
圖:首先,SCAN模型通過語言指令連接概念層次——從“藍色房間、紅色地板、白色行李箱”這種具體的概念,到“行李箱”這種普遍的概念,再回到“黃色房間、粉紅色地板、綠色行李箱“這種具體的概念。在每一步SCAN系統(tǒng)都會被要求想象出相應的概念(如圖右所示)。最后,向它指示一個新的概念——“woog”。雖然從沒看到過“woog”的例子,SCAN系統(tǒng)能成功地想象出它們看起來是什么樣的(黃色房間、粉紅色地板、綠色物體)。
他們的方法不同于以往的研究,因為它完全基于感官數(shù)據(jù),只需要從非常少的圖像—詞匯對中學習。當其他的深度學習方法需要數(shù)千個圖像示例來學習一個概念時,SCAN模型通過非監(jiān)督觀測,學習視覺特征和抽取概念,只需五對圖像—標簽對就可以學會一個概念。一旦訓練好了,SCAN模型就可以生成與特定圖像相對應的各種概念,并且可以想像出與特定概念相對應的多種可視化示例,即使它以前從未見過此類概念。
圖:圖中左邊是SCAN模型設想的“白色行李箱”的圖像,右邊是SCAN模型從“粉色房間、橙色地板、青色帽子”這張圖像上產(chǎn)生的概念。
通過符號指示,來重組現(xiàn)有的概念,學習新概念,這賦予了人類驚人的能力,使其能夠解釋諸如宇宙、人文主義或美索不達米亞經(jīng)濟案例中的抽象概念。在成功實現(xiàn)這些概念性的飛躍之前,算法還有很長的路要走。他們的這項研究朝著算法的飛躍前進了第一步,即讓算法在很大程度通過無監(jiān)督的方式學習,就像人類一樣思考,進行概念抽取。
雷鋒網(wǎng) AI科技評論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。