1
本文作者: 夏睿 | 2016-10-31 15:57 |
神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)(如大腦)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,它能在訓(xùn)練數(shù)據(jù)的過(guò)程中尋找模式以對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分類(lèi)。近年來(lái),神經(jīng)網(wǎng)絡(luò)的研究極大促進(jìn)了人工智能的發(fā)展,科學(xué)家用它開(kāi)發(fā)出不少高性能的系統(tǒng)應(yīng)用——比如用神經(jīng)網(wǎng)絡(luò)識(shí)別數(shù)字圖像中的某些對(duì)象或推斷文本主題等。
雖然神經(jīng)網(wǎng)絡(luò)在受到訓(xùn)練之后能夠很好地將數(shù)據(jù)分門(mén)別類(lèi),但是,即使是它的設(shè)計(jì)者也無(wú)從得知它們是如何思考的。它就像一個(gè)黑匣子。若是進(jìn)行圖像識(shí)別,也許還能通過(guò)反向運(yùn)行神經(jīng)網(wǎng)絡(luò)找出它識(shí)別和決策的內(nèi)在因素,正如雷鋒網(wǎng)文章《深度 | Nature:我們能打開(kāi)人工智能的“黑箱”嗎?》中曾提到的,Tyka 和 Google 的研究員為了深入研究黑箱問(wèn)題而開(kāi)發(fā)的 Deep Dream 算法,從一個(gè)圖形開(kāi)始,好比說(shuō)一朵花或者一個(gè)沙灘,通過(guò)修改它來(lái)提高特定的頂級(jí)神經(jīng)元的反應(yīng)。相比之下,文本處理系統(tǒng)的決策過(guò)程就較為晦澀難懂了。
在由計(jì)算機(jī)語(yǔ)言學(xué)協(xié)會(huì)(the Association for Computational Linguistics)舉辦的會(huì)議中,研究人員們將會(huì)討論自然語(yǔ)言處理中的一些經(jīng)驗(yàn)。來(lái)自 MIT 計(jì)算機(jī)科學(xué)及人工智能實(shí)驗(yàn)室( CSAIL )的研究院會(huì)展示一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新方法。論文中表示這種新方法不僅能做預(yù)測(cè)和分類(lèi),更重要的是能給出其決策背后的原因。
“在實(shí)際應(yīng)用中,有時(shí)人們會(huì)特別想知道一個(gè)模型到底為什么能做出這樣那樣的預(yù)測(cè),” MIT 電氣工程和計(jì)算機(jī)科學(xué)研究生,同時(shí)也是該論文的第一作者,Tao Lei 說(shuō)道,“醫(yī)生不相信機(jī)器學(xué)習(xí),主要也是因?yàn)樗龀龅臎Q策無(wú)依據(jù)可尋。 ”
Regina Barzilay 是 Delta 電子電氣工程與計(jì)算機(jī)科學(xué)教授,同時(shí)也是 Lei 的論文指導(dǎo)顧問(wèn),他說(shuō)道,“預(yù)測(cè)錯(cuò)誤所造成的成本損失是極高的,不僅在醫(yī)療領(lǐng)域,在所有領(lǐng)域都是如此。因此你得說(shuō)清楚根據(jù)機(jī)器學(xué)習(xí)的預(yù)測(cè)做出進(jìn)一步行動(dòng),背后的原因是什么 ?!?/p>
“而且,這項(xiàng)工作涉及范圍很廣,” MIT 電氣工程和計(jì)算機(jī)科學(xué)教授,該論文的第三作者 Tommi Jaakkola 表示道,“你可能不僅想弄清楚一個(gè)模型是如何做出正確預(yù)測(cè)的,而且還想對(duì)它應(yīng)做出的加某些影響預(yù)測(cè)類(lèi)型施。一個(gè)完全不懂機(jī)器學(xué)習(xí)的外行該如何與一個(gè)受過(guò)算法訓(xùn)練的復(fù)雜模型進(jìn)行對(duì)話(huà)?如果模型能告訴你做出某項(xiàng)預(yù)測(cè)背后的原因是什么,人們也許就能以一種新的方式和模型進(jìn)行互動(dòng)?!?/p>
| 虛擬大腦
文章開(kāi)頭已提到過(guò),神經(jīng)網(wǎng)絡(luò)是模仿大腦結(jié)構(gòu)而制成。和人類(lèi)大腦中的神經(jīng)元一樣,它們包含大量的處理節(jié)點(diǎn),節(jié)點(diǎn)之間彼此連接,形成一個(gè)密集的網(wǎng)絡(luò),但其認(rèn)知能力卻相當(dāng)初級(jí)。
在深度學(xué)習(xí)過(guò)程中,訓(xùn)練數(shù)據(jù)被送到輸入節(jié)點(diǎn)中,網(wǎng)絡(luò)的輸入節(jié)點(diǎn)會(huì)對(duì)其進(jìn)行修改并輸送給其他節(jié)點(diǎn),以此類(lèi)推。儲(chǔ)存在神經(jīng)網(wǎng)絡(luò)輸出節(jié)點(diǎn)中的信息會(huì)和試圖要學(xué)習(xí)的分類(lèi)條目進(jìn)行匹配, 這些類(lèi)別可能是物體形象,或是文章主題。
網(wǎng)絡(luò)在接受訓(xùn)練時(shí),各個(gè)節(jié)點(diǎn)在傳遞信息時(shí)一直在對(duì)其進(jìn)行修改,使得最后輸出最佳結(jié)果。但整個(gè)過(guò)程結(jié)束時(shí),編程網(wǎng)絡(luò)的計(jì)算機(jī)科學(xué)家往往也不知道這些節(jié)點(diǎn)到底是怎么設(shè)置的,或者,很難把低級(jí)信息轉(zhuǎn)成讓人通俗易懂的系統(tǒng)決策過(guò)程。
在該論文中, Lei, Barzilay 和 Jaakkola 專(zhuān)門(mén)強(qiáng)調(diào)了用文本數(shù)據(jù)進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。為了解釋神經(jīng)網(wǎng)絡(luò)的決策過(guò)程,CSAIL 研究院把神經(jīng)網(wǎng)絡(luò)分成兩個(gè)模塊,第一模塊從訓(xùn)練數(shù)據(jù)中提取文本段,并且根據(jù)其長(zhǎng)度和相干性來(lái)對(duì)分段進(jìn)行評(píng)分:分段越短,并且從連續(xù)單詞串中抓取的分段越多,其分?jǐn)?shù)越高。
接著,第一模塊把抓取的數(shù)據(jù)傳送給第二模塊,由第二模塊來(lái)執(zhí)行預(yù)測(cè)和分類(lèi)任務(wù)。兩個(gè)模塊同時(shí)訓(xùn)練,既要使第一模塊的分?jǐn)?shù)提高,又要增加預(yù)測(cè)和分類(lèi)的準(zhǔn)確性。
研究員們測(cè)試系統(tǒng)所用的其中一個(gè)數(shù)據(jù)集是某網(wǎng)站用戶(hù)對(duì)不同啤酒的回復(fù)評(píng)論。數(shù)據(jù)集包括評(píng)論的原始文本和對(duì)應(yīng)評(píng)級(jí),從芳香度、味覺(jué)和外觀三個(gè)方面來(lái)評(píng)價(jià),每一個(gè)都采用五星評(píng)級(jí)制。
而自然語(yǔ)言處理員對(duì)這些數(shù)據(jù)感興趣還有一個(gè)原因,這些數(shù)據(jù)同時(shí)被人們進(jìn)行手動(dòng)注釋?zhuān)砻髁瞬煌貜?fù)所對(duì)應(yīng)的不同等級(jí)是什么。比如,一個(gè)回復(fù)可能有八到九個(gè)句子,注釋就會(huì)標(biāo)出和啤酒有關(guān)的部分,比如“大約半英寸厚的棕褐色泡沫”、“明顯愛(ài)爾蘭啤酒的味道”或者“缺乏碳酸化”等等。
| 驗(yàn)證
該數(shù)據(jù)集能很好地測(cè)試 CSAIL 研究人員的系統(tǒng)。比如,如果第一模塊提取了三個(gè)短語(yǔ),而第二模塊把它們對(duì)應(yīng)到相關(guān)等級(jí)中,就相當(dāng)于該系統(tǒng)的判斷基礎(chǔ)與人類(lèi)注釋的判斷基礎(chǔ)相同。
試驗(yàn)中,系統(tǒng)判斷在芳香度和外觀和人類(lèi)判斷相似度分別達(dá)到 96% 和 95%,對(duì)于味道的相似度則略差,有85%。
論文中,研究人員還報(bào)道了利用自由問(wèn)答所獲得的數(shù)據(jù)測(cè)試該系統(tǒng)得到的結(jié)果,以判斷是否一個(gè)給出的問(wèn)題先前已被回答過(guò)。
還有些成果他們沒(méi)有發(fā)表,這包括將該系統(tǒng)應(yīng)用于數(shù)千份乳腺活檢的病理報(bào)告。在該應(yīng)用過(guò)程中,它學(xué)會(huì)了提取文本以為病理學(xué)家提供診斷基礎(chǔ)。甚至還能用它來(lái)分析乳房的 X 光照片,其中第一個(gè)模塊提取的是圖像而不是文本。
“對(duì)于深度學(xué)習(xí),尤其是用深度學(xué)習(xí)進(jìn)行自然語(yǔ)言處理,人們往往會(huì)夸大其詞,”美國(guó)東北大學(xué)計(jì)算機(jī)與信息科學(xué)副教授 Byron Wallace 說(shuō)道,“這些模型有一個(gè)很大的缺點(diǎn),它們對(duì)于人類(lèi)就像是黑匣子。模型不僅要能做出準(zhǔn)確預(yù)測(cè),還要能告訴你背后的原因。后者很重要?!?/p>
“在會(huì)上,我們發(fā)現(xiàn)有人和我們做類(lèi)似的研究,” Wallace 補(bǔ)充說(shuō)道,“我不知道 Regina 也在做這個(gè),而且我覺(jué)得她的方法更好。我們的方法是,比如,有人告訴我們一個(gè)電影評(píng)論給的評(píng)價(jià)很高,我們就假設(shè)他們會(huì)在句子中做標(biāo)記,并且給出理由。我們通過(guò)這種方式訓(xùn)練深度學(xué)習(xí)模型,來(lái)提取這些原因。但是他們無(wú)需假設(shè),也就是無(wú)需人類(lèi)注釋神經(jīng)網(wǎng)絡(luò)就能給出做決策的原因。這個(gè)方法非常好?!?/p>
via:scienceblog
延伸閱讀:
線(xiàn)性資本王淮:明年人工智能泡沫將達(dá)到頂點(diǎn)
誰(shuí)會(huì)贏得美國(guó)大選?AI 押注特朗普
2016中美項(xiàng)目秋季交流會(huì),來(lái)自硅谷的人工智能有哪些新創(chuàng)意?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。