1
本文作者: 夏睿 | 2016-10-31 15:57 |
神經(jīng)網(wǎng)絡是一種模仿生物神經(jīng)網(wǎng)絡(如大腦)的結構和功能的數(shù)學模型或計算模型,它能在訓練數(shù)據(jù)的過程中尋找模式以對數(shù)據(jù)進行預測和分類。近年來,神經(jīng)網(wǎng)絡的研究極大促進了人工智能的發(fā)展,科學家用它開發(fā)出不少高性能的系統(tǒng)應用——比如用神經(jīng)網(wǎng)絡識別數(shù)字圖像中的某些對象或推斷文本主題等。
雖然神經(jīng)網(wǎng)絡在受到訓練之后能夠很好地將數(shù)據(jù)分門別類,但是,即使是它的設計者也無從得知它們是如何思考的。它就像一個黑匣子。若是進行圖像識別,也許還能通過反向運行神經(jīng)網(wǎng)絡找出它識別和決策的內(nèi)在因素,正如雷鋒網(wǎng)文章《深度 | Nature:我們能打開人工智能的“黑箱”嗎?》中曾提到的,Tyka 和 Google 的研究員為了深入研究黑箱問題而開發(fā)的 Deep Dream 算法,從一個圖形開始,好比說一朵花或者一個沙灘,通過修改它來提高特定的頂級神經(jīng)元的反應。相比之下,文本處理系統(tǒng)的決策過程就較為晦澀難懂了。
在由計算機語言學協(xié)會(the Association for Computational Linguistics)舉辦的會議中,研究人員們將會討論自然語言處理中的一些經(jīng)驗。來自 MIT 計算機科學及人工智能實驗室( CSAIL )的研究院會展示一種訓練神經(jīng)網(wǎng)絡的新方法。論文中表示這種新方法不僅能做預測和分類,更重要的是能給出其決策背后的原因。
“在實際應用中,有時人們會特別想知道一個模型到底為什么能做出這樣那樣的預測,” MIT 電氣工程和計算機科學研究生,同時也是該論文的第一作者,Tao Lei 說道,“醫(yī)生不相信機器學習,主要也是因為它做出的決策無依據(jù)可尋。 ”
Regina Barzilay 是 Delta 電子電氣工程與計算機科學教授,同時也是 Lei 的論文指導顧問,他說道,“預測錯誤所造成的成本損失是極高的,不僅在醫(yī)療領域,在所有領域都是如此。因此你得說清楚根據(jù)機器學習的預測做出進一步行動,背后的原因是什么 。”
“而且,這項工作涉及范圍很廣,” MIT 電氣工程和計算機科學教授,該論文的第三作者 Tommi Jaakkola 表示道,“你可能不僅想弄清楚一個模型是如何做出正確預測的,而且還想對它應做出的加某些影響預測類型施。一個完全不懂機器學習的外行該如何與一個受過算法訓練的復雜模型進行對話?如果模型能告訴你做出某項預測背后的原因是什么,人們也許就能以一種新的方式和模型進行互動。”
| 虛擬大腦
文章開頭已提到過,神經(jīng)網(wǎng)絡是模仿大腦結構而制成。和人類大腦中的神經(jīng)元一樣,它們包含大量的處理節(jié)點,節(jié)點之間彼此連接,形成一個密集的網(wǎng)絡,但其認知能力卻相當初級。
在深度學習過程中,訓練數(shù)據(jù)被送到輸入節(jié)點中,網(wǎng)絡的輸入節(jié)點會對其進行修改并輸送給其他節(jié)點,以此類推。儲存在神經(jīng)網(wǎng)絡輸出節(jié)點中的信息會和試圖要學習的分類條目進行匹配, 這些類別可能是物體形象,或是文章主題。
網(wǎng)絡在接受訓練時,各個節(jié)點在傳遞信息時一直在對其進行修改,使得最后輸出最佳結果。但整個過程結束時,編程網(wǎng)絡的計算機科學家往往也不知道這些節(jié)點到底是怎么設置的,或者,很難把低級信息轉成讓人通俗易懂的系統(tǒng)決策過程。
在該論文中, Lei, Barzilay 和 Jaakkola 專門強調(diào)了用文本數(shù)據(jù)進行訓練的神經(jīng)網(wǎng)絡。為了解釋神經(jīng)網(wǎng)絡的決策過程,CSAIL 研究院把神經(jīng)網(wǎng)絡分成兩個模塊,第一模塊從訓練數(shù)據(jù)中提取文本段,并且根據(jù)其長度和相干性來對分段進行評分:分段越短,并且從連續(xù)單詞串中抓取的分段越多,其分數(shù)越高。
接著,第一模塊把抓取的數(shù)據(jù)傳送給第二模塊,由第二模塊來執(zhí)行預測和分類任務。兩個模塊同時訓練,既要使第一模塊的分數(shù)提高,又要增加預測和分類的準確性。
研究員們測試系統(tǒng)所用的其中一個數(shù)據(jù)集是某網(wǎng)站用戶對不同啤酒的回復評論。數(shù)據(jù)集包括評論的原始文本和對應評級,從芳香度、味覺和外觀三個方面來評價,每一個都采用五星評級制。
而自然語言處理員對這些數(shù)據(jù)感興趣還有一個原因,這些數(shù)據(jù)同時被人們進行手動注釋,表明了不同回復所對應的不同等級是什么。比如,一個回復可能有八到九個句子,注釋就會標出和啤酒有關的部分,比如“大約半英寸厚的棕褐色泡沫”、“明顯愛爾蘭啤酒的味道”或者“缺乏碳酸化”等等。
| 驗證
該數(shù)據(jù)集能很好地測試 CSAIL 研究人員的系統(tǒng)。比如,如果第一模塊提取了三個短語,而第二模塊把它們對應到相關等級中,就相當于該系統(tǒng)的判斷基礎與人類注釋的判斷基礎相同。
試驗中,系統(tǒng)判斷在芳香度和外觀和人類判斷相似度分別達到 96% 和 95%,對于味道的相似度則略差,有85%。
論文中,研究人員還報道了利用自由問答所獲得的數(shù)據(jù)測試該系統(tǒng)得到的結果,以判斷是否一個給出的問題先前已被回答過。
還有些成果他們沒有發(fā)表,這包括將該系統(tǒng)應用于數(shù)千份乳腺活檢的病理報告。在該應用過程中,它學會了提取文本以為病理學家提供診斷基礎。甚至還能用它來分析乳房的 X 光照片,其中第一個模塊提取的是圖像而不是文本。
“對于深度學習,尤其是用深度學習進行自然語言處理,人們往往會夸大其詞,”美國東北大學計算機與信息科學副教授 Byron Wallace 說道,“這些模型有一個很大的缺點,它們對于人類就像是黑匣子。模型不僅要能做出準確預測,還要能告訴你背后的原因。后者很重要?!?/p>
“在會上,我們發(fā)現(xiàn)有人和我們做類似的研究,” Wallace 補充說道,“我不知道 Regina 也在做這個,而且我覺得她的方法更好。我們的方法是,比如,有人告訴我們一個電影評論給的評價很高,我們就假設他們會在句子中做標記,并且給出理由。我們通過這種方式訓練深度學習模型,來提取這些原因。但是他們無需假設,也就是無需人類注釋神經(jīng)網(wǎng)絡就能給出做決策的原因。這個方法非常好。”
via:scienceblog
延伸閱讀:
2016中美項目秋季交流會,來自硅谷的人工智能有哪些新創(chuàng)意?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。