1
本文作者: 李尊 | 2016-07-20 19:22 |
IBM沃森(Watson)系統(tǒng)來自于打造了現(xiàn)代IBM的首席執(zhí)行官Thomas Watson Sr,2011年該系統(tǒng)在美國的電視問答節(jié)目Jeopardy!(危險之旅!)上擊敗了兩名人類冠軍選手,從此一戰(zhàn)成名。
Jeopardy!(危險之旅?。┑谋荣愐砸环N獨特的問答形式進(jìn)行,問題設(shè)置的涵蓋面非常廣泛,涉及到歷史、文學(xué)、藝術(shù)、流行文化、科技、體育、地理、文字游戲等等各個領(lǐng)域。根據(jù)以答案形式提供的各種線索,參賽者必須以問題的形式做出簡短正確的回答。與一般問答節(jié)目相反,《危險邊緣》以答案形式提問、提問形式作答。參賽者需具備歷 史、文學(xué)、政治、科學(xué)和通俗文化等知識,還得會解析隱晦含義、反諷與謎語等,而電腦并不擅長進(jìn)行這類復(fù)雜思考。
需要特別提到的是,在比賽中Watson是斷開網(wǎng)絡(luò)(offline)的。與AlphaGo同李世石對戰(zhàn)中不同,Waston只能使用保存在硬盤中的知識庫基本包與擴展包作為自己的知識儲備,和人類參賽選手一樣。在這種情況下,沃森在前兩輪中與對手打平。而在最后一集里,沃森打敗了最高獎金得主布拉德·魯特爾和連勝紀(jì)錄保持者肯·詹寧斯,奪得第一名。
Waston本質(zhì)上是IBM制造的電腦問答(Q&A)系統(tǒng), IBM介紹時說“Waston是一個集高級自然語言處理、信息檢索、知識表示、自動推理、機器學(xué)習(xí)等開放式問答技術(shù)的應(yīng)用”,并且“基于為假設(shè)認(rèn)知和大規(guī)模的證據(jù)搜集、分析、評價而開發(fā)的DeepQA技術(shù)”。雖然采用了深度學(xué)習(xí)中一些技術(shù)如遷移學(xué)習(xí) (Transfer Learning)來解決一些問題,但與AlphaGo不同,它并不是完全采用深度學(xué)習(xí)技術(shù)的人工智能。它的主體思路并非深度學(xué)習(xí),而是更接近心智社會(Society of Mind)。
在剛剛閉幕的IJCAI2016會議上,倫斯勒理工學(xué)院教授James Hendler受邀演講詳細(xì)介紹了IBM Waston的工作原理。
將沃森設(shè)想為一間環(huán)形辦公室走廊,每一間辦公室都有一群人做著特殊的工作,讓我們從頭來梳理整個運行過程。
問題輸入(QUESTION IN)
問題分析 (Question Analysis)
這個問題什么意思?
我們在找什么?
還存在其他有效信息么?
問題中有沒有詞語提到問題中的其他詞語?
在這一環(huán)節(jié),DeepQA嘗試去理解問題,搞清楚問題到底在問什么,同時做一些初步的分析來決定選擇哪種方法來應(yīng)對這個問題。
初步搜索 Primary Search
在數(shù)據(jù)庫中能不能找到或許跟這個問題有關(guān)的文件?
找到了多少文件?
這些文件從哪里來的?
搜索結(jié)果處理并生成備選答案 Search Result Processing and Candidate Answer Generation
在這些文件中,有這個問題可能的答案么?
有多少個備選答案?
當(dāng)問一個問題時,一份文檔打開了。文檔在辦公室中不斷移動時,更多信息被添加進(jìn)去了。
上下文無關(guān)回答得分 Context-Independent Answer Scoring
這個選擇有可能是正確的答案嗎?
這個選擇是正確的答案形式嗎?
軟濾波 Soft Filtering
有哪些選擇是明顯錯誤的?
如果是的話,能不能讓它們在后面的處理過程中不占太多的時間?
每個可能的回答都被給定一個分?jǐn)?shù),給出這個證據(jù)對備選答案支持得到底有多好。
支持證據(jù)檢索 Supporting Evidence Retrieval
能在數(shù)據(jù)庫中找到任何能夠證明某個選擇答案是正確的信息嗎?
對每個選擇來說有多少信息在哪?
搜索結(jié)果處理和上下文無關(guān)得分 Search Result Processing and Context Dependent Scoring
選擇工作作為問題回答怎么樣?
現(xiàn)在有更多的信息,能給每個選擇什么分?jǐn)?shù)?
最終合并并排名 Final Merging and Ranking
還有任何能夠改變分?jǐn)?shù)的額外信息嗎?
每個選擇的總分是多少?
哪個選擇分?jǐn)?shù)最高?
分?jǐn)?shù)第二高的選擇是什么?
DeepQA也觀察到了這種現(xiàn)象:不同的表面形式通常會被不同的證據(jù)支持,并得到完全不同但潛在互補的分?jǐn)?shù),這產(chǎn)生了一種方法:將答案分?jǐn)?shù)在排名和信心計算之前先合并掉。
輸出答案 ANSWER OUT
有用的最高分答案被返回,然后沃森嘗試判斷從它做的多好(或者多壞)中進(jìn)行學(xué)習(xí)。
以上即為waston工作的基本原理,在后面的演講中James Hendler教授還提到了沃森是基于“關(guān)聯(lián)知識”構(gòu)筑而成的,其實現(xiàn)過程如下。
解析問題文本
生成查詢請求
搜索可能答案 (假說)
假設(shè)1-m
解析假說文本
生成查詢請求
搜索證據(jù)
證據(jù)1.1-1.m
解析證據(jù)文本
證據(jù)評分
結(jié)合證據(jù)并對假設(shè)1評分
通過解讀措辭含糊的問題并通過其通用知識數(shù)據(jù)庫搜尋答案,沃森展示了理解自然語言的能力,而這正是計算機所需要攻克的最困難的難題之一。這似乎預(yù)示著計算機不久之后就能真正“理解”復(fù)雜信息并與人類交談了,甚至還可能繼續(xù)發(fā)展以至于在大部分人類專有領(lǐng)域超越人類。
沃森集成了上百種算法從不同的維度分析備選假設(shè)的證據(jù),如類型、時間、空間、流行度、段落支持度、來源可靠度、語義相關(guān)度等。每種分析都產(chǎn)生一些特征或評分,反映了在相應(yīng)的維度上證據(jù)對備選答案的支持程度。如果在最終系統(tǒng)中去掉任何單個評分器,在上千個問題的測試集上都不會造成顯著的影響,實際上沒有一個評分器產(chǎn)生的影響超過1%。但組合起來,沃森在回答40%-70%的問題時,達(dá)到了92%的平均精度。
James Hendler教授在演講中還提到最近幾個重要技術(shù)壁壘被突破,像深度學(xué)習(xí)(機器學(xué)習(xí))、認(rèn)知計算、語義網(wǎng)絡(luò)(知識圖譜)方面都有又一次為AI帶來高的關(guān)注度。他另外還提到,Waston系統(tǒng)目前已經(jīng)開始進(jìn)軍醫(yī)療行業(yè),結(jié)合之前提到的AlphaGo也有意在這一行業(yè)發(fā)光發(fā)熱,我們會看到這兩者一較高下么?請拭目以待。
via James Hendler
PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。