丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
國際 正文
發(fā)私信給李尊
發(fā)送

1

一張圖帶你看懂IBM Waston的工作原理

本文作者: 李尊 2016-07-20 19:22
導(dǎo)語:IBM主推的沃森(waston)系統(tǒng)到底什么來頭?它是如何運轉(zhuǎn)的?

IBM沃森(Watson)系統(tǒng)來自于打造了現(xiàn)代IBM的首席執(zhí)行官Thomas Watson Sr,2011年該系統(tǒng)在美國的電視問答節(jié)目Jeopardy!(危險之旅!)上擊敗了兩名人類冠軍選手,從此一戰(zhàn)成名。

一張圖帶你看懂IBM Waston的工作原理

Jeopardy!(危險之旅?。┑谋荣愐砸环N獨特的問答形式進(jìn)行,問題設(shè)置的涵蓋面非常廣泛,涉及到歷史、文學(xué)、藝術(shù)、流行文化、科技、體育、地理、文字游戲等等各個領(lǐng)域。根據(jù)以答案形式提供的各種線索,參賽者必須以問題的形式做出簡短正確的回答。與一般問答節(jié)目相反,《危險邊緣》以答案形式提問、提問形式作答。參賽者需具備歷 史、文學(xué)、政治、科學(xué)和通俗文化等知識,還得會解析隱晦含義、反諷與謎語等,而電腦并不擅長進(jìn)行這類復(fù)雜思考。

需要特別提到的是,在比賽中Watson是斷開網(wǎng)絡(luò)(offline)的。與AlphaGo同李世石對戰(zhàn)中不同,Waston只能使用保存在硬盤中的知識庫基本包與擴展包作為自己的知識儲備,和人類參賽選手一樣。在這種情況下,沃森在前兩輪中與對手打平。而在最后一集里,沃森打敗了最高獎金得主布拉德·魯特爾和連勝紀(jì)錄保持者肯·詹寧斯,奪得第一名。

Waston本質(zhì)上是IBM制造的電腦問答(Q&A)系統(tǒng), IBM介紹時說“Waston是一個集高級自然語言處理、信息檢索、知識表示、自動推理、機器學(xué)習(xí)等開放式問答技術(shù)的應(yīng)用”,并且“基于為假設(shè)認(rèn)知和大規(guī)模的證據(jù)搜集、分析、評價而開發(fā)的DeepQA技術(shù)”。雖然采用了深度學(xué)習(xí)中一些技術(shù)如遷移學(xué)習(xí) (Transfer Learning)來解決一些問題,但與AlphaGo不同,它并不是完全采用深度學(xué)習(xí)技術(shù)的人工智能。它的主體思路并非深度學(xué)習(xí),而是更接近心智社會(Society of Mind)。

在剛剛閉幕的IJCAI2016會議上,倫斯勒理工學(xué)院教授James Hendler受邀演講詳細(xì)介紹了IBM Waston的工作原理。

一張圖帶你看懂IBM Waston的工作原理

一張圖帶你看懂IBM Waston的工作原理

將沃森設(shè)想為一間環(huán)形辦公室走廊,每一間辦公室都有一群人做著特殊的工作,讓我們從頭來梳理整個運行過程。

  • 問題輸入(QUESTION IN)

  • 問題分析 (Question Analysis)

這個問題什么意思?

我們在找什么?

還存在其他有效信息么?

問題中有沒有詞語提到問題中的其他詞語?

在這一環(huán)節(jié),DeepQA嘗試去理解問題,搞清楚問題到底在問什么,同時做一些初步的分析來決定選擇哪種方法來應(yīng)對這個問題。

  • 初步搜索 Primary Search

在數(shù)據(jù)庫中能不能找到或許跟這個問題有關(guān)的文件?

找到了多少文件?

這些文件從哪里來的?

  • 搜索結(jié)果處理并生成備選答案 Search Result Processing and Candidate Answer Generation

在這些文件中,有這個問題可能的答案么?

有多少個備選答案?

 當(dāng)問一個問題時,一份文檔打開了。文檔在辦公室中不斷移動時,更多信息被添加進(jìn)去了。

  •  上下文無關(guān)回答得分 Context-Independent Answer Scoring

這個選擇有可能是正確的答案嗎?

這個選擇是正確的答案形式嗎?

  • 軟濾波 Soft Filtering

有哪些選擇是明顯錯誤的?

如果是的話,能不能讓它們在后面的處理過程中不占太多的時間?

 每個可能的回答都被給定一個分?jǐn)?shù),給出這個證據(jù)對備選答案支持得到底有多好。

  •  支持證據(jù)檢索 Supporting Evidence Retrieval

能在數(shù)據(jù)庫中找到任何能夠證明某個選擇答案是正確的信息嗎?

對每個選擇來說有多少信息在哪?

  • 搜索結(jié)果處理和上下文無關(guān)得分 Search Result Processing and Context Dependent Scoring

選擇工作作為問題回答怎么樣?

現(xiàn)在有更多的信息,能給每個選擇什么分?jǐn)?shù)?

  • 最終合并并排名 Final Merging and Ranking

還有任何能夠改變分?jǐn)?shù)的額外信息嗎?

每個選擇的總分是多少?

哪個選擇分?jǐn)?shù)最高?

分?jǐn)?shù)第二高的選擇是什么?

DeepQA也觀察到了這種現(xiàn)象:不同的表面形式通常會被不同的證據(jù)支持,并得到完全不同但潛在互補的分?jǐn)?shù),這產(chǎn)生了一種方法:將答案分?jǐn)?shù)在排名和信心計算之前先合并掉。

  •  輸出答案 ANSWER OUT

有用的最高分答案被返回,然后沃森嘗試判斷從它做的多好(或者多壞)中進(jìn)行學(xué)習(xí)。

以上即為waston工作的基本原理,在后面的演講中James Hendler教授還提到了沃森是基于“關(guān)聯(lián)知識”構(gòu)筑而成的,其實現(xiàn)過程如下。

一張圖帶你看懂IBM Waston的工作原理

解析問題文本

生成查詢請求

搜索可能答案 (假說)

假設(shè)1-m

解析假說文本

生成查詢請求

搜索證據(jù)

證據(jù)1.1-1.m

解析證據(jù)文本

證據(jù)評分

結(jié)合證據(jù)并對假設(shè)1評分

通過解讀措辭含糊的問題并通過其通用知識數(shù)據(jù)庫搜尋答案,沃森展示了理解自然語言的能力,而這正是計算機所需要攻克的最困難的難題之一。這似乎預(yù)示著計算機不久之后就能真正“理解”復(fù)雜信息并與人類交談了,甚至還可能繼續(xù)發(fā)展以至于在大部分人類專有領(lǐng)域超越人類。

沃森集成了上百種算法從不同的維度分析備選假設(shè)的證據(jù),如類型、時間、空間、流行度、段落支持度、來源可靠度、語義相關(guān)度等。每種分析都產(chǎn)生一些特征或評分,反映了在相應(yīng)的維度上證據(jù)對備選答案的支持程度。如果在最終系統(tǒng)中去掉任何單個評分器,在上千個問題的測試集上都不會造成顯著的影響,實際上沒有一個評分器產(chǎn)生的影響超過1%。但組合起來,沃森在回答40%-70%的問題時,達(dá)到了92%的平均精度。

James Hendler教授在演講中還提到最近幾個重要技術(shù)壁壘被突破,像深度學(xué)習(xí)(機器學(xué)習(xí))、認(rèn)知計算、語義網(wǎng)絡(luò)(知識圖譜)方面都有又一次為AI帶來高的關(guān)注度。他另外還提到,Waston系統(tǒng)目前已經(jīng)開始進(jìn)軍醫(yī)療行業(yè),結(jié)合之前提到的AlphaGo也有意在這一行業(yè)發(fā)光發(fā)熱,我們會看到這兩者一較高下么?請拭目以待。

via James Hendler

PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說