微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ?，?AI 更像人

本文作者：老王

2016-11-02 15:36

導(dǎo)語：微軟亞洲研究院發(fā)布全新的、能幫助計算機更好運作的微軟知識圖譜和概念標(biāo)簽?zāi)Ｐ?，機器可以更好地理解人類交流并且進行語義計算。

近日，微軟亞洲研究院發(fā)布全新的、能幫助計算機更好運作的微軟知識圖譜（Microsoft Concept Graph）和概念標(biāo)簽?zāi)Ｐ停∕icrosoft Concept Tagging），機器可以更好地理解人類交流并且進行語義計算。

微軟知識圖譜（Microsoft Concept Graph）

Microsoft Concept Graph 是一個大型的知識圖譜系統(tǒng)。包含的知識來自于數(shù)以億計的網(wǎng)頁和多年積累的搜索日志，可以為機器提供文本理解的常識性知識。

微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ停?AI 更像人

研究員稱，現(xiàn)在的人工智能可以戰(zhàn)勝李世石，但其學(xué)習(xí)能力以及完成一般任務(wù)的能力可能都遠不及一個三四歲的兒童。因此研究員們從人類的學(xué)習(xí)成長過程開始入手，試圖找到逐步實現(xiàn)機器智能的解決方法。

如何逐步實現(xiàn)機器智能，微軟亞洲研究院給出的答案是“常識”，常識是理解是萬物的基礎(chǔ)。人們從小就開始學(xué)習(xí)（對世界的認知），學(xué)習(xí)作為人類與生俱來的本能可讓我們上學(xué)之前就已知道“西瓜是甜的水果”、“水是液體”等基礎(chǔ)概念，隨著年齡和經(jīng)歷的增長，這類并不屬于某個細分專業(yè)領(lǐng)域的開放性常識也在不斷增長。

微軟亞洲研究院這次做的事情就是讓計算機“懂得”這些常識性概念。為此，經(jīng)過六年的研究微軟為 Microsoft Concept Graph 收集了超過 540 萬條概念核心知識庫。除了“建筑”、“詩人”等這類通用知識庫外，還包含數(shù)百萬比較生僻的長尾概念，如“抗帕金森治療”、“名人婚紗設(shè)計師”、“基礎(chǔ)的水彩技巧”等。與此同時，Microsoft Concept Graph 同樣包含了大量數(shù)據(jù)空間（每條知識概念都包含一系列的實體或者子概念，例如“太陽系”底下可能就會包括“水星”、“火星”、“地球”等等）。

微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ?，?AI 更像人

微軟概念標(biāo)簽?zāi)Ｐ停∕icrosoft Concept Tagging）

微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ?，?AI 更像人

概念標(biāo)簽?zāi)Ｐ停∕icrosoft Concept Tagging）與微軟知識圖譜（Microsoft Concept Graph）相輔相成。概念標(biāo)簽?zāi)Ｐ涂梢詫⑽谋驹~條實體映射到不同的語義概念，并根據(jù)實體文本內(nèi)容被標(biāo)記上相應(yīng)的概率標(biāo)簽。舉個例子，當(dāng)我們看到“甲骨文市值很高”這句話時，首先“甲骨文”這個詞會映射到“大公司”、“硅谷巨頭”、“古代文字”、“埃里森”等概念。隨后會觸發(fā)根據(jù)前后的文字或者上下語句確定語義這一技能，根據(jù)微軟知識圖譜對“市值”的定義以及所用在的場景，再結(jié)合“甲骨文”，結(jié)合概率標(biāo)簽可計算出這里的甲骨文指的是“硅谷巨頭”這一概念而非“古代文字”。具體來說，微軟標(biāo)簽概念模型根據(jù)人類天生所掌握的概念推理能力，將短語映射到大量自動習(xí)得的概念空間（向量空間）。因此該模型提供了文本理解所需的文本概念映射、短語語義化理解等功能。

概念標(biāo)簽?zāi)Ｐ蛥^(qū)別于以往常見 NLP 中文本推理模型的根本區(qū)別是它是基于網(wǎng)絡(luò)之上的一個推理模型，將文本映射到一個顯式的知識空間，將文本概念化。

以搜索引擎為例，用戶在檢索時，輸入的詞量相對較少，搜索引擎在去往搜索結(jié)果時需要將查詢詞進行額外的信息化，將詞匯或文本映射到大量的概念空間里面，從而解釋這一段文本。而傳統(tǒng)模型對于文本的推理幾乎不可解釋，而微軟標(biāo)簽概念模型用不同的概念去描述一個詞，并給出對應(yīng)的概率，使得機器能夠更好地理解文本。

舉個比較易理解的例子，在社交媒體中，工程師可能會人為設(shè)置一些關(guān)鍵字去屏蔽一些不當(dāng)言論，但是并不是每一個敏感詞工程師都能準(zhǔn)確找到。微軟在官方介紹中提到：

如工程師屏蔽了“希特勒”、“納粹”，卻忽略了“法西斯”，現(xiàn)在微軟概念標(biāo)簽?zāi)Ｐ湍軐υ~匯原有的概念進行延展，在系統(tǒng)中找到其他類似的相關(guān)性很大的關(guān)鍵字，做更多智能的擴展。

目前 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型可應(yīng)用在搜索引擎、自動問答系統(tǒng)、在線廣告系統(tǒng)、推薦系統(tǒng)、聊天機器人等。微軟亞洲研究院閆峻博士表示：“我們希望 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的發(fā)布可以推動知識挖掘、自然語言處理等領(lǐng)域的發(fā)展，最終推動人工智能的進步。“

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當(dāng)月熱門文章

微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ?，?AI 更像人

微軟知識圖譜（Microsoft Concept Graph）

微軟概念標(biāo)簽?zāi)Ｐ停∕icrosoft Concept Tagging）

微軟發(fā)布全新知識圖譜和概念標(biāo)簽?zāi)Ｐ?，?AI 更像人