1
本文作者: 老王 | 2016-11-02 15:36 |
近日,微軟亞洲研究院發(fā)布全新的、能幫助計算機更好運作的微軟知識圖譜(Microsoft Concept Graph)和 概念標簽模型(Microsoft Concept Tagging),機器可以更好地理解人類交流并且進行語義計算。
Microsoft Concept Graph 是一個大型的知識圖譜系統(tǒng)。包含的知識來自于數(shù)以億計的網(wǎng)頁和多年積累的搜索日志,可以為機器提供文本理解的常識性知識。
研究員稱,現(xiàn)在的人工智能可以戰(zhàn)勝李世石,但其學習能力以及完成一般任務的能力可能都遠不及一個三四歲的兒童。因此研究員們從人類的學習成長過程開始入手,試圖找到逐步實現(xiàn)機器智能的解決方法。
如何逐步實現(xiàn)機器智能,微軟亞洲研究院給出的答案是“常識”,常識是理解是萬物的基礎。人們從小就開始學習(對世界的認知),學習作為人類與生俱來的本能可讓我們上學之前就已知道“西瓜是甜的水果”、“水是液體”等基礎概念,隨著年齡和經(jīng)歷的增長,這類并不屬于某個細分專業(yè)領域的開放性常識也在不斷增長。
微軟亞洲研究院這次做的事情就是讓計算機“懂得”這些常識性概念。為此, 經(jīng)過六年的研究微軟為 Microsoft Concept Graph 收集了超過 540 萬條概念核心知識庫。除了“建筑”、“詩人”等這類通用知識庫外,還包含數(shù)百萬比較生僻的長尾概念,如“抗帕金森治療”、“名人婚紗設計師”、“基礎的水彩技巧”等。與此同時,Microsoft Concept Graph 同樣包含了大量數(shù)據(jù)空間(每條知識概念都包含一系列的實體或者子概念,例如“太陽系”底下可能就會包括“水星”、“火星”、“地球”等等)。
概念標簽模型(Microsoft Concept Tagging)與微軟知識圖譜(Microsoft Concept Graph)相輔相成。概念標簽模型可以將文本詞條實體映射到不同的語義概念,并根據(jù)實體文本內(nèi)容被標記上相應的概率標簽。舉個例子,當我們看到“甲骨文市值很高”這句話時,首先“甲骨文”這個詞會映射到“大公司”、“硅谷巨頭”、“古代文字”、“埃里森”等概念。隨后會觸發(fā)根據(jù)前后的文字或者上下語句確定語義這一技能,根據(jù)微軟知識圖譜對“市值”的定義以及所用在的場景,再結合“甲骨文”,結合概率標簽可計算出這里的甲骨文指的是“硅谷巨頭”這一概念而非“古代文字”。具體來說,微軟標簽概念模型根據(jù)人類天生所掌握的概念推理能力,將短語映射到大量自動習得的概念空間(向量空間)。因此該模型提供了文本理解所需的文本概念映射、短語語義化理解等功能。
概念標簽模型區(qū)別于以往常見 NLP 中文本推理模型的根本區(qū)別是它是基于網(wǎng)絡之上的一個推理模型,將文本映射到一個顯式的知識空間,將文本概念化。
以搜索引擎為例,用戶在檢索時,輸入的詞量相對較少,搜索引擎在去往搜索結果時需要將查詢詞進行額外的信息化,將詞匯或文本映射到大量的概念空間里面,從而解釋這一段文本。而傳統(tǒng)模型對于文本的推理幾乎不可解釋,而微軟標簽概念模型用不同的概念去描述一個詞,并給出對應的概率,使得機器能夠更好地理解文本。
舉個比較易理解的例子,在社交媒體中,工程師可能會人為設置一些關鍵字去屏蔽一些不當言論,但是并不是每一個敏感詞工程師都能準確找到。微軟在官方介紹中提到:
如工程師屏蔽了“希特勒”、“納粹”,卻忽略了“法西斯”,現(xiàn)在微軟概念標簽模型能對詞匯原有的概念進行延展,在系統(tǒng)中找到其他類似的相關性很大的關鍵字,做更多智能的擴展。
目前 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型可應用在搜索引擎、自動問答系統(tǒng)、在線廣告系統(tǒng)、推薦系統(tǒng)、聊天機器人等。微軟亞洲研究院閆峻博士表示:“我們希望 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的發(fā)布可以推動知識挖掘、自然語言處理等領域的發(fā)展,最終推動人工智能的進步。“
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。