1
本文作者: 老王 | 2016-11-02 15:36 |
近日,微軟亞洲研究院發(fā)布全新的、能幫助計(jì)算機(jī)更好運(yùn)作的微軟知識(shí)圖譜(Microsoft Concept Graph)和 概念標(biāo)簽?zāi)P停∕icrosoft Concept Tagging),機(jī)器可以更好地理解人類交流并且進(jìn)行語(yǔ)義計(jì)算。
Microsoft Concept Graph 是一個(gè)大型的知識(shí)圖譜系統(tǒng)。包含的知識(shí)來(lái)自于數(shù)以億計(jì)的網(wǎng)頁(yè)和多年積累的搜索日志,可以為機(jī)器提供文本理解的常識(shí)性知識(shí)。
研究員稱,現(xiàn)在的人工智能可以戰(zhàn)勝李世石,但其學(xué)習(xí)能力以及完成一般任務(wù)的能力可能都遠(yuǎn)不及一個(gè)三四歲的兒童。因此研究員們從人類的學(xué)習(xí)成長(zhǎng)過(guò)程開(kāi)始入手,試圖找到逐步實(shí)現(xiàn)機(jī)器智能的解決方法。
如何逐步實(shí)現(xiàn)機(jī)器智能,微軟亞洲研究院給出的答案是“常識(shí)”,常識(shí)是理解是萬(wàn)物的基礎(chǔ)。人們從小就開(kāi)始學(xué)習(xí)(對(duì)世界的認(rèn)知),學(xué)習(xí)作為人類與生俱來(lái)的本能可讓我們上學(xué)之前就已知道“西瓜是甜的水果”、“水是液體”等基礎(chǔ)概念,隨著年齡和經(jīng)歷的增長(zhǎng),這類并不屬于某個(gè)細(xì)分專業(yè)領(lǐng)域的開(kāi)放性常識(shí)也在不斷增長(zhǎng)。
微軟亞洲研究院這次做的事情就是讓計(jì)算機(jī)“懂得”這些常識(shí)性概念。為此, 經(jīng)過(guò)六年的研究微軟為 Microsoft Concept Graph 收集了超過(guò) 540 萬(wàn)條概念核心知識(shí)庫(kù)。除了“建筑”、“詩(shī)人”等這類通用知識(shí)庫(kù)外,還包含數(shù)百萬(wàn)比較生僻的長(zhǎng)尾概念,如“抗帕金森治療”、“名人婚紗設(shè)計(jì)師”、“基礎(chǔ)的水彩技巧”等。與此同時(shí),Microsoft Concept Graph 同樣包含了大量數(shù)據(jù)空間(每條知識(shí)概念都包含一系列的實(shí)體或者子概念,例如“太陽(yáng)系”底下可能就會(huì)包括“水星”、“火星”、“地球”等等)。
概念標(biāo)簽?zāi)P停∕icrosoft Concept Tagging)與微軟知識(shí)圖譜(Microsoft Concept Graph)相輔相成。概念標(biāo)簽?zāi)P涂梢詫⑽谋驹~條實(shí)體映射到不同的語(yǔ)義概念,并根據(jù)實(shí)體文本內(nèi)容被標(biāo)記上相應(yīng)的概率標(biāo)簽。舉個(gè)例子,當(dāng)我們看到“甲骨文市值很高”這句話時(shí),首先“甲骨文”這個(gè)詞會(huì)映射到“大公司”、“硅谷巨頭”、“古代文字”、“埃里森”等概念。隨后會(huì)觸發(fā)根據(jù)前后的文字或者上下語(yǔ)句確定語(yǔ)義這一技能,根據(jù)微軟知識(shí)圖譜對(duì)“市值”的定義以及所用在的場(chǎng)景,再結(jié)合“甲骨文”,結(jié)合概率標(biāo)簽可計(jì)算出這里的甲骨文指的是“硅谷巨頭”這一概念而非“古代文字”。具體來(lái)說(shuō),微軟標(biāo)簽概念模型根據(jù)人類天生所掌握的概念推理能力,將短語(yǔ)映射到大量自動(dòng)習(xí)得的概念空間(向量空間)。因此該模型提供了文本理解所需的文本概念映射、短語(yǔ)語(yǔ)義化理解等功能。
概念標(biāo)簽?zāi)P蛥^(qū)別于以往常見(jiàn) NLP 中文本推理模型的根本區(qū)別是它是基于網(wǎng)絡(luò)之上的一個(gè)推理模型,將文本映射到一個(gè)顯式的知識(shí)空間,將文本概念化。
以搜索引擎為例,用戶在檢索時(shí),輸入的詞量相對(duì)較少,搜索引擎在去往搜索結(jié)果時(shí)需要將查詢?cè)~進(jìn)行額外的信息化,將詞匯或文本映射到大量的概念空間里面,從而解釋這一段文本。而傳統(tǒng)模型對(duì)于文本的推理幾乎不可解釋,而微軟標(biāo)簽概念模型用不同的概念去描述一個(gè)詞,并給出對(duì)應(yīng)的概率,使得機(jī)器能夠更好地理解文本。
舉個(gè)比較易理解的例子,在社交媒體中,工程師可能會(huì)人為設(shè)置一些關(guān)鍵字去屏蔽一些不當(dāng)言論,但是并不是每一個(gè)敏感詞工程師都能準(zhǔn)確找到。微軟在官方介紹中提到:
如工程師屏蔽了“希特勒”、“納粹”,卻忽略了“法西斯”,現(xiàn)在微軟概念標(biāo)簽?zāi)P湍軐?duì)詞匯原有的概念進(jìn)行延展,在系統(tǒng)中找到其他類似的相關(guān)性很大的關(guān)鍵字,做更多智能的擴(kuò)展。
目前 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型可應(yīng)用在搜索引擎、自動(dòng)問(wèn)答系統(tǒng)、在線廣告系統(tǒng)、推薦系統(tǒng)、聊天機(jī)器人等。微軟亞洲研究院閆峻博士表示:“我們希望 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的發(fā)布可以推動(dòng)知識(shí)挖掘、自然語(yǔ)言處理等領(lǐng)域的發(fā)展,最終推動(dòng)人工智能的進(jìn)步?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。