1
本文作者: 潔穎 | 2016-05-30 15:14 |
一般情況下,我們和電腦說話都覺得很費(fèi)勁,因?yàn)樗鼈冇悬c(diǎn)望文生義。但是,谷歌正在教電腦如何理解人類語音和文本的博大精深。
現(xiàn)在,谷歌把其算法開放給第三方的軟件開發(fā)人員。有了這些工具,程序員就能開發(fā)基于語言的應(yīng)用和服務(wù),比現(xiàn)在許多的聊天機(jī)器人更加善解人意。而程序員大概會(huì)迷上谷歌正在完善的強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)。
谷歌對(duì)語法和句法的掌握有助于其提供更準(zhǔn)確的搜索結(jié)果,而且會(huì)隨著越來越多的設(shè)備和服務(wù)都依賴于語音控制變得越來越重要。
基于谷歌軟件的智能手機(jī)已經(jīng)可以聲控,而且谷歌正在開發(fā)類似于亞馬遜Echo的家庭設(shè)備,它很大程度上依賴語音交互。所以谷歌開放工具,使語言理解更容易有很大的戰(zhàn)略意義。
“我們的大多數(shù)用戶都通過語言與我們互動(dòng)?!惫雀枳匀徽Z言理解和機(jī)器學(xué)習(xí)的領(lǐng)導(dǎo)人Fernando Pereira說。 “他們通過打字或說話來問問題,所以,為了讓用戶滿意,我們必須使系統(tǒng)了解用戶想要的是什么。”
谷歌還發(fā)布了名為SyntaxNet的工具,可以基于其上下文背景和普遍使用學(xué)會(huì)理解單詞和短語的意思。它適用于谷歌原先發(fā)布的名為TensorFlow的深度學(xué)習(xí)框架,同時(shí),它還是迄今使用TensorFlow構(gòu)建的最復(fù)雜和最精密的部件。
谷歌還發(fā)布了英語預(yù)先訓(xùn)練解析器,稱為Parsey McParseface(一發(fā)言人稱,該公司在幫它起名字時(shí)很困擾,直到有人建議這個(gè)瑯瑯上口的名字)。文本被送入分析器后會(huì)自動(dòng)分解成這樣的句法成分:如名詞,動(dòng)詞,主體和對(duì)象。這使得計(jì)算機(jī)更容易正確解析不明確的查詢或命令。
谷歌通常依賴于數(shù)據(jù)和機(jī)器學(xué)習(xí),當(dāng)然的確有些其他的方法,如Facebook試圖通過提供大量未標(biāo)注主要數(shù)據(jù)給計(jì)算機(jī),從而培養(yǎng)它們解析語言的能力。但是,谷歌的語言理解項(xiàng)目,是專業(yè)人士建設(shè)的。八年多來,語言專家一直在努力為谷歌注釋文本。而最近這些標(biāo)注在大型深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)取得了很大進(jìn)展。
對(duì)計(jì)算機(jī)而言,理解語言是非常困難的,因?yàn)檎Z言往往是模糊的。即使是像“Find me cats in hats”一樣簡單的搜索查詢,也會(huì)出現(xiàn)歧義,可以解釋為帶帽子的貓或者坐在帽子上的貓。人類可以使用常識(shí)來辨別這樣歧義的句子,而谷歌的技術(shù)則是采用機(jī)器學(xué)習(xí)。其深度學(xué)習(xí)系統(tǒng),通過語法文字的培訓(xùn),判斷出最有可能正確的語句結(jié)構(gòu)。而在剛才的“cats in hats”例子里,谷歌會(huì)假定搜索者感興趣的是時(shí)尚前衛(wèi)帶帽子的貓。
谷歌產(chǎn)品經(jīng)理Dave Orr,負(fù)責(zé)尋找語言理解研究的商業(yè)應(yīng)用,向外媒記者展示了該技術(shù)。他把幾篇MIT科技評(píng)論的文章放進(jìn)內(nèi)部版本的語言解析器。它犯了幾個(gè)微不足道的錯(cuò)誤,但總體來說其注釋的準(zhǔn)確性令人印象深刻,能正確識(shí)別句法結(jié)構(gòu)或捕獲標(biāo)題的含義。 “這是人類能創(chuàng)造的最好的解析器,”奧爾說, “我們認(rèn)為這是接近人類的水平。”
在內(nèi)部,谷歌結(jié)合了自然語言系統(tǒng)和稱為知識(shí)圖譜的語義信息數(shù)據(jù)庫。這使得它能夠識(shí)別特定對(duì)象,人物,地點(diǎn)等概念,并作出相應(yīng)的反應(yīng)。該系統(tǒng)通常也能夠通過將單詞與出現(xiàn)在一個(gè)類似的上下文比較,正確將新單詞分類。迄今為止,該技術(shù)適用于15種語言。有些語言對(duì)語言分析更有挑戰(zhàn)性,培訓(xùn)起來更加困難,奧爾說。
然而,該技術(shù)遠(yuǎn)遠(yuǎn)還沒能夠完全理解英語。 “我們的系統(tǒng)在結(jié)構(gòu)合理,精心編輯的文本表現(xiàn)得最好?!盤ereira說, “社交媒體和搜索查詢的不規(guī)律更有挑戰(zhàn)性。我們已經(jīng)取得了進(jìn)展,但有很多的空間?!?/p>
仍然有很多歧義的地方需要人類程度的常識(shí)——我們從經(jīng)驗(yàn)中學(xué)習(xí)的東西,從我們的朋友和我們的父母得到的建議,”Pereira說。 “這種豐富的解決問題能力正是我們系統(tǒng)的缺失?!?/p>
研究語言理解的斯坦福大學(xué)教授Noah Goodman說,改進(jìn)語法的理解僅僅是電腦需要掌握語言的開始。 “語法肯定是語言的重要組成部分,”他說。 “但是,從語法到語義學(xué);從淺層語義到推斷深層含義都是很大的進(jìn)步?!?/p>
via TR
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。