0
本文作者: AI科技評論 | 2016-06-02 16:30 |
圖片來源:Getty Images。
先是微軟、然后Facebook、現(xiàn)在是谷歌。又一次,互聯(lián)網(wǎng)巨頭們將目光聚焦在了同一個未來趨勢上:聊天機(jī)器人。
這些公司許諾說,在未來的幾個月和幾年內(nèi),你可以像跟朋友聊天一樣,與互聯(lián)網(wǎng)服務(wù)商聊天。聊天機(jī)器人會即時回復(fù)你的提問、回應(yīng)你的需求,甚至預(yù)測你的需求。跟老同學(xué)聊天約聚會的時候,你可以讓OpenTable機(jī)器人找找有什么餐廳好吃。不用另外打開一個APP,你就能用Travelocity機(jī)器人訂酒店。
不過,還有一個關(guān)鍵問題沒有解決:打造一個真的可以聊天的聊天機(jī)器人。機(jī)器人可以以某些方式來模擬聊天,但是距離真正理解人們聊天的方式,還有很大的差距。上個月底,為了推動這方面AI技術(shù)的進(jìn)步——并且與競爭對手爭搶公關(guān)眼球——谷歌開源了SyntaxNet,公司自然語言理解技術(shù)所使用的工具之一(開源分享可以讓更多的人來推動技術(shù)進(jìn)步)?,F(xiàn)在,為了不被超越,F(xiàn)acebook展示了自己的一項重要技術(shù),一個稱為DeepText的自然語言引擎。
Facebook還沒有將這項技術(shù)開源。而且,公司也才剛剛開始在自己各項服務(wù)中使用DeepText。但是據(jù)Facebook稱,DeepText讓人們看到公司希望在未來加速自然語言理解的進(jìn)展。為了打造系統(tǒng),他們希望少一點依賴人類,多一點依賴數(shù)據(jù)——互聯(lián)網(wǎng)上的海量數(shù)據(jù)。
谷歌和Facebook都在使用深度神經(jīng)網(wǎng)絡(luò)來推進(jìn)他們的自然語言處理能力。深度神經(jīng)網(wǎng)絡(luò)在許多別的在線任務(wù)中都已經(jīng)獲得了成功,例如識別照片中的人臉、識別智能電話的語音指令,人們希望這些能夠通過分析海量數(shù)據(jù)學(xué)會任務(wù)的軟件和硬件網(wǎng)絡(luò),也能夠成功學(xué)會理解語言,并以自然的方式回應(yīng)人類語言。
谷歌新開源的系統(tǒng)“SyntaxNet”使用神經(jīng)網(wǎng)絡(luò)來理解句子中的語法邏輯。神經(jīng)網(wǎng)絡(luò)可以通過分析幾百萬張貓咪照片來學(xué)會識別貓咪,同樣地,神經(jīng)網(wǎng)絡(luò)可以分析幾百萬個句子,從而學(xué)會理解語法——名詞、動詞、以及動詞如何與名詞聯(lián)系起來等等。這種方法稱為句法分析,很有用,但是也有局限性。人類必須將幾百萬個例句仔細(xì)標(biāo)記,標(biāo)出句子中的每一個部分,以及每個部分與句子剩余部分是什么關(guān)系,這樣SyntaxNet才能從數(shù)據(jù)中學(xué)習(xí)。而且,即便是機(jī)器成功學(xué)會理解一個句子的語法,它還得更進(jìn)一步才能理解一個聊天對話的完整意義。
但是,現(xiàn)在Facebook的研究人員說,他們已經(jīng)將這項頂尖技術(shù)推向了全新領(lǐng)域?!保―eepText)幫我們彌補(bǔ)了數(shù)據(jù)庫標(biāo)記的不足?!盕acebook工程總監(jiān)Hussein Mehanna說,“它有非常巨大的結(jié)構(gòu)。它可以通過無監(jiān)管的方式來學(xué)習(xí)?!睋Q句話說,F(xiàn)acebook的系統(tǒng)更多依賴數(shù)學(xué),而非語法精度。
"他們說這話的意思是,關(guān)于語言結(jié)構(gòu),他們沒有去教神經(jīng)網(wǎng)絡(luò)任何東西?!盋hris Nicholson這樣解釋道,他是深度學(xué)習(xí)創(chuàng)業(yè)公司Skymind的創(chuàng)始人,他說Facebook的研究之前已經(jīng)在一些公開研究論文中討論過了。這很重要,他補(bǔ)充說,因為這可以打造更加靈活的系統(tǒng)——系統(tǒng)可以馬上擴(kuò)展到眾多不同的情景。Facebook的系統(tǒng)可以像學(xué)英語一樣,學(xué)會法語、西班牙語——只要將語言解構(gòu),將語言看做只是數(shù)學(xué)而已。據(jù)Mehanna說,DeepText已經(jīng)能用20種不同的語言運(yùn)行了。
過去,研究人員使用仔細(xì)編碼的規(guī)則來打造自然語言引擎——這是種困難又耗時的方法。這也是蘋果打造Siri的方法。通過打造可以自主學(xué)習(xí)的系統(tǒng),谷歌和Facebook等公司希望系統(tǒng)不需要很多人類干涉,就能夠自己成長、越來越智能。不過,我們還沒實現(xiàn)這個目標(biāo)。Facebook的方法還在早期階段,而且并不是所有人都相信Facebook的系統(tǒng)真像公司說的那么好用。
Noah Smith是華盛頓大學(xué)的計算機(jī)科學(xué)家,他的專業(yè)領(lǐng)域就是自然語言理解。他說不只有Facebook想通過未經(jīng)標(biāo)記的數(shù)據(jù)實現(xiàn)理解。他說,基于Facebook的一篇近期研究論文,他不覺得公司的方法特別酷炫。不過,他和許多人都認(rèn)為,這是未來研究會探索的方向。
當(dāng)用戶聊天時出現(xiàn)以下聊天內(nèi)容,軟件會自動識別出用戶想打出租車,并出現(xiàn)叫車按鈕:“我需要打車?!薄ⅰ拔覀兇騻€車去吧?!?、“打個車。”、“叫個出租?!?、“但是我得打個車?!碑?dāng)用戶說“嗨!”、“我不需要打車?!焙汀拔蚁腧T毛驢?!钡臅r候,軟件不會出現(xiàn)叫車按鈕。圖片來源:Facebook。
Mehanna說,F(xiàn)acebook會在今年夏天發(fā)表更多關(guān)于DeepText的最新研究論文。他說,公司正在開始測試該項技術(shù),作為支持Facebook Messenger內(nèi)部聊天機(jī)器人的工具。據(jù)Mehanna說,系統(tǒng)可以在你平時跟朋友聊天的時候自動識別出你想打出租車。而且,我們有理由相信Facebook可能在此方面有一種競爭優(yōu)勢——數(shù)據(jù)。
要學(xué)會自然語言,你需要大量的自然語言——以數(shù)字化的形式。以前這是難以實現(xiàn)的。但是這對Facebook來說是小菜一碟——公司的社交媒體上,每一天都有幾百萬真實的聊天對話在發(fā)生。據(jù)Mehanna稱,人們每分鐘發(fā)布的新消息多達(dá)40萬條,而這些新消息下面,每天都會發(fā)布8千萬條評論。
對,這也就是說,F(xiàn)acebook利用自己網(wǎng)站上生成的數(shù)據(jù)來訓(xùn)練DeepText,而公司以外的研究員很難驗證公司所說的技術(shù)。不過,這個數(shù)據(jù)也至關(guān)重要?,F(xiàn)在,F(xiàn)acebook上幾乎所有的聊天都是人與人之間的進(jìn)行的。但是有了正在傾聽和學(xué)習(xí)的機(jī)器人,也許有一天,我們也會在Facebook上和機(jī)器人聊天。
Via 《連線》雜志
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。