Facebook機(jī)器人理解自然語言，技術(shù)趕超谷歌SyntaxNet

本文作者： AI科技評論

2016-06-02 16:30

導(dǎo)語：Facebook訓(xùn)練神經(jīng)網(wǎng)絡(luò)有天然優(yōu)勢，社交網(wǎng)站上每天產(chǎn)生海量聊天數(shù)據(jù)。

圖片來源：Getty Images。

先是微軟、然后Facebook、現(xiàn)在是谷歌。又一次，互聯(lián)網(wǎng)巨頭們將目光聚焦在了同一個未來趨勢上：聊天機(jī)器人。

這些公司許諾說，在未來的幾個月和幾年內(nèi)，你可以像跟朋友聊天一樣，與互聯(lián)網(wǎng)服務(wù)商聊天。聊天機(jī)器人會即時回復(fù)你的提問、回應(yīng)你的需求，甚至預(yù)測你的需求。跟老同學(xué)聊天約聚會的時候，你可以讓OpenTable機(jī)器人找找有什么餐廳好吃。不用另外打開一個APP，你就能用Travelocity機(jī)器人訂酒店。

不過，還有一個關(guān)鍵問題沒有解決：打造一個真的可以聊天的聊天機(jī)器人。機(jī)器人可以以某些方式來模擬聊天，但是距離真正理解人們聊天的方式，還有很大的差距。上個月底，為了推動這方面AI技術(shù)的進(jìn)步——并且與競爭對手爭搶公關(guān)眼球——谷歌開源了SyntaxNet，公司自然語言理解技術(shù)所使用的工具之一（開源分享可以讓更多的人來推動技術(shù)進(jìn)步）?，F(xiàn)在，為了不被超越，F(xiàn)acebook展示了自己的一項重要技術(shù)，一個稱為DeepText的自然語言引擎。

Facebook還沒有將這項技術(shù)開源。而且，公司也才剛剛開始在自己各項服務(wù)中使用DeepText。但是據(jù)Facebook稱，DeepText讓人們看到公司希望在未來加速自然語言理解的進(jìn)展。為了打造系統(tǒng)，他們希望少一點依賴人類，多一點依賴數(shù)據(jù)——互聯(lián)網(wǎng)上的海量數(shù)據(jù)。

理解萬歲

谷歌和Facebook都在使用深度神經(jīng)網(wǎng)絡(luò)來推進(jìn)他們的自然語言處理能力。深度神經(jīng)網(wǎng)絡(luò)在許多別的在線任務(wù)中都已經(jīng)獲得了成功，例如識別照片中的人臉、識別智能電話的語音指令，人們希望這些能夠通過分析海量數(shù)據(jù)學(xué)會任務(wù)的軟件和硬件網(wǎng)絡(luò)，也能夠成功學(xué)會理解語言，并以自然的方式回應(yīng)人類語言。

谷歌新開源的系統(tǒng)“SyntaxNet”使用神經(jīng)網(wǎng)絡(luò)來理解句子中的語法邏輯。神經(jīng)網(wǎng)絡(luò)可以通過分析幾百萬張貓咪照片來學(xué)會識別貓咪，同樣地，神經(jīng)網(wǎng)絡(luò)可以分析幾百萬個句子，從而學(xué)會理解語法——名詞、動詞、以及動詞如何與名詞聯(lián)系起來等等。這種方法稱為句法分析，很有用，但是也有局限性。人類必須將幾百萬個例句仔細(xì)標(biāo)記，標(biāo)出句子中的每一個部分，以及每個部分與句子剩余部分是什么關(guān)系，這樣SyntaxNet才能從數(shù)據(jù)中學(xué)習(xí)。而且，即便是機(jī)器成功學(xué)會理解一個句子的語法，它還得更進(jìn)一步才能理解一個聊天對話的完整意義。

但是，現(xiàn)在Facebook的研究人員說，他們已經(jīng)將這項頂尖技術(shù)推向了全新領(lǐng)域?！保―eepText）幫我們彌補(bǔ)了數(shù)據(jù)庫標(biāo)記的不足?！盕acebook工程總監(jiān)Hussein Mehanna說，“它有非常巨大的結(jié)構(gòu)。它可以通過無監(jiān)管的方式來學(xué)習(xí)?！睋Q句話說，F(xiàn)acebook的系統(tǒng)更多依賴數(shù)學(xué)，而非語法精度。

"他們說這話的意思是，關(guān)于語言結(jié)構(gòu)，他們沒有去教神經(jīng)網(wǎng)絡(luò)任何東西?！盋hris Nicholson這樣解釋道，他是深度學(xué)習(xí)創(chuàng)業(yè)公司Skymind的創(chuàng)始人，他說Facebook的研究之前已經(jīng)在一些公開研究論文中討論過了。這很重要，他補(bǔ)充說，因為這可以打造更加靈活的系統(tǒng)——系統(tǒng)可以馬上擴(kuò)展到眾多不同的情景。Facebook的系統(tǒng)可以像學(xué)英語一樣，學(xué)會法語、西班牙語——只要將語言解構(gòu)，將語言看做只是數(shù)學(xué)而已。據(jù)Mehanna說，DeepText已經(jīng)能用20種不同的語言運(yùn)行了。

聊啊聊

過去，研究人員使用仔細(xì)編碼的規(guī)則來打造自然語言引擎——這是種困難又耗時的方法。這也是蘋果打造Siri的方法。通過打造可以自主學(xué)習(xí)的系統(tǒng)，谷歌和Facebook等公司希望系統(tǒng)不需要很多人類干涉，就能夠自己成長、越來越智能。不過，我們還沒實現(xiàn)這個目標(biāo)。Facebook的方法還在早期階段，而且并不是所有人都相信Facebook的系統(tǒng)真像公司說的那么好用。

Noah Smith是華盛頓大學(xué)的計算機(jī)科學(xué)家，他的專業(yè)領(lǐng)域就是自然語言理解。他說不只有Facebook想通過未經(jīng)標(biāo)記的數(shù)據(jù)實現(xiàn)理解。他說，基于Facebook的一篇近期研究論文，他不覺得公司的方法特別酷炫。不過，他和許多人都認(rèn)為，這是未來研究會探索的方向。

Facebook機(jī)器人理解自然語言，技術(shù)趕超谷歌SyntaxNet

當(dāng)用戶聊天時出現(xiàn)以下聊天內(nèi)容，軟件會自動識別出用戶想打出租車，并出現(xiàn)叫車按鈕：“我需要打車?！薄ⅰ拔覀兇騻€車去吧?！?、“打個車。”、“叫個出租?！?、“但是我得打個車?！碑?dāng)用戶說“嗨！”、“我不需要打車?！焙汀拔蚁腧T毛驢?！钡臅r候，軟件不會出現(xiàn)叫車按鈕。圖片來源：Facebook。

Mehanna說，F(xiàn)acebook會在今年夏天發(fā)表更多關(guān)于DeepText的最新研究論文。他說，公司正在開始測試該項技術(shù)，作為支持Facebook Messenger內(nèi)部聊天機(jī)器人的工具。據(jù)Mehanna說，系統(tǒng)可以在你平時跟朋友聊天的時候自動識別出你想打出租車。而且，我們有理由相信Facebook可能在此方面有一種競爭優(yōu)勢——數(shù)據(jù)。

要學(xué)會自然語言，你需要大量的自然語言——以數(shù)字化的形式。以前這是難以實現(xiàn)的。但是這對Facebook來說是小菜一碟——公司的社交媒體上，每一天都有幾百萬真實的聊天對話在發(fā)生。據(jù)Mehanna稱，人們每分鐘發(fā)布的新消息多達(dá)40萬條，而這些新消息下面，每天都會發(fā)布8千萬條評論。

對，這也就是說，F(xiàn)acebook利用自己網(wǎng)站上生成的數(shù)據(jù)來訓(xùn)練DeepText，而公司以外的研究員很難驗證公司所說的技術(shù)。不過，這個數(shù)據(jù)也至關(guān)重要?，F(xiàn)在，F(xiàn)acebook上幾乎所有的聊天都是人與人之間的進(jìn)行的。但是有了正在傾聽和學(xué)習(xí)的機(jī)器人，也許有一天，我們也會在Facebook上和機(jī)器人聊天。

Via 《連線》雜志

Facebook機(jī)器人理解自然語言，技術(shù)趕超谷歌SyntaxNet