丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
國際 正文
發(fā)私信給亞萌
發(fā)送

2

在難一點的圖靈測試面前,聊天機器人就開始自我暴露了

本文作者: 亞萌 2016-07-19 20:10
導語:讓計算機理解我們,還有很長的一段路要走。

在難一點的圖靈測試面前,聊天機器人就開始自我暴露了

用戶: Siri,幫我叫救護車。

Siri: 好的,從現(xiàn)在開始我會叫你“救護車”。

在2011年Siri初次面世的時候,蘋果公司很快修復了這個錯誤。但是一個新的競賽顯示出,計算機仍然缺乏基本的常識來避免這種令人尷尬的混淆。

這個競賽名為“威諾格拉德模式挑戰(zhàn)賽”(Winograd Schema Challenge),是圖靈測試的一個變種,由加拿大多倫多大學的計算機科學家赫克托·萊維斯克(Hector Levesque)發(fā)起,挑戰(zhàn)賽的名字是為了向特里·威諾格拉德(Terry Winograd)教授致敬,他是斯坦福大學的一位教授,人工智能領域的開拓者。

在難一點的圖靈測試面前,聊天機器人就開始自我暴露了

左圖為:赫克托·萊維斯克,右圖為:特里·威諾格拉德

60多年來,研究人員一直使用圖靈測試來評估機器仿人思考的能力,但是這個針對人工智能的評判標準太老舊了,很多舊版圖靈測試的題目太過簡單,而不能真正測試出計算機的智能水平,急需更新?lián)Q代。始于2014年的“威諾格拉德模式挑戰(zhàn)賽”針對圖靈測試進行改進,要求人工智能回答關于語句理解的一些常識性問題。

比如挑戰(zhàn)賽中,有這么一道測試題“市議員們拒絕示威者的游行許可,因為他們害怕暴力”,普通人類一眼望去,就會根據(jù)上下文判斷出這句話清晰的邏輯,然而對于計算機來說,就很難弄清楚這里的“他們”指的是誰,是市議員們呢?還是示威者呢?

在難一點的圖靈測試面前,聊天機器人就開始自我暴露了

一個典型的“威諾格拉德模式挑戰(zhàn)賽”的題面包括以下幾個關鍵部分:

首先,具有同類語義的兩個名詞(本題里指的是:市議員們和示威者 )

第二,有一個指代以上兩個名詞的模糊代詞(本題里指的是:他們)

第三,有一個特別的單詞,當這個單詞被換成另外一個單詞時,那么模糊代詞的意義就會改變(本題里,如果把“害怕”換成“主張”,那么句子里的“他們”的意思就會發(fā)生改變)

然后,計算機需要回答的問題就是:這個具有模糊含義的代詞指的是什么,并給出兩個選項讓計算機選擇。所以計算機面臨的就是一個二選一的問題。

按統(tǒng)計過的概率來說,就算胡亂選擇,答對題目的準確率是45%,然而這次計算機真實的比賽結果是:最好的成績是48%。所以,計算機經(jīng)過謹慎的“思考”得出的準確率,比人蒙著眼睛隨便選的準確率才高出那么一點點,這不得不令人唏噓。

成績最好的兩支隊伍,一個由來自中國科學技術大學的劉權帶領,另一支隊伍由塞浦路斯開放大學的Nicos Issak帶領。

這個挑戰(zhàn)賽的獎金高達25,000美金,但是要拿到這個獎金,準確率必須要達到90%以上。所以就算是成績最好的兩個隊伍也與獎金無緣了。

在難一點的圖靈測試面前,聊天機器人就開始自我暴露了

本次競賽的顧問之一,紐約大學的心理學家 Gary Marcus說:“機器的成績只比隨機選擇好一點點,這并不出乎我的預料?!蹦鞘且驗椋x予計算機以常識極其困難。手動編碼輸入這些知識需要花費的時間不可想象,而且用數(shù)據(jù)統(tǒng)計的方法來學習真實世界的知識對于計算機來說也十分困難。這次挑戰(zhàn)賽的很多計算機,都是試圖將手動編碼的語法理解與基本的現(xiàn)實知識相結合。

另外,人們明顯發(fā)現(xiàn),谷歌和Facebook并沒有參加這次的活動,而這些公司的研究人員已經(jīng)多次暗示了他們在自然語言理解方面已經(jīng)取得了非常大的進展?!斑@兩家公司本可以隨意跳著華爾茲進場,并取得100%正確率的成績,再得意地向世人炫耀。但如果是那樣的結果的話,我也會非常震驚的。”Marcus說道。

谷歌、Facebook、亞馬遜和微軟這些大公司的研究人員正在將他們的注意力轉向自然語言理解。他們使用最新的機器學習方法,尤其是“深度學習”神經(jīng)網(wǎng)絡來開發(fā)更加聰明、更加敏銳的聊天機器人和個人助手。實際上,隨著聊天機器人和語音助理變得越來越普遍,伴隨著在圖像和語言識別領域取得的巨大進展,人們很容易產(chǎn)生機器在理解語言方面已經(jīng)十分厲害的錯覺。然而真實的情況并不令人樂觀,至少這次比賽的結果并不令人滿意。

本次競賽最優(yōu)秀的兩支隊伍都使用了最前沿的機器學習方法。劉權的隊伍,囊括了來自多倫多紐約大學和加拿大國家研究院諸多的研究人員,使用深度學習來訓練計算機識別兩次事件之間的關系,例如,從幾千篇文章里學習“打籃球”、“游泳”和“受傷”之間的關系。賽后,劉權的隊伍聲稱在修補系統(tǒng)解析競賽問題的一個漏洞之后,準確率可以達到60%,而來自主辦方的 Leora Morgenstern表示,就算這一結果被證實,仍然比人類的準確率低很多。

這次競賽結果透露出來的訊息非常重要?!爱斎斯ぶ悄荛_始支持對話的時候,這些問題就會暴露出來。比如,如果購物的時候我說,‘我想要給我的吉他買一個箱子,所以它必須得很結實’,那這里的‘它’指的是箱子呢,還是吉他呢?”,Charlie Ortiz說道,他是Nuance公司的高級研究員,這家公司專門從事語音識別軟件、圖像處理軟件的研發(fā)和銷售工作。

隨著智能家居設備和可穿戴產(chǎn)品會變得越來越普遍,常識推理將會變得越來越重要。Marcus說道:”當你詢問自己的手表時,你不希望這時它提供50個選項,讓你滑動屏幕進行選擇。而當你開始與你的車和手表展開對話時,你希望免去打字的繁瑣,得到一系列有內在聯(lián)系的交流對話,人們會很自然地反復提及之前說到的內容,就會經(jīng)常出現(xiàn)模糊指代,而這就是計算機亟待解決的問題。“

讓計算機理解我們,還有很長的一段路要走。

Via MIT Technology Review

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

關注人工智能(AI)報道
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說