0
本文作者: 新智駕 | 2016-11-23 23:38 |
編者按:2016 年 11 月 23 日,科大訊飛舉行了年度發(fā)布會。在會上,中國工程院院士、歐亞科學院院士、中國人工智能學會理事長李德毅作了主題為「交互認知」的演講。雷鋒網(wǎng)進行了編輯和整理(有刪減):
計算機界對計算認知了解的太多,但對交互認知了解的還不夠。
今天我想講一講交互認知。為什么要研究交互認知?我們還是從圖靈測試談起。圖靈測試本質上就是一個交互測試。
自閉癥是交互認知障礙的一種典型疾病,自閉癥就是在交互上遇到了很多困難。如果現(xiàn)在我們把人換成一個聊天機器人,把這臺機器換成一個自閉癥患者。我想問:測試者還能區(qū)分誰是人誰是機器人嗎?這就是圖靈測試的瑕疵。
我們看看這樣一個對話:你今天吃的是什么?
同樣的問題,機器人回答的不一樣。一開始它很有禮貌回答:蛋炒飯。后來它就開始解釋。如果你還一再的問它:你今天吃的是什么?它就說:「你丫有病?。 ?/p>
這體現(xiàn)了聊天人的性格,修養(yǎng)和幽默。這就叫做不確定性的交互,我們需要的不是一個「問題-回答」系統(tǒng),需要一個活生生的聊天機器人。因此我們看到聊天總是在特定的語境和語義下發(fā)生的。
在過去的半個世紀的自然語言理解當中,我們對此是不是關注了太多的語法和語構、或是語境和語用、或者是語言交互中的不確定性?
我們要研究交互,交互認知的外在表現(xiàn):如何聽說、如何看、如何感覺。聽說是語言交互,看是圖像交互,聽是體覺交互。腦認知的內(nèi)涵應該是三個:記憶認知、計算認知和交互認知,而不是一個。
我們認為研究交互和記憶是有道理的。語言可理解為對交互認知的語義標注,圖像可理解為對交互認知的情感標注,體覺可稱之為肢體語言。交互認知的度量可用情商和智商表示。
有一個著名的艾伯特定律告訴我們,語義的作用只占 7%,語言的作用占 38%,面部表情和記憶的作用要占到 55%。能不能把這些情感通過語音表現(xiàn)出來?為什么不做這樣的情感研究?語音語調是情感的流露,是言外之意。
因此,我們強調做一個好的機器人,首先要有交互能力。
交互認知的不確定性包括:交互觸發(fā)的瞬間性、交互方式的隨意性、交互內(nèi)容的未知性。這就要求我們把不確定性人工智能研究好。不確定性人工智能要在看似瞬間性隨意性和未知性中,發(fā)現(xiàn)交互認知的基本規(guī)律性,又能體現(xiàn)不確定性的魅力。
與聽覺,觸覺等相比,視覺主導著我們的情感知覺,并影響我們的思維方式。因此,生物視覺圖像交互的情感表達,成為交互認知的核心。
圖靈測試有一個漏洞。如果被測試的一方支支吾吾保持沉默或主動插話介入,就可能顛覆測試者的主導地位,也很難區(qū)分到底對方是人還是機器人,再次暴露出圖靈測試的瑕疵。圖靈測試原本是測試對方是否具有人的智能。如果圖靈測試的漏洞被多次利用,圖靈測試就轉化為比拼測試雙方誰更睿智的問題,不在乎雙方是生物人還是機器人。
因為這個漏洞,我們開始研究交互認知,研究如何突破圖靈測試的漏洞。
對話是最直接最便捷的交互,是幾乎所有服務機器人的必備,可否把對話機器人作為研究交互認知的突破口?
聊天是淺層次,短時長的對話,也是最通用的對話,聊天也許是在講廢話,但可帶來親和感,在社交生活中不可或缺,不會聊天的對話機器人太乏味。所以,交互認知可從研發(fā)「互聯(lián)網(wǎng)+對話機器人」開始。
從對話的語境和語用入手;
優(yōu)先考慮情感交互;
強調純凈感,交互感和構想感;
關注交互認知環(huán)境中的選擇性注意;
研究不確定性交互認知中的客觀性,普遍性和積極意義,尋找不確定性中的基本確定性。
對話是所有服務機器人繞不過去的坎。對話機器人自身是活生生的認知主體,不是一個刻板的「問題——回答」系統(tǒng)。充滿不確定性和變通,有情感和語言交互能力。我們需要聊天的機器人。利用云模型的不確定性研發(fā)對話機器人。
對話機器人的形式化約束有:
特定的對話背景;
對話雙方是有個性的機器人;
用動畫體現(xiàn)情感交互語音交互和文字交互,話題情感性格等不確定性。
隨著對話的深入,不確定性會大幅度降低。所以我們提出不要老是關注語義和語構,我們現(xiàn)在要關注應用和語境。在這種情況下,我們要研發(fā)對話引擎。
基于檢索搜索引擎生成可選到答句集;
借用機器翻譯技術潤色答句,保持個性。
有社交的技巧背后是與特定的語用相關。舉個例子,一大早睡覺被吵醒,聽到樓下有人大喊:
「打死,打死,往死里打!」
「反了,反了,反了你。」
怎么去理解這個語義?到窗戶一看,原來是正在指揮倒車。所以我說要研究語用和語境,重視語境和語用。不要老是停留在語義和語構里。說話人的身份、年齡、對話和時間與用語語調、用語習慣,都很重要。
對話一般是兩個人的,實際上,還要研究三人對話多人對話和復雜系統(tǒng)涌現(xiàn)中的交互認知。
2006 年,我們研究過掌聲之間的交互。人們有過這樣不常有的生活經(jīng)歷:音樂廳音樂廳里有一個精彩的節(jié)目結束后,觀眾會爆發(fā)出雷鳴般的掌聲在很短的時間內(nèi),這種嘈雜的掌聲會突然轉變成有節(jié)奏的掌聲,似乎有一股神秘的力量驅使觀眾一致的鼓掌,這是一個典型的復雜系統(tǒng)交互認知導致的自組織同步現(xiàn)象。
一個值得警示的現(xiàn)象:如果連淺層次、短時長的對話機器人的交互認知都做不好,如果機器人不具備最基本的語音交互,圖像交互和體感交互能力,中國的服務機器人產(chǎn)業(yè)就跳不出同質化,玩具化低端化的怪圈。高開低走,只能把服務機器人行業(yè)推入血腥的紅海。
協(xié)商包括:協(xié)商達成共識、協(xié)商達成一定程度的共識以及沒有共識,但知曉了對方的認知力與下一次交互。共識是交互認知的結果,是認知主體,任何一方單獨進行計算或推理,無法得出的新的認知,是計算認知記憶認知替代不了的。
學習包括:一方可從另一方獲得新的認知、學習是相互的。人類社交活動中的交互認知,以及人和自然自然人機器人之間的交互認知,大大擴展了三個人一群人,乃至整個人類的智能。
案例一:
機器人來到一扇門前問,這門怎么開?
作為物聯(lián)網(wǎng)的終端門答:我是一個滑動門。
案例二:智能駕駛中的交互認知
智能駕駛中的交互認知非常重要。
比如無人車上路,老百姓覺得它是幽靈,不敢乘坐,因為它沒有交互。駕駛員的環(huán)境和周邊車輛群體的交互認知。每一個司機都認為是最合理的,在客觀上就會造成一個交通擁堵。這就是交互認知的結果。
再比如,兩輛人駕車和多輛帶有自動駕駛模式的車混合行駛,由于自動駕駛模式缺少交互認知能力,受到人駕車干擾,預設的自動駕駛門檻立馬崩潰,幾乎全部轉為人工駕駛。所以我把它叫做:自動駕駛亦或是個陷阱。
怎么辦?我們要讓智能車成為可交互的輪式機器人:它是一個認知主體,有一個駕駛腦,同時我們還允許雙駕雙控。我們允許駕駛位上,可以有駕駛員或者可空缺。
與程序調試,試驗和維護人員、與乘客、與執(zhí)勤交警有交互,如果這樣的車不能做到與人之間的交互,那怎么能成一個產(chǎn)品?所以要讓智能車成為可交互的輪式機器人。交互認知是非常重要的。
移動互聯(lián)網(wǎng)的終端已經(jīng)從 PC 轉變?yōu)槭謾C,進而轉變?yōu)闄C器人,在機器人聯(lián)網(wǎng)的時代,人工智能是否應該更多地關注交互認知?研究人與人、人與機器人、機器人與機器人或者混合的認知主體之間的交互認知。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。