1
本文作者: 趙青暉 | 2016-12-05 22:27 |
機(jī)器會思考嗎?如果可以,機(jī)器能思考之后會跟人類的交互真的會更加順暢嗎?除了思想和語言能力之外,機(jī)器還需要達(dá)到什么樣的能力才能與人交互更加自然有序?
從上個世紀(jì)中葉“讓機(jī)器去思考”這個概念被提出之后,研究者們都一齊向這個方向努力著,從最初的個人電腦到如今的AI熱,讓機(jī)器理解人類并與人類交互的研究熱度在當(dāng)下的研究環(huán)境中已經(jīng)達(dá)到了空前的巔峰,多數(shù)研究者不顧“機(jī)器人威脅論”也要研究如何讓機(jī)器人能夠更好的理解人類的行為,因為這種研究帶來的除了“威脅”之外還有更多的益處。
今日,Siggraph Asia 2016亞洲電腦圖像和互動技術(shù)展覽及會議在澳門舉行,南洋理工大學(xué)電腦工程和設(shè)計學(xué)院的教授Nadia Thalmann在會議上為大家做了一次“社交機(jī)器人及虛擬人類的行為建?!睘橹黝}的演講,在演講中她提到了社交機(jī)器人及虛擬人物在社會環(huán)境中與人互動所需要的挑戰(zhàn),以及能給人類帶來什么等等問題。
說起Nadia Thalmann教授很多雷鋒網(wǎng)關(guān)注機(jī)器人的老讀者應(yīng)該都不陌生,今年年初的時候,她照著自己的樣子研發(fā)了一款仿真機(jī)器人,并因此而聞名。這個類人機(jī)器人名叫Nadine,在當(dāng)時,Nadia表示這款機(jī)器人主要用于社交用途,是為了陪伴老人和兒童而生,未來也許可以解決由人口老齡化引起的勞動人口緊縮的問題。在這次的Siggraph Asia 2016上,Nadia Thalmann仍然大量的使用了Nadine作為演講實例。
目前對于社交機(jī)器人來說,更多的研究都集中在“讓機(jī)器人如何理解人類的語言”方面,這也是Nadine與這些機(jī)器人不同的地方,Nadine的研究方向是,除了能讓她理解人類的語言并和人類交流之外,還會有自己的表情和動作,并且這些表情和動作能夠表達(dá)她的情緒,同時,她也能夠通過識別人類的表情和動作來理解人類的情緒。這樣就大大的增加了機(jī)器人在社會環(huán)境中與人互動的能力。
在演講中,Nadia Thalmann教授為大家播放了一段視頻,演示了Nadine在與人交流過程中的動作識別和交流上的交互。
從視頻中可以看出,在動作方面,比如人在她面前丟了一本書,她就會立即做出反應(yīng),并告知人類:“你掉了一個東西(something)”,不過目前她也只能識別出這個動作本身,至于動作的內(nèi)容(別如識別掉落的物體)她并不能進(jìn)行識別。
而在語言方面,人類與其對話時,表現(xiàn)出不友好的一面,比如用粗俗的語言跟她對話,她也不會像Siri一樣機(jī)械地進(jìn)行回答,而是會情緒化的對人類語言進(jìn)行“反擊”,并“怒目而視”。
Nadia Thalmann說,對于機(jī)器人來說,給它加入動作識別及功能是非常重要的,因為一個真正的社交機(jī)器人應(yīng)該能理解用戶的行為,并用以手勢、面部表情、目光等動作加以回應(yīng)。
要達(dá)到以上的目標(biāo)是非常難的,所以,Nadia Thalmann也在會上提出了社交機(jī)器人未來研發(fā)的三點挑戰(zhàn):
讓機(jī)器能夠全面的感知用戶的行為,并對用戶的行為進(jìn)行解釋分析,理解用戶的意圖。
做好利用局部傳感讓機(jī)器人在社交場合做出適合當(dāng)時環(huán)境、語境的行為決策,而不是機(jī)械般的程式化。
多線交流(不只是和一個人對話,而是多人環(huán)境)的同步以及反映的實時性的提升。
這些研究重點將在未來會一一實現(xiàn),目前Nadine機(jī)器人只能有二十多種表情,而且能夠識別的動作也有限,并且只能使用類似Kincet的體感設(shè)備來感知人的動作,未來在傳感器等硬件方面還會有很大的提升空間。為了能夠早日完成以上有挑戰(zhàn)的研究點,Nadia Thalmann以及她的研究團(tuán)隊做出了一些具體的任務(wù)規(guī)劃,來逐步完成:
第一階段:讓機(jī)器人能夠和人類對話并對人類的生活方面的某些數(shù)據(jù)進(jìn)行長期監(jiān)測。它能夠幫用戶做一些簡單的事情,并且根據(jù)你的行為特征來分析一些對用戶自身有意義的數(shù)據(jù),比如健康信息,并且這些信息會嵌入到智能系統(tǒng)當(dāng)中,當(dāng)機(jī)器人跟你進(jìn)行對話時就會將這些信息透露給你,舉個例子,當(dāng)你連續(xù)工作好幾天,沒有得到正常的休息,機(jī)器人就會提醒你:你已經(jīng)很久沒睡了,應(yīng)該休息一下。
第二階段:在第一階段的基礎(chǔ)上增添多模式交互的框架,該框架能夠使機(jī)器人能夠完全理解用戶的語言,并且在于人類聊天的時候,能夠進(jìn)行面部表情、手勢等外部語言輔助的表達(dá),并能夠識別人類的表情和手勢。
第三階段:有獨立的思想和情感,能夠基于人格和人類進(jìn)行情感交互,比如能夠有信任、同情等這類的抽象情感,并且能幫助人類解決更高級的問題,能提出更具有說服力的決策意見,成為你生活中完全的助手。
這樣的目標(biāo)量化對于完成真正的類人機(jī)器人的目標(biāo)目前看起來貌似是可行的,在這其中就要做很多細(xì)致的工作,比如從外觀開始做,研究一些適合機(jī)器人的3D打印項目,來給機(jī)器人做基礎(chǔ);還有仿生科技的研究,能夠讓機(jī)器人的行為舉止不至于傾向“恐怖谷”,要更加的自然。以上屬于外觀的建模,除此之外還需要給機(jī)器人做情緒建模,這方面就復(fù)雜的多,涉及的知識點異常龐雜。
但拎出外觀或者內(nèi)核都不是最難的,其中最難點,也就是Nadia Thalmann她們正在研究的,是如何將二者完美的結(jié)合,讓其語言和動作進(jìn)行一個自然的交互狀態(tài),這才是類人機(jī)器人未來發(fā)展的關(guān)鍵所在。機(jī)器人真的達(dá)到第三階段能夠?qū)θ祟愑卸啻蟮膸椭€不太好說,但一定能給人類的生活帶來翻天覆地的變化。
相關(guān)文章:
朋克學(xué)術(shù)大牛上演“換頭術(shù)”,原來深度學(xué)習(xí)還能這樣玩!(附論文下載)|SIGGRAPH ASIA 2016
這是一個除了有PPT,還有電影看的神奇會議|SIGGRAPH Asia 2016第一天亮點指南
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。