0
本文作者: 劉琳 | 2020-06-09 11:02 |
第一次使用手機語音助手的時候,它總是會在我興沖沖地問一個問題之后,令人失望地回答一句:“我好像聽不懂你在說什么……”
后來技術(shù)演進(jìn),它終于能夠通過我的一些關(guān)鍵詞,聽懂我說什么了。但一板一眼,一字一句,程式化十足。
不可否認(rèn),人工智能正在變得越來越“聰明”,也越來越貼近人類,未來它會是什么樣子呢?
近日,清華由清華大學(xué)人工智能研究院、北京智源人工智能研究院和清華-中國工程知識智能聯(lián)合研究中心發(fā)布了《人工智能之人機交互》報告(以下簡稱《報告》),《報告》梳理了其概念定義和發(fā)展歷程,重點研究了主要技術(shù)的發(fā)展情況、領(lǐng)域?qū)<椰F(xiàn)狀和應(yīng)用領(lǐng)域,并探討了人機交互未來發(fā)展趨勢。
如果您想獲得本報告的全文pdf,請在雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))回復(fù)關(guān)鍵詞“609報告”提取。
文檔來源:清華大學(xué)人工智能研究院
人機交互(Human-Computer Interaction, HCI),作為一個術(shù)語,首次使用是在由 Stuart K. Card,Allen Newell 和 Thomas P. Moran 撰寫的著作“The Psychology of Human-Computer Interaction”里,它是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學(xué)問。系統(tǒng)可以是各種各樣的機器,也可以是計算機化的系統(tǒng)和軟件。
人機交互界面通常是指用戶可見的部分,用戶通過人機交互界面與系統(tǒng)交流,并進(jìn)行操作。人機交互技術(shù)是計算機用戶界面設(shè)計中的重要內(nèi)容之一,它與認(rèn)知學(xué)、人機工程學(xué)、心理學(xué)等學(xué)科領(lǐng)域有密切的聯(lián)系。
人機交互技術(shù)的發(fā)展與國民經(jīng)濟發(fā)展有著直接的聯(lián)系,它是使信息技術(shù)融入社會、深入群體,達(dá)到廣泛應(yīng)用的技術(shù)門檻。任何一種新交互技術(shù)的誕生,都會帶來其新的應(yīng)用人群、新的應(yīng)用領(lǐng)域,帶來巨大的社會經(jīng)濟效益。
從企業(yè)的角度, 改善人機交互能夠提高員工的生產(chǎn)效率,學(xué)習(xí)人機交互能夠降低產(chǎn)品的后續(xù)支持成本。
在個人的角度,可以幫助用戶有效地降低錯誤發(fā)生的概率,避免由于錯誤引發(fā)的損失。
在現(xiàn)代和未來的社會里,只要有人利用通信、計算機等信息處理技術(shù)進(jìn)行社會活動,人機交互都是永恒的主題,鑒于它對科技發(fā)展的重要性,人機交互是現(xiàn)代信息技術(shù)、人工智能技術(shù)研究的熱門方向。
過去的幾十年間,人機界面經(jīng)歷了從命令行界面到圖形用戶界面兩個主要發(fā)展階段的演變;近年來,人機界面的發(fā)展越來越強調(diào)交互的自然性,即用戶的交互行為與其生理和認(rèn)知的習(xí)慣相吻合,隨之出現(xiàn)的主要的交互界面形式為觸摸交互界面和三維交互界面。
命令行界面
基于命令行界面(Command-line Interface, CLI),用戶使用鍵盤按照一定的規(guī)則輸入字符,以形成可供機器識別的命令和參數(shù),并觸發(fā)計算機進(jìn)行執(zhí)行。
其優(yōu)點是由于鍵盤輸入相對較高的準(zhǔn)確率,以及幾乎不需要冗余的操作,所以熟練的用戶可以達(dá)到非常高的交互效率,同時,通過規(guī)則的設(shè)計,命令行界面也能支持豐富靈活的指令形式。
命令行界面的缺點在于交互非常不直觀,由于機器命令與自然語言的構(gòu)造規(guī)則往往相去甚遠(yuǎn),所以用戶需要記憶大量的指令,有時甚至需要具備計算機領(lǐng)域的專業(yè)知識和技能,才能達(dá)到較高的使用效率。這對 于新手用戶而言大大提升了學(xué)習(xí)成本,也顯著影響了普通用戶使用命令行界面時的體驗。
圖形用戶界面
圖形用戶界面一般包括窗口(Window)、 圖標(biāo)(Icon)、菜單(Menu)和指針(Pointer)這四類主要的交互元素。用戶通過控制指針來對窗口、圖標(biāo)和菜單等顯示元素進(jìn)行指點(Pointing)操作,從而 完成交互任務(wù)。廣義的圖形用戶界面泛指一切用圖形表征程序命令和數(shù)據(jù)的界面系統(tǒng),但在狹義上,圖形用戶界面一般指個人電腦(PC)上的二維 WIMP 界面。 此時,用戶與界面交互的設(shè)備一般是鍵盤和鼠標(biāo)。
圖形用戶界面的一大優(yōu)勢是擺脫了抽象的命令,通過利用人們與物理世界交互的經(jīng)驗來與計算機交互,從而顯著降低了用戶的學(xué)習(xí)和認(rèn)知成本。然而,由于圖形用戶界面的基本操作是指點, 即用戶需要使用指針來選擇交互目標(biāo),因而其往往對用戶指點操作的精度有較高的要求。此外,由于鼠標(biāo)設(shè)備所在的控制域(Motor Space)與界面顯現(xiàn)的顯示域(Visual Space)是分離的,因而用戶需要對目標(biāo)進(jìn)行間接的交互操作(Indirect Manipulation),從而更加增加了交互的難度。
觸摸交互界面
觸摸交互界面一般包括頁面 (Page)、控件(Widget)、圖標(biāo)(Icon)和手勢(Gesture)這四類主要的交互元素。用戶通過觸摸、長按、拖拽等方式直接操控手指接觸的目標(biāo),或者通過繪制手勢的方式觸發(fā)交互指令。
目前,觸摸界面主要存在于智能手機和可穿戴設(shè)備(如智能手表)等設(shè)備上。觸摸交互界面的優(yōu)勢是充分利用了人們觸摸物理世界中物體的經(jīng)驗 ,將間接的交互操作轉(zhuǎn)化為直接的交互操作 ( Direct Manipulation),從而在保留了一部分觸覺反饋的同時,進(jìn)一步降低了用戶的學(xué)習(xí)和認(rèn)知成本。
然而,觸摸操作受困于著名的“胖手指問題”,即由于手指本身的柔軟,以及手指點擊時對于屏幕顯示內(nèi)容的遮擋,在觸屏上點擊時往往難以精確地控制落點的位置,輸入信號的粒度遠(yuǎn)遠(yuǎn)低于交互元素的響應(yīng)粒度。同時,由于觸摸交互界面的形態(tài)仍然為二維界面,所以這限制了一些與三維交互元素的交互操作。
三維交互界面
用戶一般通過身體(如手部或身體關(guān)節(jié))做出一些動作(如 空中的指點行為,或者肢體的運動軌跡等),以與三維空間中的界面元素進(jìn)行交互,計算機通過捕捉用戶的動作并進(jìn)行意圖推理,以觸發(fā)對應(yīng)的交互功能。
目前, 三維交互界面主要存在于體感交互、虛擬現(xiàn)實、增強現(xiàn)實等交互場景中。
三維交互界面的優(yōu)勢是進(jìn)一步突破了二維交互界面的限制,將交互擴展到三維空間中。 因此,用戶可以按照與物理世界中相同的交互方式,與虛擬的三維物體進(jìn)行交互,從而進(jìn)一步提升交互自然度,降低學(xué)習(xí)成本。
不過,三維交互的挑戰(zhàn)在于由于完全缺乏觸覺反饋,所以用戶動作行為中的噪聲相對較大,而且交互動作與身體的自然運動較難區(qū)分,因而輸入信號的信噪比相對較低,較難進(jìn)行交互意圖的準(zhǔn)確推理,限制了交互輸入的準(zhǔn)確度。
此外,由于相對于圖形用戶界面和觸摸交互界面,動作交互的幅度一般較大,所以交互的效率也較低,同時更容易讓用戶感到疲勞。
目前,人機交互技術(shù)主要發(fā)展方向包括以下幾個類別:
觸控交互、聲控交互、動作交互、眼動交互、虛擬現(xiàn)實輸入、多模式交互以及智能交互等。
顯示器從僅向用戶輸出可視信息到成為一種交互界面裝置主要是歸因于觸控功能與顯示器的一體化模式,尤其是在移動裝置上的使用。
目前有四種技術(shù)方式能實現(xiàn)觸控交互。
電阻式觸控技術(shù)
電阻觸摸屏通過壓力感應(yīng)原理來實現(xiàn)對屏幕進(jìn)行操作和控制。當(dāng)手指觸摸屏幕時,薄膜下層的 ITO 會和玻璃上層的 ITO 有一個接觸點,在 X 軸方向就其中 一面導(dǎo)電層導(dǎo)通了 5V 均勻電壓場,此時采樣得到的電壓由零變?yōu)橐粋€正電壓值, 感應(yīng)器檢測到電壓導(dǎo)通,傳出相應(yīng)的電信號,進(jìn)行模/數(shù)轉(zhuǎn)換,最終將轉(zhuǎn)換后的 電壓值與 5V 相比,即可計算出觸摸點的 X 軸坐標(biāo)值。同理可以計算出 Y 軸的 坐標(biāo)值,這樣就完成了點選的動作,并呈現(xiàn)在屏幕上。
電容式觸控技術(shù)
當(dāng)手指觸摸電容式觸摸屏?xí)r,在工作面接通高頻信號,此時手指與觸摸屏工 作面形成一個耦合電容,這相當(dāng)于導(dǎo)體,因為工作面上有高頻信號,手指觸摸時在觸摸點吸走一個小電流,這個小電流分別從觸摸屏的四個角上的電極流出,流經(jīng)四個電極的電流與手指到四角的直線距離成比例,控制器通過對四個電流比例 的計算,即可得出接觸點坐標(biāo)值。
紅外觸控技術(shù)
當(dāng)手指觸摸屏幕時,紅外光線將被阻斷,依次選通紅外發(fā)射管及其對應(yīng)的紅外接收管,在屏幕上方形成一個紅外線矩陣平 面,從而致使紅外接收端的電壓產(chǎn)生變化,紅外接收端的電壓經(jīng)過 A/D 轉(zhuǎn)換送達(dá)控制端,控制端將據(jù)此進(jìn)行計算得出觸摸位置。
表面聲波觸控技術(shù)
表面聲波式觸摸屏主要依靠安裝在強化玻璃邊角上的超聲波換能器來實現(xiàn)觸摸控制的。當(dāng)手指觸摸顯示屏?xí)r,手指阻擋了一部分聲波能量的傳播,此時接收波形將會發(fā)生變化,在波形圖上可以看見即某一時刻波形發(fā)生衰減,通過這個衰減信號控制器就可以計算出觸摸點位置。
語音識別
語音識別是將音頻數(shù)據(jù)轉(zhuǎn)化為文本或其他計算機可以處理的信息的技術(shù)。主要由 4 個部分組成:特征提取、 聲學(xué)模型、語言模型和解碼器搜索。
語音合成
語音合成就是將一系列的輸入文字信號序列經(jīng)過適當(dāng)?shù)捻嵚商幚砗?,送入合成器,產(chǎn)生出具有盡可能豐富表現(xiàn)力和高自然度的語音輸出,從而使計算機或相關(guān)的系統(tǒng)能夠發(fā)出像“人”一樣自然流利聲音的技術(shù)。
語音合成的發(fā)展經(jīng)歷了機械式語音合成、電子式語音合成和基于計算機的語 音合成發(fā)展階段。語音合成具體分為規(guī)則驅(qū)動方和數(shù)據(jù)驅(qū)動方。
目標(biāo)獲取是人機交互過程中的最基本的交互任務(wù),用戶向計算機指明想要交互的目標(biāo),其他的交互命令均在此基礎(chǔ)上完成。隨著交互界面的發(fā)展,在很多自然交互界面上,如遠(yuǎn)距離大屏幕,虛擬現(xiàn)實和增強現(xiàn)實設(shè)備等,傳統(tǒng)的交互設(shè)備 (如鼠標(biāo),鍵盤)無法繼續(xù)用來完成目標(biāo)獲取任務(wù)。
因此,在這些界面上,研究者探索使用動作交互完成目標(biāo)獲取任務(wù)的可能方式。主要的輸入方式分為直接和間接兩種。
直接的動作選取要求用戶通過接觸目標(biāo)位置的方式對其進(jìn)行選取,例如在增強現(xiàn)實應(yīng)用中,用戶通過以手部接觸的方式完成虛擬物體的選取。
間接的目標(biāo)選取方式則需要用戶通過身體部分的位置和姿態(tài)來控制和移動光標(biāo),再借助光標(biāo)指示目標(biāo)的位置進(jìn)行選取。其中,一個廣泛應(yīng)用的光標(biāo)控制方法是光線投射。
手勢識別
手勢可定義為人手或者手和手臂相結(jié)合所產(chǎn)生的各種姿態(tài)和動作,它分為靜態(tài)手勢(指姿態(tài),單個手形)和動態(tài)手勢(指動作,由一系列姿態(tài)組成),前者對應(yīng)模型空間里的一個點,后者對應(yīng)一條軌跡。相應(yīng)地,可以將手勢識別分為靜態(tài)手勢識別和動態(tài)手勢識別。
姿勢識別
姿勢識別常用的算法有三類:(1)基于模板匹配的身體姿勢識別方法; (2)基于狀態(tài)空間的身體姿勢識別方法;(3)基于語義描述的身體姿勢識別方法。
利用人工智能技術(shù)提高眼動計算的精度和效率,對人的感知和認(rèn)知狀態(tài)進(jìn)行深入理解,構(gòu)建“人在回路”的智能人機交互框架,實現(xiàn)用戶主導(dǎo)的自動化系統(tǒng)、基于人機共生的 AI 系統(tǒng)。
常用的幾種眼動交互方式主要有一下幾種:
駐留時間觸發(fā)
駐留時間觸發(fā)是指當(dāng)注 視點的駐留時間達(dá)到一定程度后,可以利用視線代替鼠標(biāo)點擊或鍵盤按鈕等傳統(tǒng) 輸入設(shè)備,觸發(fā)相應(yīng)的執(zhí)行操作。駐留時間觸發(fā)多用于控制圖形界面或定位鼠標(biāo)光標(biāo)等,是一種較為流行的眼動交互方式,它也能夠反映用戶有意識的控制意圖, 以更好地完成交互。
平滑追隨運動
平滑追隨運動多發(fā)生于觀察場景中有緩慢移動的物體或目標(biāo),視線會產(chǎn)生平滑追隨的運動狀態(tài)。平滑追隨運動是一種連續(xù)反饋的狀態(tài),眼睛捕捉運動目標(biāo)的信號,將目標(biāo)運動速度、方向、角度等信息反饋給大腦,再控制眼球跟隨目標(biāo)物體發(fā)生相對運動。在此過程中也會存在一些無意識眼跳等其他行為,在沒有運動目標(biāo)的場景下,一般不會產(chǎn)生該眼動行為,因此平滑追蹤觸發(fā)一般不是一種常用的眼動交互方式。
眨眼
使用眨眼行為進(jìn)行交互時,需要識別有意識的眨眼,例如眨眼頻率超過一定程度,或一次眨眼過程中眼睛閉合的時間超過某個閾值。眨眼觸發(fā)較為簡單,但是當(dāng)人眼處于長時間閉合狀態(tài)時,由于眼動追蹤儀無法捕捉瞳孔,可能會導(dǎo)致注視點的丟失,在一定程度上會影響眼控系統(tǒng)精度。
眼勢
眼勢是在眼跳的基礎(chǔ)上提出的,但與眼跳的不同之處在于,眼跳往往是人在觀察場景或?qū)ο髸r發(fā)生的一種無意識的視線轉(zhuǎn)移,其眼跳的起點和終點都未知, 依賴于人的視覺注意。而眼勢被定義為一系列有序的視線行程,每一個行程是兩個固定注視點或注視區(qū)域的有意的視線移動。因此,眼勢作為一種新的眼動交互方式,可以反映人的有意識觸發(fā)意圖。不同路徑的行程可以定義不同的眼勢,不同的眼勢可以映射為不同的交互指令。眼勢可以分為單行程眼勢和多行程眼勢。
文本輸入作為應(yīng)用中重要的交互技術(shù),為應(yīng)用提供了重要的交互體驗。目前已經(jīng)開發(fā) 了多種適用于虛擬現(xiàn)實的文本輸入技術(shù),現(xiàn)有的 VR 文本輸入技術(shù)主要有實體鍵盤技術(shù)、虛擬鍵盤技術(shù)、新型輸入技術(shù)(手部輸入技術(shù)、圓形鍵盤輸入技術(shù)、立體輸入技術(shù))。
不同形式的輸入組合(例如,語音、手勢、觸摸、凝 視等)被稱為多模態(tài)交互模式,其目標(biāo)是向用戶提供與計算機進(jìn)行交互的多種選擇方式,以支持自然的用戶選擇。 相比于傳統(tǒng)的單一界面,多模態(tài)界面可以被定義為多個輸入模態(tài)的組合,這些組合可以分為 6 種基本類型:
互補型:當(dāng)兩個或多個輸入模態(tài)聯(lián)合發(fā)布一個命令時,它們便會相得益彰。
重復(fù)型:當(dāng)兩個或多個輸入模態(tài)同時向某個應(yīng)用程序發(fā)送信息時,它們的輸入模態(tài)是冗余的。通過讓每個模態(tài)發(fā)出相同的命令,多重的信息可以幫助解決識別錯誤的問題,并加強系統(tǒng)需要執(zhí)行的操作。
等價型:當(dāng)用戶具有使用多個模態(tài)的選擇時,兩個或多個輸入模態(tài)是等價的。 例如,用戶可以通過發(fā)出一個語音命令,或從一個虛擬的調(diào)色板中選擇對象來創(chuàng)建一個虛擬對象。這兩種模態(tài)呈現(xiàn)的是等效的交互,且最終的結(jié)果是相同的。
專業(yè)型:當(dāng)某一個模態(tài)總是用于一個特定的任務(wù)時它就成了專業(yè)的模態(tài),因為它是比較合適該任務(wù)的,或者說對于該任務(wù)來說它是當(dāng)仁不讓的。
并發(fā)型:當(dāng)兩個或多個以上的輸入模態(tài)在同一時間發(fā)出不同的命令時,它們是并發(fā)的。例如,用戶在虛擬環(huán)境用手勢來導(dǎo)航,與此同時,使用語音命令在該 環(huán)境中詢問關(guān)于對象的問題。并發(fā)型讓用戶可以發(fā)出命令并執(zhí)行命令,其體現(xiàn)為在做晚餐的同時也可也以打電話的真實世界的任務(wù)。
轉(zhuǎn)化型:當(dāng)兩個輸入模態(tài)分別從對方獲取到信息時它們就會將信息轉(zhuǎn)化,并使用此信息來完成一個給定的任務(wù)。多模態(tài)交互轉(zhuǎn)化的最佳例子之一是在一鍵通話界面里,語音模態(tài)從一個手勢動作獲得信息,告訴它應(yīng)激活通話。
信息無障礙(information accessibility)是一個學(xué)科交叉的技術(shù)和應(yīng)用領(lǐng)域, 旨在用信息技術(shù)彌補殘障人士生理和認(rèn)知能力的不足,讓他們可以順暢地與他 人、物理世界和信息設(shè)備進(jìn)行交互。
從研究和應(yīng)用水平上看,信息無障礙總體還處于比較初步的狀態(tài)。
在應(yīng)用上,針對信息訪問和設(shè)備使用,具有基本功能的技術(shù)可以被應(yīng)用,但效果和效率等可用性指標(biāo)都不高;在現(xiàn)實生活中,針對聽障人士與他人交流、盲人獨立出行等,能支撐的新技術(shù)還處于原型和概念階 段。
技術(shù)趨勢分析描述了技術(shù)的出現(xiàn)、變遷和消亡的全過程,可以幫助研究人員理解領(lǐng)域的研究歷史和現(xiàn)狀,快速識別研究的前沿?zé)狳c問題。通過技術(shù)趨勢分析可以發(fā)現(xiàn)當(dāng)前該領(lǐng)域的熱點研究話題 TOP10 是:Virtual Reality、 Augmented Reality、Social Media、Social Interaction、Interaction Design、Mobile Device、Social Network、Ubiquitous Computing、Mobile Phone、Interaction Technique.
國家趨勢分析顯示當(dāng)前人機交互領(lǐng)域研究熱度 TOP10 的國家分別是:United States、United Kingdom、Germany、Canada、China、Japan、South Korea、Australia、France、Netherla.
機構(gòu)趨勢分析顯示當(dāng)前人機交互領(lǐng)域研究熱度 TOP10 的機構(gòu)分別是:Carnegie Mellon University、Washington College、University of California、Stanford University、University of Michigan、Massachusetts Institute of Technology、Georgia Institute of Technology、Cornell University、Seoul National University、Yonsei University.
人機交互作為終端產(chǎn)品引領(lǐng)技術(shù),其作用已經(jīng)為產(chǎn)業(yè)界所普遍認(rèn)識,多種自然交互技術(shù)和新型交互終端相繼面世,但圖形用戶界面仍是交互的主導(dǎo)模式。計算無所不在,人機交互的研究和開發(fā)空間很大,自然高效的交互是發(fā)展趨勢,需要綜合地探索自然交互技術(shù)的科學(xué)原理,建立明確的優(yōu)化目標(biāo),結(jié)合智能技術(shù), 發(fā)展高效可用的自然交互技術(shù)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。