0
本文作者: 任平 | 2024-03-06 09:48 | 專題:AI for Science |
與聾啞人交流,是一件成本很高的事情。
首先要看得懂手語,其次是會(huì)打手語。在全球任何一個(gè)國家,手語都被歸屬為一門“小語種”。
但全球手語并非一套通用語言,美國手語(ASL)、泰國手語(ThSL)、英國手語(BSL)、中國手語(CSL)......雖然在某些情況下它們可以互相理解,但這并不等同于手語語言的普遍性。
全球約4.5億的聾啞人士,長期困在狹小社交圈。在過去三年的全球防疫中,這種社交限制被進(jìn)一步強(qiáng)化。
口罩會(huì)影響每一位聾啞人——依賴手語的他們還需要面部表情來充分理解交流內(nèi)容,佩戴助聽器或人工耳蝸的人也依賴唇讀來更好地理解聽到的內(nèi)容,即便只是聽說功能受損的人也更難聽到蒙住的聲音。
因此,手語在高等教育中的重要性日益凸顯。從2006年到2009年,美國手語在大學(xué)的學(xué)習(xí)人數(shù)顯著增加了16.4%,在最受歡迎的外語學(xué)習(xí)中排名第四。然而,對于更廣泛的社會(huì)群體而言,仍然無法受益于一種靈活的方法培養(yǎng)手語技能。
眾所周知,2023年,ChatGPT的出現(xiàn)為溝通方式帶來了革命性的變革。
ChatGPT通過多輪對話的形式,實(shí)現(xiàn)了與人類的協(xié)同交互,這是與以往現(xiàn)象級AI產(chǎn)品完全不一樣的地方。比如,通過簡單的插件安裝,用戶便能與ChatGPT展開近乎真實(shí)的對話模擬。ChatGPT不僅能夠理解用戶的意圖,還能提供即時(shí)的反饋和糾錯(cuò)。在缺乏外語母語交流伙伴的情況下,ChatGPT是一個(gè)理想的替代者,被廣泛用于模擬日常對話、商務(wù)會(huì)議、求職面試等場景。
實(shí)際上,ChatGPT所引領(lǐng)的學(xué)習(xí)和交流方式的變革并非突如其來。在手語交流輔助工具的開發(fā)上,學(xué)術(shù)界早已取得了顯著成就。
2014年開始,紐約城市大學(xué)(CCNY)田英利教授,聯(lián)合國際知名手語計(jì)算專家--羅切斯特理工大學(xué)的Matt Huenerfauth教授,著手開發(fā)一個(gè)能夠?qū)崟r(shí)識(shí)別美國手語中語法錯(cuò)誤的視覺系統(tǒng)。相關(guān)研究成果和手語數(shù)據(jù)集在2020年亮相計(jì)算機(jī)視覺領(lǐng)域頂級會(huì)議ICPR(模式識(shí)別國際會(huì)議)。
田英利,紐約城市大學(xué)教授,IEEE / IAPR / AAIA Fellow
據(jù)悉,他們開發(fā)的這套是美國手語語法識(shí)別系統(tǒng),旨在實(shí)時(shí)識(shí)別手語并為學(xué)習(xí)者提供即時(shí)反饋。應(yīng)用價(jià)值不僅體現(xiàn)在輔助手語學(xué)習(xí)上,更在于其能夠無縫集成到計(jì)算平臺(tái)中--通過檢測手語動(dòng)作并翻譯成文字或語音,為聽障人士與非聽障人士之間的溝通搭建橋梁,有效消除交流障礙。
近期,相關(guān)論文之一《Multi-Modal Multi-Channel American Sign Language Recognition》,作為首期特邀論文上線初創(chuàng)期刊《人工智能與機(jī)器人研究國際期刊》(IJAIRR)。借此契機(jī),田英利教授向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))介紹了該系統(tǒng)的開發(fā)過程,并詳細(xì)介紹了背后的數(shù)據(jù)集收集工作。
論文鏈接:
https://gairdao.com/doi/10.1142/S2972335324500017
相比于類型繁多的口語語言,手語的特別之處在于,這是一種充滿表現(xiàn)力的視覺語言,它通過手勢、面部表情和身體動(dòng)作的組合來傳達(dá)信息。
自20世紀(jì)80年代以來,學(xué)者們就開始探索手勢識(shí)別,而手語識(shí)別的研究則稍晚起步,1988年,日本學(xué)者Tamura和Kawasaki首次嘗試識(shí)別日語手語。
隨著多功能感知、智能人機(jī)接口和虛擬現(xiàn)實(shí)技術(shù)的發(fā)展,手語識(shí)別研究逐漸受到國際關(guān)注。目前,手語識(shí)別系統(tǒng)主要分為基于傳感設(shè)備(如數(shù)據(jù)手套和位置跟蹤器)和基于視覺的系統(tǒng)。
相比而言,雖然傳感設(shè)備提高了手勢識(shí)別的準(zhǔn)確度和穩(wěn)定性,但限制了手勢的自然表達(dá)。因此,基于視覺的手勢識(shí)別逐漸成為研究的主流。
基于視覺的手語識(shí)別通常包括三個(gè)步驟:
首先,通過攝像頭或傳感器捕捉手語動(dòng)作,建立訓(xùn)練數(shù)據(jù)集;
其次,利用計(jì)算機(jī)視覺技術(shù)分析和識(shí)別手語動(dòng)作;
最后,通過機(jī)器學(xué)習(xí)算法將識(shí)別結(jié)果轉(zhuǎn)化為文字或語音輸出。
然而,第一步中的遮擋、投影和光線變化等因素,使得基于視覺的方法難以精確捕捉手指動(dòng)作。直到近年來,成本效益高的RGBD相機(jī),如微軟Kinect V2(2013年發(fā)布)、英特爾Realsense(2014年發(fā)布)和ORBBEC Astra Stereo S(2019年發(fā)布)的出現(xiàn),為捕捉高分辨率RGB視頻、深度圖和實(shí)時(shí)跟蹤骨骼關(guān)節(jié)提供了可能,推動(dòng)了基于RGBD視頻的手語識(shí)別研究。
盡管如此,現(xiàn)有的手語識(shí)別系統(tǒng)仍存在諸多缺陷。
一些系統(tǒng)僅關(guān)注手勢,忽視了面部表情和身體姿勢,限制了其適應(yīng)性、泛化性和魯棒性;
另一些系統(tǒng)雖然分析了多種姿態(tài),但缺乏深度信息,導(dǎo)致識(shí)別率不高;
還有的系統(tǒng)雖然基于RGBD視頻,但只識(shí)別有限的手語詞匯。
紐約城市大學(xué)的田英利教授指出了兩個(gè)原因:現(xiàn)代機(jī)器學(xué)習(xí)方法主要依賴數(shù)據(jù)驅(qū)動(dòng),但公開發(fā)布的手語數(shù)據(jù)集規(guī)模遠(yuǎn)小于其他應(yīng)用的數(shù)據(jù)集。其次,手語動(dòng)作的多樣性和復(fù)雜性,也增加了動(dòng)作捕捉和算法設(shè)計(jì)的難度。
例如,手部動(dòng)作的微小變化可能導(dǎo)致完全不同手語的符號(hào)表達(dá);即使手勢相同,面部表情的差異也能改變含義;重復(fù)的手勢可能增加額外的含義;而照明、背景和相機(jī)距離等環(huán)境因素也增加了識(shí)別的難度。
理想的手語識(shí)別系統(tǒng)應(yīng)能處理所有手語詞匯,滿足使用者的實(shí)際需求,并能在復(fù)雜環(huán)境下實(shí)時(shí)、準(zhǔn)確、可靠地工作,同時(shí)面向非特定用戶。盡管手語識(shí)別技術(shù)尚未成熟,但隨著研究的深入,這一目標(biāo)正逐步接近現(xiàn)實(shí)。
美國手語研究新篇章:數(shù)據(jù)集與識(shí)別技術(shù)的協(xié)同進(jìn)步
美國手語(ASL)在全球范圍內(nèi)具有重要地位,不僅在美國、加拿大等國家廣泛使用,而且與泰國手語、法國手語等有著較高的互通性。在美國,美國手語是一種標(biāo)準(zhǔn)化的手語,不同州之間的差異通常很小。因此,ASL成為了眾多研究團(tuán)隊(duì)的首選研究對象。
田英利教授指出,ASL的表達(dá)不僅依賴手勢,還涉及面部表情、頭部和身體動(dòng)作等非手部信號(hào),這些元素共同構(gòu)成了ASL的豐富表達(dá)。
具體來說,大多數(shù)手語手勢都是由手在空間中移動(dòng)、停頓和改變方向組成的,面部表情在美國手語中最常用于傳達(dá)整個(gè)句子或短語的情緒信息。例如通過眉毛、眼睛張大的表情來表示疑問;身體動(dòng)作和手勢的指向也可以用來表達(dá)“左邊”或“右邊”這類概念;具有消極語義極性的符號(hào),如NONE或NEVER,往往伴隨著輕微搖頭和鼻子皺紋的消極面部表情出現(xiàn)。
2014年以來,田英利教授與羅切斯特理工學(xué)院的Matt Huenerfauth教授合作,基于RGBD視頻技術(shù)開發(fā)了一套創(chuàng)新系統(tǒng),旨在提高ASL語法元素和語法錯(cuò)誤的識(shí)別準(zhǔn)確性。這一系統(tǒng)能夠處理連續(xù)ASL視頻中手部手勢與非手部信號(hào)之間的復(fù)雜關(guān)系。
經(jīng)過數(shù)年籌備,他們所開發(fā)的這套ASL系統(tǒng)已有突破性進(jìn)展。據(jù)田英利教授介紹,ASL-100-RGBD數(shù)據(jù)集、ASL-Homework-RGBD數(shù)據(jù)集、實(shí)時(shí)手語語法錯(cuò)誤識(shí)別系統(tǒng),是實(shí)現(xiàn)這一進(jìn)步的關(guān)鍵。
ASL-100-RGBD數(shù)據(jù)集:研究的基石
ASL-100-RGBD數(shù)據(jù)集由羅切斯特理工學(xué)院和紐約市立大學(xué)的研究人員共同創(chuàng)建,它包含了100個(gè)ASL手勢的彩色和深度視頻(RGBD視頻)。這些視頻由流利的ASL使用者在Kinect V2傳感器前表演,為手語識(shí)別算法的開發(fā)提供了寶貴的基礎(chǔ)資源。
田英利教授強(qiáng)調(diào),在收集數(shù)據(jù)時(shí),團(tuán)隊(duì)確保了參與者的多樣性,招募了不同性別、年齡和背景的流利ASL使用者。而且所選擇的100個(gè)ASL常用手勢,其中大多數(shù)與美國手語語法有關(guān)(例如時(shí)間、問題、條件等語法元素),而且通常在大學(xué)一年級的ASL課程中學(xué)習(xí)。每個(gè)手勢都被詳細(xì)地標(biāo)注,包括開始和結(jié)束的時(shí)間,以及相關(guān)的面部表情和頭部動(dòng)作。
ASL-Homework-RGBD數(shù)據(jù)集:教育與研究的橋梁
ASL-Homework-RGBD數(shù)據(jù)集進(jìn)一步擴(kuò)展了研究范圍,它不僅包含了流利手語者的視頻,還涵蓋了正在學(xué)習(xí)ASL的非流利使用者的表現(xiàn)。
這種多樣性使得研究者能夠?qū)Ρ确治隽骼c非流利手語者的差異,從而更好地理解學(xué)習(xí)過程中的變化,改進(jìn)教學(xué)方法,并開發(fā)出更精確的手語識(shí)別系統(tǒng)。此外,數(shù)據(jù)集還可以作為CV研究人員設(shè)計(jì)算法的基準(zhǔn),以檢測視頻中的手語錯(cuò)誤或評估連續(xù)手語識(shí)別算法性能。
實(shí)時(shí)手語語法錯(cuò)誤識(shí)別系統(tǒng):技術(shù)的應(yīng)用
實(shí)時(shí)手語語法錯(cuò)誤識(shí)別系統(tǒng),將ASL-100-RGBD和ASL-Homework-RGBD數(shù)據(jù)集的研究成果應(yīng)用于實(shí)際教學(xué)中。這個(gè)系統(tǒng)能夠處理連續(xù)的手語視頻,自動(dòng)識(shí)別語法錯(cuò)誤,并為ASL學(xué)習(xí)者提供即時(shí)反饋。
它利用3D-ResNet網(wǎng)絡(luò)獨(dú)立識(shí)別手語的語法元素,并采用滑動(dòng)窗口方法檢測不同模態(tài)的語法元素的時(shí)間邊界,有效識(shí)別ASL語法錯(cuò)誤。
田英利教授提到,使用滑動(dòng)窗口技術(shù)來處理長句子,這是一種在視覺和圖像處理中常見的方法。他們的研究創(chuàng)新之處在于結(jié)合了多個(gè)模態(tài)和多通道的信息,即,手部動(dòng)作、表情、身體語言以及顏色和深度信息(RGBD信息)來識(shí)別語法錯(cuò)誤,而不是識(shí)別每一個(gè)字。
也就是說,無需逐字翻譯,而是專注于語法錯(cuò)誤,包括時(shí)間、問題、條件等語法元素。(更多細(xì)節(jié)可閱讀論文原文,在文章底部參考資料)
測試顯示,這一系統(tǒng)能夠在2分鐘內(nèi),為時(shí)長1分鐘的ASL視頻生成反饋,這對于手語學(xué)習(xí)者來說極其寶貴。
更重要的是,ASL-100-RGBD和ASL-Homework-RGBD兩大數(shù)據(jù)集,均已在Databrary平臺(tái)上向授權(quán)用戶開放,將為未來更多從事手語研究者提供了必要的訓(xùn)練和測試數(shù)據(jù),推動(dòng)整個(gè)研究領(lǐng)域的發(fā)展。
The ASL-100-RGBD database : https://nyu.databrary.org/volume/1062
The ASL-Homework-RGBD dataset : https://nyu.databrary.org/volume/1249
多模態(tài)3DCNN框架的概述圖
盡管如此,田英利教授仍然指出了目前數(shù)據(jù)集和系統(tǒng)的局限。
ASL-100-RGBD數(shù)據(jù)集所選擇的100個(gè)手勢,主要集中在有關(guān)手語語法;參與者的人口統(tǒng)計(jì)信息可能無法完全代表ASL使用者的多樣性,因?yàn)閰⑴c者主要是年輕人,他們屬于能流利使用美國手語的一類群體并且都有六年以上使用手語的經(jīng)驗(yàn)。對手語使用者來說,主要差別包括“聽力損失程度”、“教育背景”、“美國手語流利程度”。
此外,目前這一系統(tǒng)在ASL-100-RGBD數(shù)據(jù)集上手語的識(shí)別率達(dá)到93%的準(zhǔn)確率。在不用識(shí)別每個(gè)單獨(dú)手勢前提下,對多個(gè)連續(xù)手語句子,ASL語法錯(cuò)誤識(shí)別率超過60%,包括識(shí)別詞匯錯(cuò)誤(如缺少適當(dāng)?shù)拿娌勘砬榛蝾^部動(dòng)作)和時(shí)間錯(cuò)誤(如非手部信號(hào)發(fā)生的時(shí)間與句子結(jié)構(gòu)的開始或結(jié)束太遠(yuǎn))。
無論如何,這些研究成果已經(jīng)為ASL研究和教育技術(shù)的進(jìn)步奠定了堅(jiān)實(shí)的基礎(chǔ),未來或?qū)⒊霈F(xiàn)更多元的解決方案,并推動(dòng)手語商業(yè)化時(shí)代到來。
團(tuán)隊(duì)介紹
在美國手語(ASL)研究課題中,跨學(xué)科團(tuán)隊(duì)合作發(fā)揮著至關(guān)重要的作用。
紐約城市大學(xué)的田英利教授帶領(lǐng)的研究團(tuán)隊(duì),包括她的學(xué)生 Elahe Vahdani 和 Longlong Jing 、羅切斯特理工大學(xué)的 Matt Huenerfauth 教授,以及亨特學(xué)院的Elaine Gale教授,共同致力于手語語法系統(tǒng)和算法的研究和開發(fā),以及數(shù)據(jù)集的設(shè)計(jì)和收集工作。
Matt Huenerfauth博士,畢業(yè)于賓夕法尼亞大學(xué)計(jì)算機(jī)系,專攻計(jì)算語言學(xué)。自2006年博士畢業(yè)以來,他一直專注于手語計(jì)算研究,不曾變換研究方向,如今已成為該領(lǐng)域的國際知名專家。
據(jù)悉,他曾在紐約城市大學(xué)皇后學(xué)院任教期間掌握了美國手語,并取得了手語翻譯員證書。目前他在羅切斯特理工學(xué)院(RIT) 任教,擔(dān)任Golisano計(jì)算機(jī)與信息科學(xué)學(xué)院的教授和院長,圍繞聾啞人無障礙技術(shù)和手語展開研究。
田英利教授、Elahe Vahdani 、Longlong Jing、Matt Huenerfauth 教授、Elaine Gale 教授
田英利教授則擁有扎實(shí)的計(jì)算機(jī)視覺技術(shù)背景。她于1990年從天津大學(xué)光電工程專業(yè)畢業(yè)后,加入了馬頌德教授創(chuàng)立和領(lǐng)導(dǎo)的中科院自動(dòng)化所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室。在獲得香港中文大學(xué)博士學(xué)位后,她前往美國卡內(nèi)基梅隆大學(xué)進(jìn)行博士后研究,師從計(jì)算機(jī)視覺領(lǐng)域的領(lǐng)軍人物金出武雄。
(有關(guān)田英利和金出武雄的故事請點(diǎn)擊:金出武雄和他的中國學(xué)生們,計(jì)算機(jī)視覺五十載風(fēng)云)
那段時(shí)間,她專注于人臉表情自動(dòng)分析和數(shù)據(jù)庫開發(fā)。2000年前后,人臉表情識(shí)別成為美國計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn),田英利的工作為她在IBM T. J. Watson研究中心領(lǐng)導(dǎo)視頻分析團(tuán)隊(duì)奠定了基礎(chǔ)。
2008年,田英利教授回歸學(xué)術(shù)界,加入紐約城市大學(xué)電氣工程系,成為該系十多年來的第一位女性教授。她在那里開創(chuàng)了輔助技術(shù)研究方向,致力于利用計(jì)算機(jī)視覺技術(shù)服務(wù)于視障、聽障、聾啞和老年人等特殊群體。
田教授表示,她首先關(guān)注了盲人,很自然地將研究重點(diǎn)延伸到了手語識(shí)別,因?yàn)槭终Z包含了表情、行為和手勢,這些都與她之前的研究緊密相關(guān)。
此外,田教授還表示,近年來她參與的跨學(xué)科研究不斷增加,與同校計(jì)算機(jī)系的朱志剛教授、同系肖繼忠教授(機(jī)器人專家)、亨特學(xué)院的Elaine Gale教授等合作。Elaine教授是本次手語課題的關(guān)鍵參與者,她是一位后天失聰者,精通唇語,并在手語教育方面有著豐富的經(jīng)驗(yàn)。她將這套系統(tǒng)應(yīng)用于自己的課程中,確保了系統(tǒng)在實(shí)際教學(xué)中的有效性。
值得一提的是,近兩年OpenAI發(fā)布的ChatGPT和Sora,將「大模型」技術(shù)推到制高點(diǎn),不乏有人呼吁推出“手語語法識(shí)別通用大模型”。
對此,田教授分析,未來手語領(lǐng)域的研究方向可能會(huì)涉及大規(guī)模數(shù)據(jù)集的構(gòu)建。也就是說,未來的系統(tǒng)開發(fā)不僅僅針對一種手語,而是考慮將不同國家的手語數(shù)據(jù)集整合起來,提取手語的通用特征,然后在特定的手語上進(jìn)行微調(diào),以提高系統(tǒng)識(shí)別的精度和適應(yīng)性。
但至于實(shí)際走向如何,田教授指出有兩大挑戰(zhàn):
“手語領(lǐng)域缺乏像ChatGPT那樣的大規(guī)模數(shù)據(jù)集,這限制了手語識(shí)別模型的通用性和準(zhǔn)確性;手語不像某些語言模型,可以通過大規(guī)模數(shù)據(jù)訓(xùn)練后就能通用,手語在不同國家有著特定的詞匯和表達(dá)方式,這使得創(chuàng)建一個(gè)通用的手語識(shí)別模型變得更加復(fù)雜?!?/p>
目前田英利教授和團(tuán)隊(duì)所開發(fā)的這套系統(tǒng),并非基于大模型,因?yàn)樗褂玫臄?shù)據(jù)量相對較小,而且他們的手語識(shí)別系統(tǒng)是在大模型概念出現(xiàn)之前就開始的。他們正在探索使用自監(jiān)督學(xué)習(xí)來利用現(xiàn)有數(shù)據(jù)學(xué)習(xí)特征,并將其應(yīng)用于小數(shù)據(jù)集上,以提高系統(tǒng)的性能,同時(shí)也計(jì)劃收集更多的數(shù)據(jù)來改進(jìn)手語識(shí)別系統(tǒng)。
在手語輔助系統(tǒng)的領(lǐng)域內(nèi),仍有許多技術(shù)挑戰(zhàn)亟待克服。在這一背景下,田教授團(tuán)隊(duì)開放數(shù)據(jù)集的做法顯得尤為關(guān)鍵。這將促進(jìn)學(xué)術(shù)界與工業(yè)界的交流合作,也為整個(gè)領(lǐng)域的發(fā)展注入了新動(dòng)力。
手語識(shí)別技術(shù),作為一種橋梁,連接了聽障人士與社會(huì)的溝通,其在醫(yī)療輔助和社交互動(dòng)中展現(xiàn)出巨大的應(yīng)用潛力。
盡管全球眾多學(xué)術(shù)和工業(yè)團(tuán)隊(duì)長期致力于破解手語識(shí)別的復(fù)雜挑戰(zhàn),這一領(lǐng)域仍面臨著一系列未解之題。
手語識(shí)別的關(guān)鍵難題有哪些?
如何從零開始構(gòu)建并部署一套高效的手語識(shí)別系統(tǒng)?
如今 ChatGPT ,Sora 等大模型對手語識(shí)別研究的啟示?
除了計(jì)算機(jī)視覺(CV)技術(shù),還有哪些技術(shù)路徑可以探索?
在國內(nèi)外,哪些學(xué)術(shù)團(tuán)隊(duì)和工業(yè)團(tuán)隊(duì)在手語識(shí)別領(lǐng)域取得了顯著成就?
為了深入探討這些問題,雷峰網(wǎng)將在3月舉辦一場專題研討會(huì),屆時(shí)將邀請?zhí)镉⒗淌谝约笆终Z研究領(lǐng)域的專家學(xué)者,共同分享他們的見解和研究成果。這次會(huì)議將為手語識(shí)別技術(shù)的未來發(fā)展提供寶貴的交流平臺(tái)。
本文作者 吳彤 長期關(guān)注科人工智能、生命科學(xué)和科技一線工作者,習(xí)慣系統(tǒng)完整記錄科技的每一次進(jìn)步,歡迎同道微信交流:icedaguniang
參考資料
1,Elahe Vahdani、Longlong Jing、Matt Huenerfauth and Y. Tian, Multi-Modal Multi-Channel American Sign Language Recognition, International Journal of Artificial Intelligence and Robotics Research (IJAIRR), 2023.
2,E. Vahdani, L. Jing, M. Huenerfauth, and Y. Tian, Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos, International Conference on Pattern Recognition (ICPR), 2020.
3,S. Hassan, L. Berke, E. Vahdani, L. Jing, Y. Tian, and M. Huenerfauth, An Isolated-Signing RGBD Dataset of 100 American Sign Language Signs Produced by Fluent ASL Signers, In proceedings of the 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives, May 2020.
4,Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, and Matt Huenerfauth, ASL-Homework-RGBD Dataset: An Annotated Dataset of 45 fluent and non-fluent Signers Performing American Sign Language Homeworks, In proceedings of the 10th Workshop on the Representation and Processing of Sign Languages: Multilingual Sign Language Resources, June 2022.
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章