0
本文作者: 任平 | 2024-03-06 09:48 | 專(zhuān)題:AI for Science |
與聾啞人交流,是一件成本很高的事情。
首先要看得懂手語(yǔ),其次是會(huì)打手語(yǔ)。在全球任何一個(gè)國(guó)家,手語(yǔ)都被歸屬為一門(mén)“小語(yǔ)種”。
但全球手語(yǔ)并非一套通用語(yǔ)言,美國(guó)手語(yǔ)(ASL)、泰國(guó)手語(yǔ)(ThSL)、英國(guó)手語(yǔ)(BSL)、中國(guó)手語(yǔ)(CSL)......雖然在某些情況下它們可以互相理解,但這并不等同于手語(yǔ)語(yǔ)言的普遍性。
全球約4.5億的聾啞人士,長(zhǎng)期困在狹小社交圈。在過(guò)去三年的全球防疫中,這種社交限制被進(jìn)一步強(qiáng)化。
口罩會(huì)影響每一位聾啞人——依賴(lài)手語(yǔ)的他們還需要面部表情來(lái)充分理解交流內(nèi)容,佩戴助聽(tīng)器或人工耳蝸的人也依賴(lài)唇讀來(lái)更好地理解聽(tīng)到的內(nèi)容,即便只是聽(tīng)說(shuō)功能受損的人也更難聽(tīng)到蒙住的聲音。
因此,手語(yǔ)在高等教育中的重要性日益凸顯。從2006年到2009年,美國(guó)手語(yǔ)在大學(xué)的學(xué)習(xí)人數(shù)顯著增加了16.4%,在最受歡迎的外語(yǔ)學(xué)習(xí)中排名第四。然而,對(duì)于更廣泛的社會(huì)群體而言,仍然無(wú)法受益于一種靈活的方法培養(yǎng)手語(yǔ)技能。
眾所周知,2023年,ChatGPT的出現(xiàn)為溝通方式帶來(lái)了革命性的變革。
ChatGPT通過(guò)多輪對(duì)話的形式,實(shí)現(xiàn)了與人類(lèi)的協(xié)同交互,這是與以往現(xiàn)象級(jí)AI產(chǎn)品完全不一樣的地方。比如,通過(guò)簡(jiǎn)單的插件安裝,用戶便能與ChatGPT展開(kāi)近乎真實(shí)的對(duì)話模擬。ChatGPT不僅能夠理解用戶的意圖,還能提供即時(shí)的反饋和糾錯(cuò)。在缺乏外語(yǔ)母語(yǔ)交流伙伴的情況下,ChatGPT是一個(gè)理想的替代者,被廣泛用于模擬日常對(duì)話、商務(wù)會(huì)議、求職面試等場(chǎng)景。
實(shí)際上,ChatGPT所引領(lǐng)的學(xué)習(xí)和交流方式的變革并非突如其來(lái)。在手語(yǔ)交流輔助工具的開(kāi)發(fā)上,學(xué)術(shù)界早已取得了顯著成就。
2014年開(kāi)始,紐約城市大學(xué)(CCNY)田英利教授,聯(lián)合國(guó)際知名手語(yǔ)計(jì)算專(zhuān)家--羅切斯特理工大學(xué)的Matt Huenerfauth教授,著手開(kāi)發(fā)一個(gè)能夠?qū)崟r(shí)識(shí)別美國(guó)手語(yǔ)中語(yǔ)法錯(cuò)誤的視覺(jué)系統(tǒng)。相關(guān)研究成果和手語(yǔ)數(shù)據(jù)集在2020年亮相計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議ICPR(模式識(shí)別國(guó)際會(huì)議)。
田英利,紐約城市大學(xué)教授,IEEE / IAPR / AAIA Fellow
據(jù)悉,他們開(kāi)發(fā)的這套是美國(guó)手語(yǔ)語(yǔ)法識(shí)別系統(tǒng),旨在實(shí)時(shí)識(shí)別手語(yǔ)并為學(xué)習(xí)者提供即時(shí)反饋。應(yīng)用價(jià)值不僅體現(xiàn)在輔助手語(yǔ)學(xué)習(xí)上,更在于其能夠無(wú)縫集成到計(jì)算平臺(tái)中--通過(guò)檢測(cè)手語(yǔ)動(dòng)作并翻譯成文字或語(yǔ)音,為聽(tīng)障人士與非聽(tīng)障人士之間的溝通搭建橋梁,有效消除交流障礙。
近期,相關(guān)論文之一《Multi-Modal Multi-Channel American Sign Language Recognition》,作為首期特邀論文上線初創(chuàng)期刊《人工智能與機(jī)器人研究國(guó)際期刊》(IJAIRR)。借此契機(jī),田英利教授向雷峰網(wǎng)介紹了該系統(tǒng)的開(kāi)發(fā)過(guò)程,并詳細(xì)介紹了背后的數(shù)據(jù)集收集工作。
論文鏈接:
https://gairdao.com/doi/10.1142/S2972335324500017
相比于類(lèi)型繁多的口語(yǔ)語(yǔ)言,手語(yǔ)的特別之處在于,這是一種充滿表現(xiàn)力的視覺(jué)語(yǔ)言,它通過(guò)手勢(shì)、面部表情和身體動(dòng)作的組合來(lái)傳達(dá)信息。
自20世紀(jì)80年代以來(lái),學(xué)者們就開(kāi)始探索手勢(shì)識(shí)別,而手語(yǔ)識(shí)別的研究則稍晚起步,1988年,日本學(xué)者Tamura和Kawasaki首次嘗試識(shí)別日語(yǔ)手語(yǔ)。
隨著多功能感知、智能人機(jī)接口和虛擬現(xiàn)實(shí)技術(shù)的發(fā)展,手語(yǔ)識(shí)別研究逐漸受到國(guó)際關(guān)注。目前,手語(yǔ)識(shí)別系統(tǒng)主要分為基于傳感設(shè)備(如數(shù)據(jù)手套和位置跟蹤器)和基于視覺(jué)的系統(tǒng)。
相比而言,雖然傳感設(shè)備提高了手勢(shì)識(shí)別的準(zhǔn)確度和穩(wěn)定性,但限制了手勢(shì)的自然表達(dá)。因此,基于視覺(jué)的手勢(shì)識(shí)別逐漸成為研究的主流。
基于視覺(jué)的手語(yǔ)識(shí)別通常包括三個(gè)步驟:
首先,通過(guò)攝像頭或傳感器捕捉手語(yǔ)動(dòng)作,建立訓(xùn)練數(shù)據(jù)集;
其次,利用計(jì)算機(jī)視覺(jué)技術(shù)分析和識(shí)別手語(yǔ)動(dòng)作;
最后,通過(guò)機(jī)器學(xué)習(xí)算法將識(shí)別結(jié)果轉(zhuǎn)化為文字或語(yǔ)音輸出。
然而,第一步中的遮擋、投影和光線變化等因素,使得基于視覺(jué)的方法難以精確捕捉手指動(dòng)作。直到近年來(lái),成本效益高的RGBD相機(jī),如微軟Kinect V2(2013年發(fā)布)、英特爾Realsense(2014年發(fā)布)和ORBBEC Astra Stereo S(2019年發(fā)布)的出現(xiàn),為捕捉高分辨率RGB視頻、深度圖和實(shí)時(shí)跟蹤骨骼關(guān)節(jié)提供了可能,推動(dòng)了基于RGBD視頻的手語(yǔ)識(shí)別研究。
盡管如此,現(xiàn)有的手語(yǔ)識(shí)別系統(tǒng)仍存在諸多缺陷。
一些系統(tǒng)僅關(guān)注手勢(shì),忽視了面部表情和身體姿勢(shì),限制了其適應(yīng)性、泛化性和魯棒性;
另一些系統(tǒng)雖然分析了多種姿態(tài),但缺乏深度信息,導(dǎo)致識(shí)別率不高;
還有的系統(tǒng)雖然基于RGBD視頻,但只識(shí)別有限的手語(yǔ)詞匯。
紐約城市大學(xué)的田英利教授指出了兩個(gè)原因:現(xiàn)代機(jī)器學(xué)習(xí)方法主要依賴(lài)數(shù)據(jù)驅(qū)動(dòng),但公開(kāi)發(fā)布的手語(yǔ)數(shù)據(jù)集規(guī)模遠(yuǎn)小于其他應(yīng)用的數(shù)據(jù)集。其次,手語(yǔ)動(dòng)作的多樣性和復(fù)雜性,也增加了動(dòng)作捕捉和算法設(shè)計(jì)的難度。
例如,手部動(dòng)作的微小變化可能導(dǎo)致完全不同手語(yǔ)的符號(hào)表達(dá);即使手勢(shì)相同,面部表情的差異也能改變含義;重復(fù)的手勢(shì)可能增加額外的含義;而照明、背景和相機(jī)距離等環(huán)境因素也增加了識(shí)別的難度。
理想的手語(yǔ)識(shí)別系統(tǒng)應(yīng)能處理所有手語(yǔ)詞匯,滿足使用者的實(shí)際需求,并能在復(fù)雜環(huán)境下實(shí)時(shí)、準(zhǔn)確、可靠地工作,同時(shí)面向非特定用戶。盡管手語(yǔ)識(shí)別技術(shù)尚未成熟,但隨著研究的深入,這一目標(biāo)正逐步接近現(xiàn)實(shí)。
美國(guó)手語(yǔ)研究新篇章:數(shù)據(jù)集與識(shí)別技術(shù)的協(xié)同進(jìn)步
美國(guó)手語(yǔ)(ASL)在全球范圍內(nèi)具有重要地位,不僅在美國(guó)、加拿大等國(guó)家廣泛使用,而且與泰國(guó)手語(yǔ)、法國(guó)手語(yǔ)等有著較高的互通性。在美國(guó),美國(guó)手語(yǔ)是一種標(biāo)準(zhǔn)化的手語(yǔ),不同州之間的差異通常很小。因此,ASL成為了眾多研究團(tuán)隊(duì)的首選研究對(duì)象。
田英利教授指出,ASL的表達(dá)不僅依賴(lài)手勢(shì),還涉及面部表情、頭部和身體動(dòng)作等非手部信號(hào),這些元素共同構(gòu)成了ASL的豐富表達(dá)。
具體來(lái)說(shuō),大多數(shù)手語(yǔ)手勢(shì)都是由手在空間中移動(dòng)、停頓和改變方向組成的,面部表情在美國(guó)手語(yǔ)中最常用于傳達(dá)整個(gè)句子或短語(yǔ)的情緒信息。例如通過(guò)眉毛、眼睛張大的表情來(lái)表示疑問(wèn);身體動(dòng)作和手勢(shì)的指向也可以用來(lái)表達(dá)“左邊”或“右邊”這類(lèi)概念;具有消極語(yǔ)義極性的符號(hào),如NONE或NEVER,往往伴隨著輕微搖頭和鼻子皺紋的消極面部表情出現(xiàn)。
2014年以來(lái),田英利教授與羅切斯特理工學(xué)院的Matt Huenerfauth教授合作,基于RGBD視頻技術(shù)開(kāi)發(fā)了一套創(chuàng)新系統(tǒng),旨在提高ASL語(yǔ)法元素和語(yǔ)法錯(cuò)誤的識(shí)別準(zhǔn)確性。這一系統(tǒng)能夠處理連續(xù)ASL視頻中手部手勢(shì)與非手部信號(hào)之間的復(fù)雜關(guān)系。
經(jīng)過(guò)數(shù)年籌備,他們所開(kāi)發(fā)的這套ASL系統(tǒng)已有突破性進(jìn)展。據(jù)田英利教授介紹,ASL-100-RGBD數(shù)據(jù)集、ASL-Homework-RGBD數(shù)據(jù)集、實(shí)時(shí)手語(yǔ)語(yǔ)法錯(cuò)誤識(shí)別系統(tǒng),是實(shí)現(xiàn)這一進(jìn)步的關(guān)鍵。
ASL-100-RGBD數(shù)據(jù)集:研究的基石
ASL-100-RGBD數(shù)據(jù)集由羅切斯特理工學(xué)院和紐約市立大學(xué)的研究人員共同創(chuàng)建,它包含了100個(gè)ASL手勢(shì)的彩色和深度視頻(RGBD視頻)。這些視頻由流利的ASL使用者在Kinect V2傳感器前表演,為手語(yǔ)識(shí)別算法的開(kāi)發(fā)提供了寶貴的基礎(chǔ)資源。
田英利教授強(qiáng)調(diào),在收集數(shù)據(jù)時(shí),團(tuán)隊(duì)確保了參與者的多樣性,招募了不同性別、年齡和背景的流利ASL使用者。而且所選擇的100個(gè)ASL常用手勢(shì),其中大多數(shù)與美國(guó)手語(yǔ)語(yǔ)法有關(guān)(例如時(shí)間、問(wèn)題、條件等語(yǔ)法元素),而且通常在大學(xué)一年級(jí)的ASL課程中學(xué)習(xí)。每個(gè)手勢(shì)都被詳細(xì)地標(biāo)注,包括開(kāi)始和結(jié)束的時(shí)間,以及相關(guān)的面部表情和頭部動(dòng)作。
ASL-Homework-RGBD數(shù)據(jù)集:教育與研究的橋梁
ASL-Homework-RGBD數(shù)據(jù)集進(jìn)一步擴(kuò)展了研究范圍,它不僅包含了流利手語(yǔ)者的視頻,還涵蓋了正在學(xué)習(xí)ASL的非流利使用者的表現(xiàn)。
這種多樣性使得研究者能夠?qū)Ρ确治隽骼c非流利手語(yǔ)者的差異,從而更好地理解學(xué)習(xí)過(guò)程中的變化,改進(jìn)教學(xué)方法,并開(kāi)發(fā)出更精確的手語(yǔ)識(shí)別系統(tǒng)。此外,數(shù)據(jù)集還可以作為CV研究人員設(shè)計(jì)算法的基準(zhǔn),以檢測(cè)視頻中的手語(yǔ)錯(cuò)誤或評(píng)估連續(xù)手語(yǔ)識(shí)別算法性能。
實(shí)時(shí)手語(yǔ)語(yǔ)法錯(cuò)誤識(shí)別系統(tǒng):技術(shù)的應(yīng)用
實(shí)時(shí)手語(yǔ)語(yǔ)法錯(cuò)誤識(shí)別系統(tǒng),將ASL-100-RGBD和ASL-Homework-RGBD數(shù)據(jù)集的研究成果應(yīng)用于實(shí)際教學(xué)中。這個(gè)系統(tǒng)能夠處理連續(xù)的手語(yǔ)視頻,自動(dòng)識(shí)別語(yǔ)法錯(cuò)誤,并為ASL學(xué)習(xí)者提供即時(shí)反饋。
它利用3D-ResNet網(wǎng)絡(luò)獨(dú)立識(shí)別手語(yǔ)的語(yǔ)法元素,并采用滑動(dòng)窗口方法檢測(cè)不同模態(tài)的語(yǔ)法元素的時(shí)間邊界,有效識(shí)別ASL語(yǔ)法錯(cuò)誤。
田英利教授提到,使用滑動(dòng)窗口技術(shù)來(lái)處理長(zhǎng)句子,這是一種在視覺(jué)和圖像處理中常見(jiàn)的方法。他們的研究創(chuàng)新之處在于結(jié)合了多個(gè)模態(tài)和多通道的信息,即,手部動(dòng)作、表情、身體語(yǔ)言以及顏色和深度信息(RGBD信息)來(lái)識(shí)別語(yǔ)法錯(cuò)誤,而不是識(shí)別每一個(gè)字。
也就是說(shuō),無(wú)需逐字翻譯,而是專(zhuān)注于語(yǔ)法錯(cuò)誤,包括時(shí)間、問(wèn)題、條件等語(yǔ)法元素。(更多細(xì)節(jié)可閱讀論文原文,在文章底部參考資料)
測(cè)試顯示,這一系統(tǒng)能夠在2分鐘內(nèi),為時(shí)長(zhǎng)1分鐘的ASL視頻生成反饋,這對(duì)于手語(yǔ)學(xué)習(xí)者來(lái)說(shuō)極其寶貴。
更重要的是,ASL-100-RGBD和ASL-Homework-RGBD兩大數(shù)據(jù)集,均已在Databrary平臺(tái)上向授權(quán)用戶開(kāi)放,將為未來(lái)更多從事手語(yǔ)研究者提供了必要的訓(xùn)練和測(cè)試數(shù)據(jù),推動(dòng)整個(gè)研究領(lǐng)域的發(fā)展。
The ASL-100-RGBD database : https://nyu.databrary.org/volume/1062
The ASL-Homework-RGBD dataset : https://nyu.databrary.org/volume/1249
多模態(tài)3DCNN框架的概述圖
盡管如此,田英利教授仍然指出了目前數(shù)據(jù)集和系統(tǒng)的局限。
ASL-100-RGBD數(shù)據(jù)集所選擇的100個(gè)手勢(shì),主要集中在有關(guān)手語(yǔ)語(yǔ)法;參與者的人口統(tǒng)計(jì)信息可能無(wú)法完全代表ASL使用者的多樣性,因?yàn)閰⑴c者主要是年輕人,他們屬于能流利使用美國(guó)手語(yǔ)的一類(lèi)群體并且都有六年以上使用手語(yǔ)的經(jīng)驗(yàn)。對(duì)手語(yǔ)使用者來(lái)說(shuō),主要差別包括“聽(tīng)力損失程度”、“教育背景”、“美國(guó)手語(yǔ)流利程度”。
此外,目前這一系統(tǒng)在ASL-100-RGBD數(shù)據(jù)集上手語(yǔ)的識(shí)別率達(dá)到93%的準(zhǔn)確率。在不用識(shí)別每個(gè)單獨(dú)手勢(shì)前提下,對(duì)多個(gè)連續(xù)手語(yǔ)句子,ASL語(yǔ)法錯(cuò)誤識(shí)別率超過(guò)60%,包括識(shí)別詞匯錯(cuò)誤(如缺少適當(dāng)?shù)拿娌勘砬榛蝾^部動(dòng)作)和時(shí)間錯(cuò)誤(如非手部信號(hào)發(fā)生的時(shí)間與句子結(jié)構(gòu)的開(kāi)始或結(jié)束太遠(yuǎn))。
無(wú)論如何,這些研究成果已經(jīng)為ASL研究和教育技術(shù)的進(jìn)步奠定了堅(jiān)實(shí)的基礎(chǔ),未來(lái)或?qū)⒊霈F(xiàn)更多元的解決方案,并推動(dòng)手語(yǔ)商業(yè)化時(shí)代到來(lái)。
團(tuán)隊(duì)介紹
在美國(guó)手語(yǔ)(ASL)研究課題中,跨學(xué)科團(tuán)隊(duì)合作發(fā)揮著至關(guān)重要的作用。
紐約城市大學(xué)的田英利教授帶領(lǐng)的研究團(tuán)隊(duì),包括她的學(xué)生 Elahe Vahdani 和 Longlong Jing 、羅切斯特理工大學(xué)的 Matt Huenerfauth 教授,以及亨特學(xué)院的Elaine Gale教授,共同致力于手語(yǔ)語(yǔ)法系統(tǒng)和算法的研究和開(kāi)發(fā),以及數(shù)據(jù)集的設(shè)計(jì)和收集工作。
Matt Huenerfauth博士,畢業(yè)于賓夕法尼亞大學(xué)計(jì)算機(jī)系,專(zhuān)攻計(jì)算語(yǔ)言學(xué)。自2006年博士畢業(yè)以來(lái),他一直專(zhuān)注于手語(yǔ)計(jì)算研究,不曾變換研究方向,如今已成為該領(lǐng)域的國(guó)際知名專(zhuān)家。
據(jù)悉,他曾在紐約城市大學(xué)皇后學(xué)院任教期間掌握了美國(guó)手語(yǔ),并取得了手語(yǔ)翻譯員證書(shū)。目前他在羅切斯特理工學(xué)院(RIT) 任教,擔(dān)任Golisano計(jì)算機(jī)與信息科學(xué)學(xué)院的教授和院長(zhǎng),圍繞聾啞人無(wú)障礙技術(shù)和手語(yǔ)展開(kāi)研究。
田英利教授、Elahe Vahdani 、Longlong Jing、Matt Huenerfauth 教授、Elaine Gale 教授
田英利教授則擁有扎實(shí)的計(jì)算機(jī)視覺(jué)技術(shù)背景。她于1990年從天津大學(xué)光電工程專(zhuān)業(yè)畢業(yè)后,加入了馬頌德教授創(chuàng)立和領(lǐng)導(dǎo)的中科院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。在獲得香港中文大學(xué)博士學(xué)位后,她前往美國(guó)卡內(nèi)基梅隆大學(xué)進(jìn)行博士后研究,師從計(jì)算機(jī)視覺(jué)領(lǐng)域的領(lǐng)軍人物金出武雄。
(有關(guān)田英利和金出武雄的故事請(qǐng)點(diǎn)擊:金出武雄和他的中國(guó)學(xué)生們,計(jì)算機(jī)視覺(jué)五十載風(fēng)云)
那段時(shí)間,她專(zhuān)注于人臉表情自動(dòng)分析和數(shù)據(jù)庫(kù)開(kāi)發(fā)。2000年前后,人臉表情識(shí)別成為美國(guó)計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn),田英利的工作為她在IBM T. J. Watson研究中心領(lǐng)導(dǎo)視頻分析團(tuán)隊(duì)奠定了基礎(chǔ)。
2008年,田英利教授回歸學(xué)術(shù)界,加入紐約城市大學(xué)電氣工程系,成為該系十多年來(lái)的第一位女性教授。她在那里開(kāi)創(chuàng)了輔助技術(shù)研究方向,致力于利用計(jì)算機(jī)視覺(jué)技術(shù)服務(wù)于視障、聽(tīng)障、聾啞和老年人等特殊群體。
田教授表示,她首先關(guān)注了盲人,很自然地將研究重點(diǎn)延伸到了手語(yǔ)識(shí)別,因?yàn)槭终Z(yǔ)包含了表情、行為和手勢(shì),這些都與她之前的研究緊密相關(guān)。
此外,田教授還表示,近年來(lái)她參與的跨學(xué)科研究不斷增加,與同校計(jì)算機(jī)系的朱志剛教授、同系肖繼忠教授(機(jī)器人專(zhuān)家)、亨特學(xué)院的Elaine Gale教授等合作。Elaine教授是本次手語(yǔ)課題的關(guān)鍵參與者,她是一位后天失聰者,精通唇語(yǔ),并在手語(yǔ)教育方面有著豐富的經(jīng)驗(yàn)。她將這套系統(tǒng)應(yīng)用于自己的課程中,確保了系統(tǒng)在實(shí)際教學(xué)中的有效性。
值得一提的是,近兩年OpenAI發(fā)布的ChatGPT和Sora,將「大模型」技術(shù)推到制高點(diǎn),不乏有人呼吁推出“手語(yǔ)語(yǔ)法識(shí)別通用大模型”。
對(duì)此,田教授分析,未來(lái)手語(yǔ)領(lǐng)域的研究方向可能會(huì)涉及大規(guī)模數(shù)據(jù)集的構(gòu)建。也就是說(shuō),未來(lái)的系統(tǒng)開(kāi)發(fā)不僅僅針對(duì)一種手語(yǔ),而是考慮將不同國(guó)家的手語(yǔ)數(shù)據(jù)集整合起來(lái),提取手語(yǔ)的通用特征,然后在特定的手語(yǔ)上進(jìn)行微調(diào),以提高系統(tǒng)識(shí)別的精度和適應(yīng)性。
但至于實(shí)際走向如何,田教授指出有兩大挑戰(zhàn):
“手語(yǔ)領(lǐng)域缺乏像ChatGPT那樣的大規(guī)模數(shù)據(jù)集,這限制了手語(yǔ)識(shí)別模型的通用性和準(zhǔn)確性;手語(yǔ)不像某些語(yǔ)言模型,可以通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練后就能通用,手語(yǔ)在不同國(guó)家有著特定的詞匯和表達(dá)方式,這使得創(chuàng)建一個(gè)通用的手語(yǔ)識(shí)別模型變得更加復(fù)雜?!?/p>
目前田英利教授和團(tuán)隊(duì)所開(kāi)發(fā)的這套系統(tǒng),并非基于大模型,因?yàn)樗褂玫臄?shù)據(jù)量相對(duì)較小,而且他們的手語(yǔ)識(shí)別系統(tǒng)是在大模型概念出現(xiàn)之前就開(kāi)始的。他們正在探索使用自監(jiān)督學(xué)習(xí)來(lái)利用現(xiàn)有數(shù)據(jù)學(xué)習(xí)特征,并將其應(yīng)用于小數(shù)據(jù)集上,以提高系統(tǒng)的性能,同時(shí)也計(jì)劃收集更多的數(shù)據(jù)來(lái)改進(jìn)手語(yǔ)識(shí)別系統(tǒng)。
在手語(yǔ)輔助系統(tǒng)的領(lǐng)域內(nèi),仍有許多技術(shù)挑戰(zhàn)亟待克服。在這一背景下,田教授團(tuán)隊(duì)開(kāi)放數(shù)據(jù)集的做法顯得尤為關(guān)鍵。這將促進(jìn)學(xué)術(shù)界與工業(yè)界的交流合作,也為整個(gè)領(lǐng)域的發(fā)展注入了新動(dòng)力。
手語(yǔ)識(shí)別技術(shù),作為一種橋梁,連接了聽(tīng)障人士與社會(huì)的溝通,其在醫(yī)療輔助和社交互動(dòng)中展現(xiàn)出巨大的應(yīng)用潛力。
盡管全球眾多學(xué)術(shù)和工業(yè)團(tuán)隊(duì)長(zhǎng)期致力于破解手語(yǔ)識(shí)別的復(fù)雜挑戰(zhàn),這一領(lǐng)域仍面臨著一系列未解之題。
手語(yǔ)識(shí)別的關(guān)鍵難題有哪些?
如何從零開(kāi)始構(gòu)建并部署一套高效的手語(yǔ)識(shí)別系統(tǒng)?
如今 ChatGPT ,Sora 等大模型對(duì)手語(yǔ)識(shí)別研究的啟示?
除了計(jì)算機(jī)視覺(jué)(CV)技術(shù),還有哪些技術(shù)路徑可以探索?
在國(guó)內(nèi)外,哪些學(xué)術(shù)團(tuán)隊(duì)和工業(yè)團(tuán)隊(duì)在手語(yǔ)識(shí)別領(lǐng)域取得了顯著成就?
為了深入探討這些問(wèn)題,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))將在3月舉辦一場(chǎng)專(zhuān)題研討會(huì),屆時(shí)將邀請(qǐng)?zhí)镉⒗淌谝约笆终Z(yǔ)研究領(lǐng)域的專(zhuān)家學(xué)者,共同分享他們的見(jiàn)解和研究成果。這次會(huì)議將為手語(yǔ)識(shí)別技術(shù)的未來(lái)發(fā)展提供寶貴的交流平臺(tái)。
本文作者 吳彤 長(zhǎng)期關(guān)注科人工智能、生命科學(xué)和科技一線工作者,習(xí)慣系統(tǒng)完整記錄科技的每一次進(jìn)步,歡迎同道微信交流:icedaguniang
參考資料
1,Elahe Vahdani、Longlong Jing、Matt Huenerfauth and Y. Tian, Multi-Modal Multi-Channel American Sign Language Recognition, International Journal of Artificial Intelligence and Robotics Research (IJAIRR), 2023.
2,E. Vahdani, L. Jing, M. Huenerfauth, and Y. Tian, Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos, International Conference on Pattern Recognition (ICPR), 2020.
3,S. Hassan, L. Berke, E. Vahdani, L. Jing, Y. Tian, and M. Huenerfauth, An Isolated-Signing RGBD Dataset of 100 American Sign Language Signs Produced by Fluent ASL Signers, In proceedings of the 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives, May 2020.
4,Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, and Matt Huenerfauth, ASL-Homework-RGBD Dataset: An Annotated Dataset of 45 fluent and non-fluent Signers Performing American Sign Language Homeworks, In proceedings of the 10th Workshop on the Representation and Processing of Sign Languages: Multilingual Sign Language Resources, June 2022.
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章