0
本文作者: 任平 | 2024-03-26 10:19 | 專題:AI for Science |
在數(shù)據(jù)和算法塑造的現(xiàn)代世界中,人工智能正快速地推動(dòng)社會(huì)變革。
在此背景下,一群學(xué)者將關(guān)注投向了社會(huì)邊緣群體——聽(tīng)障人士。他們通過(guò)深入的研究和開(kāi)放的對(duì)話,探索科技如何成為溝通的橋梁,為每個(gè)人帶來(lái)溫暖。
最近,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))組織的“AI+手語(yǔ)識(shí)別:技術(shù)革新與應(yīng)用前景”線上圓桌論壇,匯聚了田英利、倪蘭、蘇劍波、方昱春四位教授,他們憑借對(duì)聽(tīng)障社群和AI技術(shù)的深刻理解,進(jìn)行了一場(chǎng)內(nèi)容豐富的對(duì)話。
兩個(gè)小時(shí)的時(shí)間里,他們談到手語(yǔ)與計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)言學(xué)技術(shù)的結(jié)合,還討論了倫理、隱私保護(hù)和實(shí)際應(yīng)用等關(guān)鍵議題,為理解聽(tīng)障人士如何與科技融合提供了新的視角。
這不免讓人回憶起喬布斯所言:“技術(shù)本身并不足以改變世界,關(guān)鍵在于技術(shù)背后的人?!边@四位教授正是通過(guò)技術(shù)實(shí)現(xiàn)社會(huì)變革的代表。
田英利教授,作為計(jì)算機(jī)視覺(jué)領(lǐng)域的權(quán)威專家,這十年來(lái)專注于將手語(yǔ)識(shí)別技術(shù)應(yīng)用于改善聽(tīng)障人群的溝通。疫情期間,她團(tuán)隊(duì)的手語(yǔ)識(shí)別系統(tǒng)的遠(yuǎn)程測(cè)試引發(fā)了一個(gè)關(guān)鍵猜想:手語(yǔ)識(shí)別系統(tǒng)的有效性可能更依賴于上下文語(yǔ)義理解,而非細(xì)致的多層標(biāo)注,這一發(fā)現(xiàn)為實(shí)際應(yīng)用開(kāi)辟了新的可能性。
倪蘭教授,擁有豐富的語(yǔ)言學(xué)背景,二十年來(lái)專注于“手語(yǔ)語(yǔ)言學(xué)”的研究。她探討了語(yǔ)言學(xué)對(duì)手語(yǔ)識(shí)別的深層意義,提出了在AI時(shí)代重新定義語(yǔ)言學(xué)家角色和貢獻(xiàn)的必要性。
蘇劍波教授,從產(chǎn)品開(kāi)發(fā)視角出發(fā),強(qiáng)調(diào)了手語(yǔ)識(shí)別技術(shù)面臨的實(shí)際挑戰(zhàn),尤其是樣本采集的場(chǎng)景特定性與技術(shù)和產(chǎn)品通用性之間的平衡問(wèn)題。
方昱春教授,同樣作為一位CV學(xué)者,指出手語(yǔ)識(shí)別的復(fù)雜性遠(yuǎn)超人臉識(shí)別,并基于七年的研究經(jīng)驗(yàn),對(duì)手語(yǔ)數(shù)據(jù)的收集和管理提出了見(jiàn)解,指出面部隱私保護(hù)技術(shù)“DeID”,可能為手語(yǔ)數(shù)據(jù)的安全共享提供新的解決方案。
這場(chǎng)論壇不僅促進(jìn)了技術(shù)交流,更是跨學(xué)科合作的典范,正如在圓桌結(jié)束后觀眾所言:如果說(shuō)交叉學(xué)科研究中最稀缺什么,那一定是敞開(kāi)心扉的對(duì)話。
以下是線上圓桌的全文(經(jīng)編輯):
田英利:歡迎大家齊聚線上,也感謝雷峰網(wǎng)的組織。我相信大家和我一樣,都對(duì)接下來(lái)手語(yǔ)識(shí)別討論充滿期待。在開(kāi)始之前,請(qǐng)大家介紹下自己。
倪蘭:我是倪蘭,來(lái)自上海大學(xué)文學(xué)院,語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)專業(yè)。我進(jìn)入手語(yǔ)研究領(lǐng)域至今已經(jīng)整整二十年。在上海大學(xué),我們成立了中國(guó)手語(yǔ)及聾人研究中心,這個(gè)中心致力于手語(yǔ)的學(xué)術(shù)研究和聾人群體的社會(huì)調(diào)查,以此增進(jìn)社會(huì)對(duì)這個(gè)群體及其語(yǔ)言的理解。
蘇劍波:大家好!我是蘇劍波,來(lái)自上海交通大學(xué)和上海靈至科技有限公司。很高興有這個(gè)機(jī)會(huì)與大家交流我在手語(yǔ)識(shí)別方面的研究。我的工作最初源于人機(jī)交互領(lǐng)域,最開(kāi)始并非專門(mén)針對(duì)聾啞或殘障人士。我的初衷是讓機(jī)器人能夠通過(guò)人類的下意識(shí)行為、表情和肢體語(yǔ)言來(lái)識(shí)別意圖和情緒。在這個(gè)過(guò)程中,我逐漸意識(shí)到手語(yǔ)在表達(dá)情感中的重要性,并開(kāi)始專注于聾/啞人群的手語(yǔ)識(shí)別。
我目前的研究仍未完全區(qū)分健聽(tīng)人和聽(tīng)障人士的手勢(shì)識(shí)別,我將繼續(xù)在這個(gè)混合領(lǐng)域進(jìn)行探索。希望今晚能與大家分享我的研究成果。
方昱春:我是方昱春,來(lái)自上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院。自2017年起,我開(kāi)始涉足手語(yǔ)研究,并深感榮幸能得到倪老師的支持和指導(dǎo)開(kāi)展交叉學(xué)科研究。手語(yǔ)作為一門(mén)自然語(yǔ)言,遠(yuǎn)不止是符號(hào)系統(tǒng)那么簡(jiǎn)單,這深深吸引了我。我們有幸獲得國(guó)家文字語(yǔ)言委員會(huì)和上海市科學(xué)技術(shù)委員會(huì)科研經(jīng)費(fèi)的支持,在上海大學(xué)建立了專門(mén)的語(yǔ)言采集實(shí)驗(yàn)室和推廣基地,并開(kāi)展了相關(guān)教學(xué)課程建設(shè)。期待未來(lái)能與大家進(jìn)行更深入的合作。
田英利:我是田英利,自1998年在美國(guó)卡內(nèi)基梅隆大學(xué)開(kāi)始接觸人的表情識(shí)別研究。在那里,我與導(dǎo)師和團(tuán)隊(duì)共同創(chuàng)建了第一個(gè)微表情識(shí)別數(shù)據(jù)庫(kù),多年來(lái)被同領(lǐng)域廣泛使用。在IBM工作三年后,我于2008年加入紐約城市大學(xué),開(kāi)始思考如何將計(jì)算機(jī)視覺(jué)研究應(yīng)用于幫助有特殊需求的人群,特別是盲人和聾人。
手語(yǔ)作為聾人與外界交流的主要方式,不僅包括手勢(shì),還涉及面部表情和身體動(dòng)作。掌握手語(yǔ)對(duì)聾人和健聽(tīng)人來(lái)說(shuō)都不容易,因此,如果能開(kāi)發(fā)出自動(dòng)識(shí)別手語(yǔ)的技術(shù),將極大地幫助聾人在就業(yè)和社交方面。
盡管各國(guó)都在努力,但手語(yǔ)識(shí)別仍面臨挑戰(zhàn)。我希望今天的論壇能讓我們更深入地理解這一領(lǐng)域,為未來(lái)的研究和產(chǎn)業(yè)應(yīng)用提供實(shí)際指導(dǎo)。
田英利:第一個(gè)問(wèn)題,關(guān)于手語(yǔ)識(shí)別領(lǐng)域的進(jìn)展,盡管眾多團(tuán)隊(duì)和個(gè)人已在這個(gè)方向上努力多年,但仍有許多值得探討的空間。國(guó)內(nèi)外有哪些學(xué)術(shù)和工業(yè)團(tuán)隊(duì)在這一領(lǐng)域取得了顯著成就?他們的研究成果是如何推動(dòng)手語(yǔ)識(shí)別技術(shù)發(fā)展的?倪蘭教授,請(qǐng)您先開(kāi)始。
倪蘭:作為從事語(yǔ)言學(xué)研究的學(xué)者,我對(duì)手語(yǔ)識(shí)別領(lǐng)域的認(rèn)識(shí)可能不夠深入,但可以和大家分享一些我所了解的情況。
2003年當(dāng)我們開(kāi)始手語(yǔ)研究項(xiàng)目時(shí),哈爾濱工業(yè)大學(xué)和中國(guó)科學(xué)院的自動(dòng)化所、計(jì)算所等已在進(jìn)行相關(guān)研究,早期側(cè)重于穿戴式設(shè)備而非計(jì)算機(jī)視覺(jué)(CV)。隨著CV技術(shù)進(jìn)步,這個(gè)領(lǐng)域發(fā)生了顯著變化。
目前,國(guó)內(nèi)活躍的從事手語(yǔ)識(shí)別技術(shù)團(tuán)隊(duì)不僅包括哈工大和中科院的團(tuán)隊(duì),還有中科大的周文罡教授團(tuán)隊(duì)已在該領(lǐng)域深耕十多年,北京聯(lián)合大學(xué)的姚登峰教授,作為聽(tīng)障學(xué)者,他的研究具有獨(dú)特視角,他也正在建設(shè)中國(guó)手語(yǔ)和漢語(yǔ)的平行語(yǔ)料庫(kù),讓聾人學(xué)生進(jìn)入團(tuán)隊(duì)采集手語(yǔ)數(shù)據(jù),取得了不少成果。天津理工大學(xué)的聾人工學(xué)院多年前開(kāi)始建設(shè)中國(guó)手語(yǔ)長(zhǎng)篇語(yǔ)料數(shù)據(jù)集。我所在的上海大學(xué)自2017年成立手語(yǔ)研究中心起,就開(kāi)始建立實(shí)驗(yàn)室,采集手語(yǔ)視頻視頻,借鑒了國(guó)外數(shù)據(jù)采集的經(jīng)驗(yàn),在較為純凈的背景下進(jìn)行拍攝,便于計(jì)算機(jī)后期建模,盡管在實(shí)驗(yàn)室采集,我們也盡量使用各種方式以誘導(dǎo)更自然的手語(yǔ)表達(dá),以便獲取自然語(yǔ)料。
蘇劍波:我對(duì)手語(yǔ)識(shí)別領(lǐng)域的研究,起于對(duì)機(jī)器人領(lǐng)域的人機(jī)交互理論和技術(shù)的關(guān)注,并非一開(kāi)始就專注于聾人手語(yǔ)。我更關(guān)心的是如何讓機(jī)器人能夠通過(guò)對(duì)人的手勢(shì),乃至肢體行為的自動(dòng)識(shí)別,來(lái)理解人類的情緒和意圖。
因此,我對(duì)相關(guān)團(tuán)隊(duì)的關(guān)注點(diǎn)可能與倪老師提到的有所不同。
在機(jī)器人學(xué)領(lǐng)域,國(guó)內(nèi)外許多研究機(jī)構(gòu)如中科院自動(dòng)化所、哈工大,以及我所在的上海交通大學(xué)和曾做過(guò)訪問(wèn)研究的香港中文大學(xué)等,都在進(jìn)行相關(guān)研究,盡管尚未形成完整體系。這些研究通?;谔囟?xiàng)目或產(chǎn)業(yè)化需求,利用計(jì)算機(jī)視覺(jué)技術(shù)和工具積累,在企業(yè)提出的應(yīng)用需求上,開(kāi)發(fā)各種能幫助殘障人士或聾啞人交流的技術(shù)或工具。
應(yīng)用場(chǎng)景如政府機(jī)關(guān)職員或醫(yī)院中醫(yī)生與聾啞病人的交流,所需的語(yǔ)料庫(kù)相對(duì)有限,側(cè)重于典型詞匯的表達(dá)意圖或含義,而非全面的語(yǔ)言學(xué)研究。
但相似的是,我們的研究同樣從視頻入手,專注于語(yǔ)義和含義的識(shí)別,更側(cè)重于通用語(yǔ)料庫(kù)的應(yīng)用。
方昱春:作為計(jì)算機(jī)視覺(jué)專業(yè)的學(xué)者,我踏入手語(yǔ)識(shí)別這一研究領(lǐng)域,最初是受到手語(yǔ)語(yǔ)言學(xué)的啟發(fā),激發(fā)了我的研究熱情。
國(guó)內(nèi),中國(guó)科學(xué)技術(shù)大學(xué)手語(yǔ)識(shí)別團(tuán)隊(duì)在手語(yǔ)識(shí)別領(lǐng)域取得了顯著成就。國(guó)際上,德國(guó)亞琛工業(yè)大學(xué)的研究團(tuán)隊(duì)同樣在這一領(lǐng)域享有盛譽(yù)。這兩個(gè)團(tuán)隊(duì)?wèi){借超過(guò)十年的研究積累,發(fā)布了多代數(shù)據(jù)集,推動(dòng)了孤立詞識(shí)別、連續(xù)手語(yǔ)識(shí)別和手語(yǔ)翻譯等關(guān)鍵問(wèn)題的研究,并引領(lǐng)了整個(gè)領(lǐng)域的發(fā)展。
此外,中科院計(jì)算所、西安電子科技大學(xué)、清華大學(xué)、香港科技大學(xué)、西湖大學(xué),中科院自動(dòng)化所、合肥工業(yè)大學(xué)、東北大學(xué)近年來(lái)也在手語(yǔ)識(shí)別領(lǐng)域持續(xù)發(fā)表了高水平成果。天津理工大學(xué)也建立了數(shù)據(jù)集。
特別值得一提的是,中科院計(jì)算所陳益強(qiáng)研究員團(tuán)隊(duì),在基于數(shù)據(jù)手套的手語(yǔ)理解領(lǐng)域取得了顯著成就,他的團(tuán)隊(duì)在聾校進(jìn)行了教學(xué)應(yīng)用和人機(jī)交互場(chǎng)景的探索。在2017年我們正準(zhǔn)備采用計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行手語(yǔ)識(shí)別時(shí),陳益強(qiáng)教授鼓勵(lì)我們嘗試,盡管當(dāng)時(shí)成功的可能性并不確定。畢竟,當(dāng)時(shí)“人臉識(shí)別”取得了限定范圍應(yīng)用,“手語(yǔ)識(shí)別”的難度無(wú)疑更高。
2023年,參與手語(yǔ)識(shí)別研究的學(xué)校和企業(yè)數(shù)量進(jìn)一步增加。
國(guó)內(nèi)外企業(yè)如小米、華為、騰訊,以及微軟、谷歌等也都積極參與這一領(lǐng)域的研究。很多企業(yè)關(guān)注開(kāi)發(fā)具備手語(yǔ)能力的數(shù)字人,以提升人機(jī)交互體驗(yàn)。
手語(yǔ)識(shí)別領(lǐng)域近年來(lái)的快速發(fā)展,新的數(shù)據(jù)集和相關(guān)競(jìng)賽的頻繁發(fā)布預(yù)示著這一領(lǐng)域的未來(lái)潛力。
田英利:我接著談?wù)勎以诿绹?guó)做手語(yǔ)識(shí)別的經(jīng)驗(yàn),以及對(duì)國(guó)際手語(yǔ)識(shí)別領(lǐng)域的觀察。
相比較而言,歐洲比美國(guó)更早關(guān)注殘障人士研究,但美國(guó)很快跟上了步伐,我很高興看到中國(guó)許多單位也開(kāi)始這一領(lǐng)域的研究。這背后最大的推動(dòng)力是人工智能和機(jī)器學(xué)習(xí)的進(jìn)步,以及計(jì)算機(jī)算力的提升,使得原本不可能的研究變得可行。
正如剛才倪教授所說(shuō),早期手語(yǔ)識(shí)別研究,包括與語(yǔ)言相關(guān)的研究,一開(kāi)始是依賴于穿戴手套等設(shè)備來(lái)捕捉手指運(yùn)動(dòng),實(shí)現(xiàn)基本詞匯的識(shí)別。但現(xiàn)在,隨著技術(shù)的發(fā)展,尤其是微軟為游戲設(shè)計(jì)的RGBD攝像頭的應(yīng)用,許多學(xué)校開(kāi)始使用RGBD技術(shù)進(jìn)行捕捉。這不僅提供了視頻信息,還增加了深度信息,極大地提高了計(jì)算機(jī)視覺(jué)算法的精度。
目前,手語(yǔ)識(shí)別的主要瓶頸是缺乏通用的大型數(shù)據(jù)庫(kù)。盡管自然語(yǔ)言學(xué)習(xí)領(lǐng)域數(shù)據(jù)庫(kù)技術(shù)已有顯著進(jìn)展,但手語(yǔ)識(shí)別仍面臨挑戰(zhàn)。美國(guó)、德國(guó),希臘、土耳其等國(guó)也在進(jìn)行數(shù)據(jù)采集和識(shí)別工作。
我們的團(tuán)隊(duì)自2004年起研究手語(yǔ)識(shí)別,結(jié)合計(jì)算機(jī)視覺(jué)技術(shù)和語(yǔ)言學(xué)研究,希望將人的表情、手勢(shì)和身體動(dòng)作結(jié)合起來(lái)進(jìn)行識(shí)別,滿足聾人的真實(shí)需求。
這個(gè)過(guò)程中,我們與很多高校建立起合作,比如羅切斯特理工大學(xué)(RIT),他們擁有規(guī)模龐大的聾人學(xué)院,超過(guò)1000名聾人學(xué)生;以及紐約城市大學(xué)亨特學(xué)院的Elaine Gale教授,她是一位失聰者,精通唇語(yǔ),并在手語(yǔ)教育方面有著豐富的經(jīng)驗(yàn)。
所以我們團(tuán)隊(duì)的工作流程相當(dāng)于一條龍服務(wù):RIT負(fù)責(zé)數(shù)據(jù)采集和標(biāo)注,我們負(fù)責(zé)開(kāi)發(fā)系統(tǒng)算法,然后Gale教授的團(tuán)隊(duì)在他的課堂上與學(xué)生一起驗(yàn)證我們的系統(tǒng),并提供反饋,以便我們進(jìn)一步改進(jìn)。
我們意識(shí)到手語(yǔ)是一種完整的語(yǔ)言,不僅限于有限的詞匯。我們的目標(biāo)是研究手語(yǔ)的語(yǔ)法結(jié)構(gòu),而非單一手勢(shì)。目前我們打造出一條針對(duì)美國(guó)手語(yǔ)的語(yǔ)法實(shí)時(shí)識(shí)別系統(tǒng),能自動(dòng)反饋學(xué)生手語(yǔ)的語(yǔ)法正確性,提供快速反饋。
我期望國(guó)內(nèi)能建立跨學(xué)科的、成體系的研究環(huán)境,不僅僅是語(yǔ)言學(xué)者或計(jì)算機(jī)學(xué)院的獨(dú)立研究,而是能夠整合不同學(xué)科、聚集各類人才。我相信,隨著研究的深入,這一領(lǐng)域?qū)?huì)取得更大的進(jìn)步。
田英利:第二個(gè)問(wèn)題:如何從零開(kāi)始構(gòu)建并部署一套高效的手語(yǔ)識(shí)別系統(tǒng),在這一過(guò)程中我們面臨了哪些技術(shù)難題?大家是如何克服這些難題的?還有哪些問(wèn)題尚未解決?倪老師,請(qǐng)先開(kāi)始。
倪蘭:手語(yǔ)識(shí)別系統(tǒng)構(gòu)建不是我的專業(yè),我可以從語(yǔ)言學(xué)的角度提供一些參考。在我看來(lái),手語(yǔ)識(shí)別的過(guò)程類似于人類學(xué)習(xí)一門(mén)新語(yǔ)言的過(guò)程,我們需要理解詞匯的意義、語(yǔ)法結(jié)構(gòu),最終達(dá)到理解整個(gè)語(yǔ)言系統(tǒng)的目的。從某種意義上說(shuō),手語(yǔ)識(shí)別就是將人類的語(yǔ)言學(xué)習(xí)經(jīng)驗(yàn)傳授給機(jī)器的過(guò)程。
在構(gòu)建手語(yǔ)識(shí)別系統(tǒng)時(shí),我們需要解決的關(guān)鍵問(wèn)題是如何匹配形式和意義。剛才田老師提到的方法,似乎是將整個(gè)句子視為一個(gè)結(jié)構(gòu)來(lái)處理,而不是單獨(dú)識(shí)別每個(gè)詞。這種方法似乎更側(cè)重于語(yǔ)言單位的整體性,而不是單個(gè)詞的識(shí)別。
在國(guó)內(nèi),許多團(tuán)隊(duì)可能是先從識(shí)別孤立的詞匯開(kāi)始,然后逐步擴(kuò)展到整個(gè)句子或段落的識(shí)別。但田老師提到的方法是不要求具體詞的精確識(shí)別,而是關(guān)注整個(gè)句子的意義匹配。這實(shí)際上涉及到語(yǔ)言學(xué)中的“語(yǔ)塊理論”,即“以意義為單位進(jìn)行語(yǔ)言分析”。
我很想知道,田老師的方法是否需要人工標(biāo)注句子的意義,以及在形式和意義的匹配過(guò)程中,如何界定語(yǔ)言單位,以及如何進(jìn)行標(biāo)注。這些可能是我們?cè)跇?gòu)建手語(yǔ)識(shí)別系統(tǒng)時(shí)需要深入討論的問(wèn)題。
田英利:倪老師,您提到的問(wèn)題非常關(guān)鍵。確實(shí),手語(yǔ)的連續(xù)性和句子間的切分對(duì)于理解整個(gè)表達(dá)非常重要。機(jī)器學(xué)習(xí)在切分方面可能與傳統(tǒng)語(yǔ)言學(xué)的方法有所不同。在我們的研究中,雖然我們沒(méi)有對(duì)每個(gè)詞進(jìn)行識(shí)別,但我們確實(shí)對(duì)一些與語(yǔ)法相關(guān)的關(guān)鍵詞進(jìn)行了識(shí)別,比如表示時(shí)間的“昨天”、“前天”以及“明天”、“后天”,這些都是通過(guò)手勢(shì)、位置和表情來(lái)表達(dá)的語(yǔ)法元素。
我認(rèn)為,隨著對(duì)手語(yǔ)每個(gè)詞識(shí)別精度的提高,我們將能夠更好地理解整個(gè)句子。就像我們?cè)谡f(shuō)話時(shí),即使每個(gè)詞都聽(tīng)得懂,但如果沒(méi)有上下文的理解,我們也無(wú)法完全把握說(shuō)話者的意圖。同樣,在手語(yǔ)中,上下文的理解也非常關(guān)鍵。同一個(gè)手勢(shì),在不同的上下文中可能表達(dá)完全不同的意義。
總的來(lái)說(shuō),我認(rèn)為,對(duì)手語(yǔ)中單個(gè)詞的理解是必要的一步,但同時(shí),我們也需要關(guān)注上下文和整體句子的理解。這樣才能更全面地把握手語(yǔ)的含義。再次感謝倪老師您的寶貴意見(jiàn),它們對(duì)我們的研究工作具有重要的啟發(fā)意義。
倪蘭:田老師,您剛才提到了語(yǔ)言理解,包括語(yǔ)法中的時(shí)間詞和疑問(wèn)詞等。您在處理這些問(wèn)題時(shí),會(huì)考慮句子的語(yǔ)序嗎?比如,時(shí)間詞在句子中的位置,我們是將其放在句首、句中還是句尾?例如在漢語(yǔ)中,我們可能會(huì)說(shuō)“我昨天去了哪里”,這里的“昨天”是放在中間的。您在研究中會(huì)考慮這種語(yǔ)法結(jié)構(gòu)嗎?
田英利:是的,我們會(huì)考慮這些因素。我們不僅關(guān)注詞的位置,還關(guān)注它們的時(shí)間因素。
例如,我們不能在說(shuō)出“倪老師,你吃飯了嗎?”這個(gè)問(wèn)題之后,過(guò)了很久才做出詢問(wèn)的表情(比如眉毛上挑),這樣的話,表情就與問(wèn)題脫節(jié)了。因此,我們不僅要考慮表情發(fā)生的時(shí)間,還要考慮它與關(guān)鍵詞、問(wèn)題句子的相對(duì)時(shí)間關(guān)系。這樣的考慮才能賦予其語(yǔ)法意義。在美國(guó)手語(yǔ)和中國(guó)手語(yǔ)中,這些都是關(guān)鍵問(wèn)題。
蘇劍波:這個(gè)問(wèn)題確實(shí)是手語(yǔ)識(shí)別領(lǐng)域中非常核心的技術(shù)難題。我很難說(shuō)我們已經(jīng)克服了哪些挑戰(zhàn),或者更準(zhǔn)確地說(shuō),我認(rèn)為在手語(yǔ)識(shí)別方面,我們?nèi)匀幻媾R著大多數(shù)問(wèn)題尚未解決的現(xiàn)實(shí)。
正如方老師剛才所指出的,手語(yǔ)識(shí)別是一個(gè)比人臉識(shí)別要復(fù)雜得多的領(lǐng)域。確實(shí)如此,十多年前,我有一個(gè)碩士研究生專注于人臉識(shí)別研究,他取得了非常好的成果,并發(fā)表了優(yōu)秀的論文。畢業(yè)后,他去了香港中文大學(xué)攻讀博士學(xué)位,那里的導(dǎo)師希望他能將他在人臉識(shí)別研究中的經(jīng)驗(yàn)和成果應(yīng)用到手語(yǔ)識(shí)別上。他深思熟慮了好幾個(gè)月,最終還是放棄了,因?yàn)樗私獾绞终Z(yǔ)識(shí)別的難度,所以沒(méi)有繼續(xù)這個(gè)方向的研究。
手語(yǔ)識(shí)別領(lǐng)域的要求和對(duì)不同場(chǎng)景的適應(yīng)能力,以及對(duì)語(yǔ)言語(yǔ)料庫(kù)的積累,都使得它在模式識(shí)別領(lǐng)域中獨(dú)樹(shù)一幟。盡管我也是從計(jì)算機(jī)視覺(jué)和模式識(shí)別技術(shù)起步的,自然而然地會(huì)尋找能夠代表某一類模式的特征集合,這是我們這些受過(guò)模式識(shí)別專業(yè)訓(xùn)練的人的本能反應(yīng)。
但這種傳統(tǒng)模式識(shí)別領(lǐng)域內(nèi)有效的方法,在手語(yǔ)識(shí)別領(lǐng)域可能就不那么適用了。手語(yǔ)的多樣性和變化性——場(chǎng)景、人物、職業(yè)的不同,甚至不同地區(qū)和方言的差異——使得手語(yǔ)的特征選擇和定位變得異常困難,遠(yuǎn)遠(yuǎn)超出了人臉識(shí)別等其他模式識(shí)別任務(wù)的復(fù)雜性。手語(yǔ)識(shí)別不僅包括靜態(tài)手勢(shì)的識(shí)別,還包括動(dòng)態(tài)手勢(shì)的識(shí)別,這就像文字?jǐn)嗑湟粯樱煌臄嗑浞绞娇赡軐?dǎo)致完全不同的語(yǔ)言含義。手勢(shì)的這種“斷句”差異可能會(huì)導(dǎo)致真實(shí)含義的巨大變化,甚至完全相反的意思。更不用說(shuō)不同國(guó)家和方言的差別了。
在實(shí)際研究過(guò)程中,我們可能都會(huì)遇到類似的經(jīng)歷。如果我們基于公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)集進(jìn)行手語(yǔ)研究,相對(duì)來(lái)說(shuō)進(jìn)展會(huì)比較容易。但如果我們基于真實(shí)人物采集的數(shù)據(jù)庫(kù)進(jìn)行研究,難度就會(huì)大大增加,因?yàn)槭终Z(yǔ)和手勢(shì)的特征提取也會(huì)變得非常個(gè)性化!因此,如何將這些研究成果轉(zhuǎn)化為廣泛接受的手勢(shì)或手語(yǔ)表達(dá)形式,是手語(yǔ)研究中極具挑戰(zhàn)性的問(wèn)題。
在模式識(shí)別領(lǐng)域,無(wú)論是語(yǔ)音識(shí)別、人臉識(shí)別還是指紋識(shí)別,都有專門(mén)針對(duì)這些領(lǐng)域的工具和技術(shù)。然而,針對(duì)手語(yǔ)識(shí)別,我們似乎更多地是將其他領(lǐng)域的成功方法應(yīng)用到這里,而沒(méi)有針對(duì)手語(yǔ)識(shí)別開(kāi)發(fā)出專門(mén)的技術(shù)手段和算法。
這反映了我們?cè)谶@個(gè)領(lǐng)域開(kāi)發(fā)特定技術(shù)難度的問(wèn)題,或者說(shuō)是通用性的難以實(shí)現(xiàn)。我們現(xiàn)在所做的工作,大多是基于模式識(shí)別領(lǐng)域內(nèi)公認(rèn)的技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)和各種濾波手段。然而,很難期望一個(gè)并非為特定領(lǐng)域中特定環(huán)境下解決特定問(wèn)題而設(shè)計(jì)的工具,能夠?qū)⒃擃I(lǐng)域的問(wèn)題解決到極致。
我們提出了所謂的“特征完備性”概念,針對(duì)常用的幾百個(gè)手勢(shì),無(wú)論背景、職業(yè)、應(yīng)用場(chǎng)景和文化背景如何不同,人們?cè)诒磉_(dá)同一語(yǔ)義時(shí)手勢(shì)之間的相似性,及不同語(yǔ)義時(shí)的手勢(shì)之間的差別,都可以通過(guò)一個(gè)足夠完備的特征集合給予描述;同時(shí),為了減少識(shí)別的計(jì)算量又期望特征的整體規(guī)模要足夠小,即特征之間的正交性。這是我們把在其他模式識(shí)別領(lǐng)域的一些成功思想,拓展到手語(yǔ)研究。
通過(guò)上海靈至科技有限公司和上海追求人工智能科技有限公司兩家公司的市場(chǎng)化合作,我們?cè)噲D將模式識(shí)別的通用技術(shù)應(yīng)用于幫助殘障人士領(lǐng)域,他們擁有市場(chǎng)資源,能夠獲得特殊行業(yè)如多地聾啞學(xué)校的支持,從而采集特定的樣本。
但是,我們有時(shí)也會(huì)質(zhì)疑,在特定場(chǎng)景下采集的樣本對(duì)于樣本的拓展性和通用性究竟有多大的價(jià)值?這很難說(shuō)清楚。這些都是我們?cè)谑终Z(yǔ)研究方面的一些困惑和難點(diǎn)。我提出的問(wèn)題多于解決方案,接下來(lái)請(qǐng)問(wèn)方老師,您那邊有什么想法嗎?
方昱春:我先回答問(wèn)題的第一部分,關(guān)于如何構(gòu)建和部署手語(yǔ)識(shí)別系統(tǒng)。
我的研究小組還沒(méi)有開(kāi)發(fā)出真正能夠應(yīng)用于實(shí)際場(chǎng)景的手語(yǔ)識(shí)別系統(tǒng)。但是,在觀看了田老師的專訪后,我深刻地理解了為什么田老師的工作,倪老師會(huì)認(rèn)為特別有價(jià)值。因?yàn)樘锢蠋熕齻冞x擇的問(wèn)題——將計(jì)算機(jī)視覺(jué)方法應(yīng)用于幫助學(xué)習(xí)手語(yǔ)的人,以便更準(zhǔn)確地表達(dá)語(yǔ)法——實(shí)際上是手語(yǔ)語(yǔ)言學(xué)與計(jì)算機(jī)視覺(jué)模式識(shí)別交叉學(xué)科中的一個(gè)非常精彩的問(wèn)題。
選擇這樣的問(wèn)題進(jìn)行研究,應(yīng)該是非常有智慧,是交叉學(xué)科研究和應(yīng)用非常好的例子。它不僅具有很高的實(shí)用價(jià)值,而且從語(yǔ)言學(xué)的角度來(lái)看,也具有很高的學(xué)術(shù)價(jià)值。這對(duì)我們來(lái)說(shuō)是一個(gè)非常好的啟示。
手語(yǔ)方面,最大的困難在于數(shù)據(jù)標(biāo)注。與自然語(yǔ)言相比,我們目前擁有的手語(yǔ)數(shù)據(jù)集標(biāo)注量非常少。自然語(yǔ)言可以進(jìn)行字、詞、語(yǔ)法、語(yǔ)義、語(yǔ)用的復(fù)雜標(biāo)注,有大量的語(yǔ)言學(xué)家可以幫助完成這些工作。然而,要獲得如此詳盡的手語(yǔ)標(biāo)注數(shù)據(jù),難度就非常大了。這與手語(yǔ)本身的復(fù)雜性有關(guān),它涉及到上半身多個(gè)部位的協(xié)調(diào)運(yùn)動(dòng),并且具有很強(qiáng)的語(yǔ)言模式,這本身就是一個(gè)挑戰(zhàn)。
要像自然語(yǔ)言理解那樣去做手語(yǔ)理解,難度是非常高的。正如蘇老師剛才總結(jié)的一些經(jīng)典問(wèn)題,比如復(fù)雜性光照、背景復(fù)雜性、姿態(tài)復(fù)雜性等,這些都是我們?cè)谟?jì)算機(jī)視覺(jué)問(wèn)題中需要面對(duì)的挑戰(zhàn)。這些問(wèn)題可能只有一部分可以通過(guò)計(jì)算方法解決,但我認(rèn)為選擇一個(gè)好的應(yīng)用場(chǎng)景也很重要。例如,田老師語(yǔ)法糾正的應(yīng)用就是一個(gè)實(shí)例。如果我們的應(yīng)用場(chǎng)景是限定的,那么我們現(xiàn)在已經(jīng)實(shí)現(xiàn)的一些視覺(jué)方法就可能落地應(yīng)用。
至于其他的難點(diǎn),可能要等到前面提到的數(shù)據(jù)采集和標(biāo)注問(wèn)題解決后,以及一個(gè)好的應(yīng)用場(chǎng)景的選擇,我們才能慢慢理解手語(yǔ),進(jìn)而促進(jìn)我們理解人類的語(yǔ)言智能和認(rèn)知智能。在這個(gè)基礎(chǔ)上,可能會(huì)逐漸發(fā)展出更加普遍化的手語(yǔ)識(shí)別技術(shù)。
倪蘭:在討論手語(yǔ)識(shí)別的過(guò)程中,我們不得不提到語(yǔ)言學(xué)的分類。
我們知道,目前的許多語(yǔ)言學(xué)研究,包括像ChatGPT這樣的模型,主要處理的是文本,也就是我們所說(shuō)的書(shū)面語(yǔ)。對(duì)于書(shū)面語(yǔ)的標(biāo)注,我們有很多數(shù)據(jù)庫(kù),無(wú)論是現(xiàn)代漢語(yǔ)還是古代漢語(yǔ),都有相應(yīng)的標(biāo)注資源。然而,當(dāng)我們轉(zhuǎn)向口語(yǔ),也就是有聲語(yǔ)言時(shí),雖然現(xiàn)在漢語(yǔ)口語(yǔ)的數(shù)據(jù)庫(kù)并不多。但至少在語(yǔ)音識(shí)別領(lǐng)域,我們已經(jīng)有一定的標(biāo)注基礎(chǔ),語(yǔ)音標(biāo)注可能主要關(guān)注元音和輔音等方面。
但在手語(yǔ)標(biāo)注方面,我很想了解你們?cè)谟?jì)算機(jī)識(shí)別或合成領(lǐng)域主要需要什么類型的標(biāo)注。我們?cè)谑褂靡恍┸浖M(jìn)行語(yǔ)言學(xué)標(biāo)注時(shí),可以實(shí)現(xiàn)多層標(biāo)注,最多可以達(dá)到50層甚至60層。但這樣的標(biāo)注對(duì)于計(jì)算機(jī)的手語(yǔ)識(shí)別有用嗎?
我曾看過(guò)一些用于打榜的標(biāo)注,比如西班牙手語(yǔ)的標(biāo)注,主要是對(duì)個(gè)別詞進(jìn)行切分和語(yǔ)義標(biāo)注,而不是完整的詞匯切分。對(duì)于與語(yǔ)言學(xué)家的合作來(lái)說(shuō),你們最需要的標(biāo)注是哪一種?你們需要標(biāo)注到多少層,才能解決識(shí)別一個(gè)句子或一段話的問(wèn)題?我對(duì)這個(gè)問(wèn)題非常好奇。
田英利:對(duì)于視覺(jué)領(lǐng)域的手語(yǔ)識(shí)別來(lái)說(shuō),我們最關(guān)心的是語(yǔ)義理解。也就是說(shuō),當(dāng)我們看到一整個(gè)手語(yǔ)句子時(shí),我們想要知道它在表達(dá)什么意思。至于詞的層面,了解孤立詞的語(yǔ)義對(duì)我們來(lái)說(shuō)已經(jīng)足夠了,并不需要像語(yǔ)言學(xué)研究那樣進(jìn)行50層細(xì)節(jié)的標(biāo)注。
我們的主要應(yīng)用目標(biāo)是實(shí)現(xiàn)正常的交流,這是首要的一步。但是僅從視覺(jué)角度來(lái)解決這個(gè)問(wèn)題基本上是不現(xiàn)實(shí)的,我們必須與語(yǔ)言學(xué)家、手語(yǔ)使用者,包括聾人社區(qū)合作,共同解決問(wèn)題。
接下來(lái),我們要考慮的是如何將這個(gè)復(fù)雜的問(wèn)題簡(jiǎn)化。就像自然語(yǔ)言處理一樣,即使是像ChatGPT這樣的大規(guī)模模型,最初的研究也是集中在“新聞報(bào)道”這樣比較官方、正式的內(nèi)容上。只有在這些基礎(chǔ)工作做好之后,我們才能慢慢擴(kuò)展到不同的口語(yǔ)或其他領(lǐng)域。如果第一步做不好,后續(xù)的工作基本上就無(wú)法進(jìn)行。
倪蘭:那么回到這個(gè)問(wèn)題上來(lái),就是說(shuō)在構(gòu)建系統(tǒng)的過(guò)程中,我們需要對(duì)標(biāo)注的規(guī)范達(dá)成一致的標(biāo)準(zhǔn),對(duì)嗎?這是我們需要明確的。
田英利:確實(shí)如此,拿我們團(tuán)隊(duì)來(lái)說(shuō),從一開(kāi)始就明確了我們的研究方向。無(wú)論是系統(tǒng)開(kāi)發(fā)還是視頻手語(yǔ)捕捉,我們都事先討論并決定了使用哪些傳感器,以及捕捉的詳細(xì)要求,比如是捕捉整個(gè)句子還是多個(gè)句子。我們最終選擇了多個(gè)句子的方法,這樣一來(lái),我們就涉及到了不同句子之間以及不同詞之間的分割問(wèn)題。
另一個(gè)挑戰(zhàn)是,正如我們?cè)诳谡Z(yǔ)中不是每個(gè)詞都有意義一樣,手語(yǔ)中的手勢(shì)也不全是有意義的。有些手勢(shì)具有意義,而有些則沒(méi)有。在實(shí)驗(yàn)室環(huán)境中,人們可能會(huì)刻意減少這些無(wú)意義的手勢(shì),但在實(shí)際應(yīng)用中,人們會(huì)自然地使用各種無(wú)意義的連接手勢(shì)。因此,如何準(zhǔn)確地進(jìn)行分割變得尤為重要。
我尤其想說(shuō)一個(gè)插曲。當(dāng)我們基本上開(kāi)發(fā)出這個(gè)系統(tǒng),并準(zhǔn)備在課堂上進(jìn)行測(cè)試時(shí),新冠疫情爆發(fā)了,學(xué)生們無(wú)法到校上課。面對(duì)這種情況,我們不得不讓學(xué)生在家中使用手機(jī)完成作業(yè),并將視頻發(fā)給我們進(jìn)行系統(tǒng)測(cè)試。由于原本使用的是RGBD傳感器,現(xiàn)在D(深度信息)的部分沒(méi)有了,我們發(fā)現(xiàn)學(xué)生的視頻中手的位置、遠(yuǎn)近不一,有時(shí)手勢(shì)甚至超出了畫(huà)面。
這對(duì)系統(tǒng)的考驗(yàn)非常大。在這種情況下,即使我們不能識(shí)別每一個(gè)詞,我們也需要能夠理解整句話的意義。這就像我們?cè)诰W(wǎng)絡(luò)通話中,即使偶爾丟失了幾個(gè)詞,我們?nèi)匀荒軌蚶斫庹麄€(gè)對(duì)話或段落的意思。因此,我認(rèn)為在實(shí)際應(yīng)用中,我們不一定需要非常細(xì)致的多層標(biāo)注,但我們需要能夠識(shí)別整個(gè)句子或段落的含義。如果我們能夠做到這一點(diǎn),那么這個(gè)系統(tǒng)就可以投入使用了。
蘇劍波:我來(lái)補(bǔ)充一點(diǎn)。在實(shí)際應(yīng)用中,我們面臨一個(gè)挑戰(zhàn),那就是基于標(biāo)準(zhǔn)手語(yǔ)庫(kù)訓(xùn)練出的識(shí)別系統(tǒng)如何應(yīng)對(duì)真實(shí)用戶,比如聾人在實(shí)際使用中的手勢(shì)并不總是那么標(biāo)準(zhǔn)?
從模式識(shí)別的角度來(lái)看,這就像是你收集了大量的語(yǔ)料庫(kù),但在實(shí)際應(yīng)用中,如何將系統(tǒng)擴(kuò)展到具體用戶的樣本上,你的系統(tǒng)可擴(kuò)展性到底能達(dá)到何種程度?實(shí)際上,這非常制約整個(gè)系統(tǒng)的實(shí)用性。
田英利:這確實(shí)是一個(gè)問(wèn)題。就像ChatGPT一樣,盡管它現(xiàn)在非常強(qiáng)大,但它也不能提供任何問(wèn)題的答案。特別是對(duì)于幫助殘障人士的系統(tǒng),一定要有個(gè)性化定制的那一步。也就是說(shuō),基本系統(tǒng)建成后,針對(duì)每個(gè)人的具體應(yīng)用,必須有一個(gè)調(diào)整過(guò)程。這是必不可少的。否則,對(duì)于個(gè)人用戶來(lái)說(shuō),應(yīng)用過(guò)程中會(huì)存在斷層。
蘇劍波:確實(shí),我們需要一個(gè)標(biāo)準(zhǔn)系統(tǒng)作為基礎(chǔ),然后針對(duì)特定用戶進(jìn)行自我學(xué)習(xí)或調(diào)整的過(guò)程,這樣才能逐漸提高系統(tǒng)對(duì)該特定用戶的準(zhǔn)確度。
田英利:是的,無(wú)論如何,還有另一個(gè)問(wèn)題是關(guān)于用戶界面的。無(wú)論你的技術(shù)有多好,如果你的界面不友好,用戶就不會(huì)去使用它。
蘇劍波:對(duì),所以這個(gè)磨合過(guò)程往往會(huì)讓用戶失去耐心。
田英利:這就是為什么我們?cè)谧铋_(kāi)始的時(shí)候就要把聾人朋友納入到整個(gè)系統(tǒng)的開(kāi)發(fā)中來(lái)。這些朋友對(duì)新技術(shù)充滿熱情,他們也愿意幫助和貢獻(xiàn)。然后再進(jìn)行推廣。如果一個(gè)不成熟的產(chǎn)品在推廣時(shí)讓用戶決定不再使用,那么以后想要讓他們重新使用就會(huì)變得非常困難。
倪蘭:我理解蘇老師的困惑所在??赡芤?yàn)槊绹?guó)手語(yǔ)的發(fā)展時(shí)間比中國(guó)手語(yǔ)要長(zhǎng),但在中國(guó)手語(yǔ)中,我們確實(shí)面臨著蘇老師提到的各種“地方變體”的問(wèn)題。
對(duì)語(yǔ)言學(xué)家來(lái)說(shuō),語(yǔ)言的多樣性是語(yǔ)言成熟度的表現(xiàn),我們非常樂(lè)于接受。但手語(yǔ)有自身的復(fù)雜性,有方言的問(wèn)題,還有群體內(nèi)部的異質(zhì)性(因?yàn)椴煌慕逃尘啊⒓彝デ闆r、聽(tīng)損情況等,他們的手語(yǔ)使用情況千差萬(wàn)別)。
不同于普通話,我們可能只關(guān)注發(fā)音是否標(biāo)準(zhǔn)。聾人群體中,手語(yǔ)的好壞差異巨大。即使在公認(rèn)的手語(yǔ)較好的聾人中,也存在差異。很多聾人并沒(méi)有接受過(guò)系統(tǒng)的手語(yǔ)教育,他們大多靠自學(xué)。
手語(yǔ)的標(biāo)準(zhǔn)并沒(méi)有像有聲語(yǔ)言那樣有一個(gè)明確的評(píng)判標(biāo)準(zhǔn)。通用手語(yǔ)目前只是一些詞匯,而這些詞匯也是從各地手語(yǔ)中采集來(lái)的,未來(lái)還需要進(jìn)一步完善。
實(shí)際上,我們比較過(guò)通用手語(yǔ)常用詞表和之前手語(yǔ)詞典的詞匯,發(fā)現(xiàn)詞匯差異并沒(méi)有我們想象的那么大。比如通用手語(yǔ)中的“安靜”是一個(gè)復(fù)合詞,即兩個(gè)手勢(shì),但上海聾人可能只用一個(gè)手勢(shì),這種情況實(shí)際上并不影響核心意義的傳達(dá)。
我特別關(guān)注田老師所做的工作,她不僅僅關(guān)注孤立詞的識(shí)別,而是關(guān)注整個(gè)句子意思的理解,這對(duì)我們有很大的啟發(fā)性。因?yàn)槭终Z(yǔ)的方向和位置變化很大(例如我看到小孩學(xué)手語(yǔ)時(shí)在頭的位置打出“牛奶”的手語(yǔ),其他人也能看懂),如果我們能找到一些工具專門(mén)提取手語(yǔ)中有價(jià)值的特征,可能會(huì)對(duì)手語(yǔ)識(shí)別技術(shù)非常有幫助。
田英利:我認(rèn)為您補(bǔ)充得非常好。實(shí)際上,在應(yīng)用過(guò)程中,即使我們無(wú)法準(zhǔn)確識(shí)別單個(gè)詞,我們?nèi)匀豢梢酝ㄟ^(guò)視覺(jué)方法來(lái)理解整個(gè)句子的意思。
確實(shí),要在現(xiàn)有技術(shù)水平下完全準(zhǔn)確地通過(guò)視覺(jué)方法識(shí)別出所有意思有些困難。但蘇老師團(tuán)隊(duì)的公司在針對(duì)特定場(chǎng)景研發(fā)技術(shù),這非常能幫助到聾人。
例如,我們可以開(kāi)發(fā)一些特定的產(chǎn)品,比如一個(gè)小軟件,專門(mén)用于醫(yī)療場(chǎng)景中的對(duì)話,包含與病痛或醫(yī)生溝通的詞匯。這樣,當(dāng)他們?nèi)タ瘁t(yī)生時(shí),只需要使用有限的詞匯,比如三百到五百個(gè),甚至幾個(gè)手勢(shì),比如“肚子疼”、“頭疼”,就能表達(dá)他們的不適。這樣簡(jiǎn)化復(fù)雜問(wèn)題,即使不能完全解決問(wèn)題,也能在實(shí)際生活中為殘障人士提供便利。
蘇劍波:是的,這是一個(gè)很好的方法。我們?cè)趯?shí)際操作中,可以先讓系統(tǒng)猜測(cè)病人可能的意思,然后再確認(rèn),這樣的交互可能更實(shí)用,而不是追求一次性識(shí)別出完整的意思。
田英利:在開(kāi)發(fā)系統(tǒng)時(shí),一定要將聾人納入系統(tǒng)的一部分。因?yàn)樗麄兪窍到y(tǒng)的直接用戶,所以讓他們參與驗(yàn)證可以大大提高系統(tǒng)的準(zhǔn)確率。當(dāng)系統(tǒng)明確知道他們的意思后,可以將其翻譯給醫(yī)生。即使醫(yī)生沒(méi)有學(xué)過(guò)手語(yǔ),通過(guò)語(yǔ)音或文字的翻譯,就能理解他們的意思。
蘇劍波:是的,對(duì)于福利院、養(yǎng)老院或?qū)iT(mén)用于照顧殘障人士的機(jī)器人,它們可以通過(guò)人臉識(shí)別來(lái)識(shí)別出某個(gè)人習(xí)慣使用的手勢(shì)。經(jīng)過(guò)一段時(shí)間的自我學(xué)習(xí)后,它們就能快速準(zhǔn)確地識(shí)別出特定聾人的手語(yǔ)。但在許多應(yīng)用場(chǎng)景中,機(jī)器人沒(méi)有這樣的機(jī)會(huì)進(jìn)行學(xué)習(xí),所以這一步就無(wú)法實(shí)現(xiàn)。如果能讓機(jī)器人長(zhǎng)期陪伴一個(gè)聾人,那么這方面的壓力就會(huì)減少很多。這就是我們的方向。
田英利:第三個(gè)問(wèn)題,ChatGPT、Sora等大型語(yǔ)言模型在自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著成就。這些模型背后的設(shè)計(jì)理念和技術(shù)路徑,對(duì)手語(yǔ)識(shí)別研究有何啟示?方老師,請(qǐng)您先分享。
方昱春:我認(rèn)為ChatGPT作為大模型的典型例子,其成功的實(shí)用化范例很大程度上依賴于海量數(shù)據(jù)的支持。那么,這對(duì)手語(yǔ)識(shí)別有何關(guān)聯(lián)呢?
我們認(rèn)為,大型模型實(shí)際上是在大量文本語(yǔ)料上學(xué)習(xí)語(yǔ)義之間的關(guān)聯(lián)性。而手語(yǔ)識(shí)別處理的是視覺(jué)方式傳達(dá)的語(yǔ)義。人類在表達(dá)社會(huì)生活時(shí),在語(yǔ)義空間中仍有許多共通之處。因此,我們認(rèn)為大型模型的成功經(jīng)驗(yàn)可以借鑒,特別是在構(gòu)建語(yǔ)義空間方面,可能會(huì)加速我們對(duì)手語(yǔ)理解的研究。
這目前還只是一個(gè)猜想,我們尚未真正付諸實(shí)踐。
此外,像Sora這樣的文生視頻大模型在多模態(tài)信息處理方面展現(xiàn)出了強(qiáng)大的能力。手語(yǔ)本身也是一種多模態(tài)形式,其形式是視覺(jué)信號(hào),而內(nèi)容傳達(dá)的是語(yǔ)言信息。因此,我們也認(rèn)為Sora這種多模態(tài)的工作方式可以給我們提供很好的啟示。
主要在這兩個(gè)方面——語(yǔ)義和多模態(tài)——我們可以借鑒和使用大模型,對(duì)手語(yǔ)識(shí)別技術(shù)提供支持。
倪蘭:ChatGPT在2023年成為了最熱門(mén)的話題,從年初到年末都備受關(guān)注。在我們語(yǔ)言學(xué)界,ChatGPT的出現(xiàn)引起了巨大的轟動(dòng)。以前我們認(rèn)為理解語(yǔ)言需要依賴語(yǔ)言學(xué)家來(lái)提供有價(jià)值的信息,然而ChatGPT和Sora等模型似乎表明,只要有數(shù)據(jù)就足夠了。
許多學(xué)者也在探討:人工智能時(shí)代,語(yǔ)言學(xué)家能做些什么?
盡管在有聲語(yǔ)言識(shí)別,尤其是文本識(shí)別方面,人們可能認(rèn)為語(yǔ)言學(xué)家的作用不再重要,但我認(rèn)為在初期,語(yǔ)言學(xué)家提供的一些關(guān)于語(yǔ)言的重要信息是有價(jià)值的,包括語(yǔ)法結(jié)構(gòu)等。
結(jié)構(gòu)主義對(duì)我們?nèi)宋念I(lǐng)域產(chǎn)生了深遠(yuǎn)影響,我們知道語(yǔ)音、句子和詞匯都是可以切分的,這種結(jié)構(gòu)化的認(rèn)識(shí)對(duì)于今天的大語(yǔ)言模型可能已經(jīng)被遺忘,但它們最初的工作是至關(guān)重要的。
關(guān)于通用性,我們也在思考是否能夠在手語(yǔ)領(lǐng)域找到一些最核心的信息,比如它的結(jié)構(gòu)。盡管目前缺乏大規(guī)模的數(shù)據(jù)集,但也許我們可以找到一些關(guān)鍵的手語(yǔ)信息,這可能對(duì)手語(yǔ)識(shí)別有一定的推動(dòng)作用。在與方老師和其他老師的溝通中,我們發(fā)現(xiàn),許多老師認(rèn)為手語(yǔ)是一個(gè)無(wú)法結(jié)構(gòu)化的混沌整體,但一旦進(jìn)行了結(jié)構(gòu)化分析,就可以反復(fù)應(yīng)用這些規(guī)律,這就是結(jié)構(gòu)的力量。
因此,我們可以從ChatGPT中得到啟示,思考在手語(yǔ)識(shí)別中哪些核心架構(gòu)是關(guān)鍵的。
我記得在早期的GPT-3.0版本中,有些句子的搭配感覺(jué)有問(wèn)題,但經(jīng)過(guò)不斷的訓(xùn)練后,它就能夠擴(kuò)展。我們是否也能在手語(yǔ)識(shí)別中找到一些關(guān)鍵的結(jié)構(gòu)?比如手語(yǔ)動(dòng)詞的方向性,如果我們知道這一點(diǎn),那么我們就不會(huì)將“我愛(ài)你”和“你愛(ài)我”識(shí)別成兩個(gè)獨(dú)立的手勢(shì),而是能夠理解方向性動(dòng)詞的開(kāi)始和結(jié)束位置是可以標(biāo)記成句子的主、賓語(yǔ)。還有手指的朝向,它也可以表示賓語(yǔ),這些都是結(jié)構(gòu)化的特征。我們?cè)诜治鍪中螘r(shí)發(fā)現(xiàn),中國(guó)手語(yǔ)中表示”錢(qián)“的時(shí)候,很多人認(rèn)為必須拇、食指要捏成圓形。但實(shí)際上,在實(shí)際使用中并不會(huì)完全捏圓,這時(shí)不捏圓和捏圓的手形在意義上沒(méi)有差別。當(dāng)我們?cè)谡Z(yǔ)料中發(fā)現(xiàn)這兩種手形實(shí)際上不區(qū)別意義時(shí),這是否可以提高識(shí)別的準(zhǔn)確性?
所以,我認(rèn)為一方面ChatGPT告訴我們需要大量數(shù)據(jù)的積累,另一方面也提示我們有些核心信息需要早期放入到標(biāo)注中,或者在構(gòu)建手語(yǔ)識(shí)別系統(tǒng)時(shí),可以提供給計(jì)算機(jī)一些知識(shí)庫(kù)信息。
正如大家所討論的,實(shí)際應(yīng)用中,每次向ChatGPT提問(wèn)得到的回答都會(huì)有所不同,我們可以在缺乏數(shù)據(jù)的情況下通過(guò)關(guān)鍵信息讓系統(tǒng)不斷自我學(xué)習(xí),自我應(yīng)用。
當(dāng)我們?nèi)狈ψ銐虻恼Z(yǔ)言學(xué)者和標(biāo)注人員時(shí),未來(lái)實(shí)現(xiàn)自動(dòng)標(biāo)注可能是解決大數(shù)據(jù)問(wèn)題的途徑,因?yàn)橄到y(tǒng)可以自適應(yīng)地學(xué)習(xí)。
蘇劍波:這個(gè)問(wèn)題我已經(jīng)思考了很久。包括ChatGPT和Sora這樣的工具,從技術(shù)發(fā)展的角度來(lái)看,它們都是非常清晰的人工智能工具。
ChatGPT主要是基于文本的人工智能工具,而Sora則是基于圖像和視頻的人工智能工具。因此,從手語(yǔ)識(shí)別的角度來(lái)看,我個(gè)人感覺(jué)Sora對(duì)手語(yǔ)識(shí)別的幫助可能要超過(guò)ChatGPT。
我們一直在思考的問(wèn)題是,傳統(tǒng)上我們總是需要從圖像或視頻中提取各種特征,無(wú)論是幾何特征還是統(tǒng)計(jì)特征,并評(píng)價(jià)這些特征能否表達(dá)圖像所代表的語(yǔ)義含義。從這個(gè)角度來(lái)看,無(wú)論是目標(biāo)識(shí)別、運(yùn)動(dòng)分析、顏色識(shí)別,還是其他類似的任務(wù),最終都要拓展到語(yǔ)義層面。
但我一直思考的是,比如我們觀看一段視頻或電影時(shí),我們關(guān)注的是視頻中的人物、情節(jié)和行為,我們可以從頭到尾理解視頻的內(nèi)容和意義,而不會(huì)過(guò)分關(guān)注計(jì)算機(jī)提取的圖像或視頻特征。那么我們?cè)谧鍪终Z(yǔ)識(shí)別時(shí),真的需要通過(guò)提取視頻中的特征來(lái)識(shí)別手語(yǔ)的語(yǔ)義嗎?
當(dāng)然,計(jì)算機(jī)視覺(jué)的傳統(tǒng)理論都是這樣,選用什么樣的特征表達(dá)關(guān)注的語(yǔ)義決定了基于計(jì)算的人工智能系統(tǒng)的性能,因此而考慮特征選擇和提取的魯棒性、速度和準(zhǔn)確性。
Sora給我的沖擊是,它是通過(guò)視頻的方式來(lái)理解內(nèi)容,但它的機(jī)理是什么?我不清楚。
它是通過(guò)傳統(tǒng)意義上的計(jì)算機(jī)視覺(jué)特征提取來(lái)完成視頻理解,還是通過(guò)其他手段?
這激發(fā)了我們對(duì)手語(yǔ)知識(shí)表達(dá)最有效的手段是什么的思考,包括語(yǔ)義的拓展和新的情緒、語(yǔ)義生成手段是什么?
如何讓機(jī)器人能夠生成手語(yǔ)來(lái)表達(dá)自己的意思,或者理解殘障人士的意思,并通過(guò)手語(yǔ)解釋給他們聽(tīng)?
在這個(gè)過(guò)程中,可能真的需要理解人類的思考或意圖,這種計(jì)算模型是什么?
是否一定要基于我們?cè)谟?jì)算機(jī)視覺(jué)中學(xué)到的統(tǒng)計(jì)或幾何特征?
我不清楚,但我體會(huì)到了ChatGPT和Sora給我的這種反向刺激。
觀察人與人之間的交流時(shí),包括健康聽(tīng)人和聾啞人的交流,人們是如何通過(guò)各種手勢(shì)來(lái)理解他人的情緒或殘障人士的手勢(shì)含義的。
反過(guò)來(lái)說(shuō),計(jì)算機(jī)的計(jì)算能力遠(yuǎn)遠(yuǎn)超過(guò)人類,它是否一定要模仿人類不一定是計(jì)算方式的理解他人或殘障人士手勢(shì)的過(guò)程?
在這個(gè)過(guò)程中,它應(yīng)該使用什么樣的特征和模型來(lái)表達(dá)?這些模型或特征未必是人類需要或使用的。
我們以前總是說(shuō)人工智能首先要學(xué)習(xí)人類是如何獲得智能的,或者智能是如何進(jìn)化的。我現(xiàn)在懷疑,計(jì)算機(jī)在發(fā)展人工智能或計(jì)算智能時(shí),是否一定要走人類智能生成、發(fā)展和進(jìn)化的同一條路?
田英利:回答您這個(gè)問(wèn)題確實(shí)頗具挑戰(zhàn)性,因?yàn)殛P(guān)于人腦如何產(chǎn)生智能的問(wèn)題,目前科學(xué)界還沒(méi)有確切的結(jié)論。
眾所周知,任何關(guān)于人類智能進(jìn)展的研究,都會(huì)對(duì)計(jì)算機(jī)人工智能的發(fā)展產(chǎn)生重大影響。然而,即便是小孩子的思維也不是二進(jìn)制的,而計(jì)算機(jī)只能通過(guò)0和1的二進(jìn)制來(lái)進(jìn)行運(yùn)算。計(jì)算機(jī)必須依靠其強(qiáng)大的計(jì)算能力來(lái)模擬,甚至達(dá)到小學(xué)生水平的智能。
最近,得益于強(qiáng)大的計(jì)算力和海量數(shù)據(jù),ChatGPT似乎實(shí)現(xiàn)了一個(gè)飛躍。但我們也必須承認(rèn),盡管ChatGPT取得了巨大進(jìn)步,它提供的想法或答案并不總是準(zhǔn)確的。有時(shí)我們開(kāi)玩笑說(shuō),ChatGPT經(jīng)常一本正經(jīng)地胡說(shuō)八道,看似頭頭是道,實(shí)則可能是錯(cuò)誤的。
為什么會(huì)出錯(cuò)?因?yàn)樗狈ε袛嗄芰?,只能依?jù)以往的大數(shù)據(jù)來(lái)得出結(jié)論。
Sora也是如此,它可以基于幾個(gè)關(guān)鍵詞生成逼真的視頻,但這些視頻真的符合我們最初的預(yù)期嗎?并不一定。因此,我認(rèn)為使用大數(shù)據(jù)進(jìn)行手語(yǔ)識(shí)別仍然有一段路要走。
在我們的研究團(tuán)隊(duì)中,我們?cè)诘却占瘮?shù)據(jù)庫(kù)和標(biāo)注數(shù)據(jù)的同時(shí),采取了一種方法:我們直接從YouTube上獲取那些已經(jīng)有手語(yǔ)翻譯的演講視頻,將演講內(nèi)容作為標(biāo)注,使用視頻中的小框內(nèi)的手語(yǔ)進(jìn)行識(shí)別,得到了不錯(cuò)的結(jié)果。但這些都是比較官方的內(nèi)容,涵蓋的范圍相對(duì)有限。另外,視頻中手語(yǔ)的質(zhì)量也非常有限。
不過(guò),我認(rèn)為將來(lái)有了強(qiáng)大的計(jì)算力,可以將這類數(shù)據(jù)作為一種可行的備選大數(shù)據(jù)資源,利用現(xiàn)在的自主學(xué)習(xí)或無(wú)需標(biāo)注的學(xué)習(xí)技術(shù),自動(dòng)剔除不準(zhǔn)確的部分,提取最關(guān)鍵的語(yǔ)義信息。
這樣,我們就能理解手語(yǔ)者在表達(dá)什么,這已經(jīng)足夠了。我們不需要精確地識(shí)別每一個(gè)詞。這是我們自己的一種嘗試和探索。
蘇劍波:目前我們通過(guò)這種方法實(shí)現(xiàn)目標(biāo)是完全可行的。但從技術(shù)的完備性角度來(lái)看,我個(gè)人并不特別喜歡所謂的標(biāo)注過(guò)程,因?yàn)槿魏螛?biāo)注都可能帶有標(biāo)注者個(gè)人的主觀意圖。
正如在人工智能領(lǐng)域,比如早期讓計(jì)算機(jī)學(xué)習(xí)下圍棋,最初是通過(guò)學(xué)習(xí)人類的棋譜來(lái)進(jìn)行的。但后來(lái)發(fā)現(xiàn)計(jì)算機(jī)無(wú)法判斷人類高手棋譜中的錯(cuò)招和漏招,因此后來(lái)改變了策略,讓計(jì)算機(jī)自我對(duì)弈。
現(xiàn)在,計(jì)算機(jī)只知道圍棋規(guī)則是由人類設(shè)定的,但它通過(guò)自我進(jìn)化來(lái)提高下棋技術(shù),而不是通過(guò)學(xué)習(xí)人類的棋譜來(lái)達(dá)成目標(biāo)。計(jì)算機(jī)圍棋已經(jīng)通過(guò)這種方式達(dá)到了遠(yuǎn)超人類的水平,但它并非是通過(guò)學(xué)習(xí)人類智能的方式實(shí)現(xiàn)的。
這個(gè)案例對(duì)我來(lái)說(shuō)是一個(gè)極具啟發(fā)性的思路,它表明機(jī)器智能的進(jìn)化和提升未必需要通過(guò)學(xué)習(xí)人類智能來(lái)實(shí)現(xiàn)。這是我的觀點(diǎn)。
田英利:然而,在最初階段,我們?nèi)匀恍枰祟惖臉?biāo)注,正如您提到的圍棋例子,它有一套完整的規(guī)則。
對(duì)于手語(yǔ)和語(yǔ)言,尤其是受到地域限制的情況下,規(guī)則越明確,計(jì)算機(jī)學(xué)習(xí)的效果就越好。
但當(dāng)規(guī)則不明確時(shí),我們?cè)撛趺崔k?最初的時(shí)候,一定要有人來(lái)教它,告訴我們?nèi)绾芜M(jìn)行。
方昱春:算法應(yīng)該還是依賴了大量的棋譜數(shù)據(jù),展現(xiàn)了記憶的巨大優(yōu)勢(shì)。
倪蘭:蘇老師,這個(gè)問(wèn)題在語(yǔ)言學(xué)上有一個(gè)解釋。
根據(jù)喬姆斯基(當(dāng)代著名的語(yǔ)言學(xué)家和思想家)的理論,所有人類都有語(yǔ)言的潛質(zhì)和本能,但如果把一個(gè)孩子扔到森林里,不讓他接觸人類,他其實(shí)很難學(xué)習(xí)到語(yǔ)言,仍然需要激發(fā),需要父母不斷地為他提供語(yǔ)言數(shù)據(jù)的刺激和糾錯(cuò)機(jī)制。
我們教孩子語(yǔ)言時(shí),并不是只教他“a是b”這樣的句型,他就能照做。他會(huì)將規(guī)則用到極致,創(chuàng)造出我們從未教過(guò)的新句子。這其實(shí)和機(jī)器學(xué)習(xí)是一樣的,我們告訴它基本規(guī)則,然后它產(chǎn)生新的東西。當(dāng)然,人類的語(yǔ)言機(jī)制可能更復(fù)雜。
所以,我們目前對(duì)手語(yǔ)的構(gòu)造了解還不夠。很多時(shí)候,即使我自己的手勢(shì)并不標(biāo)準(zhǔn),但有時(shí)候一個(gè)表情就能讓聾人立刻理解我想說(shuō)什么。
我認(rèn)為,我們的視覺(jué)捕捉到的信息比我們通過(guò)有聲語(yǔ)言表達(dá)的信息要多得多。如果我們對(duì)手勢(shì)和身勢(shì)語(yǔ)有更深入的了解,一定能幫助我們更好地理解他人的意圖和言語(yǔ)含義。手語(yǔ)雖然源自身勢(shì)語(yǔ),但它已經(jīng)發(fā)展出了一個(gè)相對(duì)完整的體系。
我們首先對(duì)身勢(shì)語(yǔ)了解不足,然后對(duì)發(fā)展出的手語(yǔ)的語(yǔ)法規(guī)則也沒(méi)有完全掌握,這就帶來(lái)了識(shí)別的復(fù)雜性。聾人在表達(dá)時(shí),同時(shí)也會(huì)使用身勢(shì)語(yǔ)。我們可以做一個(gè)實(shí)驗(yàn),觀察視頻中的人邊說(shuō)話邊打手勢(shì),當(dāng)把聲音關(guān)掉時(shí),你完全不知道手勢(shì)代表的含義。聾人能將他們的身勢(shì)語(yǔ)和手語(yǔ)融合在起來(lái)進(jìn)行表達(dá)。因此在手語(yǔ)識(shí)別時(shí),我們?nèi)绻荒軈^(qū)分身勢(shì)語(yǔ)和手語(yǔ),就會(huì)覺(jué)得復(fù)雜,沒(méi)有規(guī)則。
手語(yǔ)是一種語(yǔ)言符號(hào)系統(tǒng),它的表達(dá)有一定的限制性和語(yǔ)音規(guī)則。但因?yàn)樗珡?fù)雜,融合了很多多模態(tài)要素,包括表情體態(tài)等,而我們對(duì)表情的認(rèn)識(shí)和了解還遠(yuǎn)遠(yuǎn)不夠,這就是為什么手語(yǔ)識(shí)別起來(lái)異常很困難。
田英利:我覺(jué)得蘇老師提出的問(wèn)題非常有趣,技術(shù)上如何解決?
倪老師談到的也確實(shí)如此,有時(shí)候我們的語(yǔ)言只占交流的30%,大部分時(shí)候,尤其是在家庭中,有時(shí)甚至不需要說(shuō)話,一個(gè)眼神就足以傳達(dá)意圖。人的交流有多個(gè)渠道,我認(rèn)為不需要準(zhǔn)確地識(shí)別出每一個(gè)字、每一個(gè)細(xì)節(jié)才能進(jìn)行應(yīng)用。
所以,我們現(xiàn)在自然地過(guò)渡到了下一個(gè)討論議題,即盡管技術(shù)困難,包括特征提取的難度,但我們?nèi)绾慰朔@些困難,在現(xiàn)有的技術(shù)條件下盡可能地幫助聽(tīng)障人士的生活?
問(wèn)題四:從技術(shù)研究走向?qū)嶋H應(yīng)用,我們可能會(huì)遇到哪些現(xiàn)實(shí)困難?如何將手語(yǔ)識(shí)別技術(shù)更好地融入到聽(tīng)障人士的日常生活中?
方昱春:從計(jì)算機(jī)應(yīng)用系統(tǒng)的角度來(lái)看,難點(diǎn)集中在“接口設(shè)計(jì)”上。
許多信息類產(chǎn)品,如果對(duì)使用者的約束太多,例如人臉識(shí)別時(shí)需要用戶配合特定的姿勢(shì)、光照條件和設(shè)備,那么用戶在受限的環(huán)境中使用,體驗(yàn)就會(huì)不佳,最終這項(xiàng)技術(shù)也可能被拋棄。為了讓聾人能更好地使用我們的技術(shù),應(yīng)該提供一種更自然、更無(wú)感的體驗(yàn),讓他們能方便地在更多公共場(chǎng)合中感知語(yǔ)言的表達(dá)。因此,我認(rèn)為一個(gè)適當(dāng)?shù)慕涌谑亲呦驅(qū)嶋H應(yīng)用中的一個(gè)典型問(wèn)題。
還有其他一些問(wèn)題我們?cè)谇懊娴挠懻撝幸呀?jīng)涉及過(guò),比如手語(yǔ)的變化性很大,我們?nèi)绾螡M足用戶的個(gè)性化需求?這些都是需要解決的問(wèn)題。
另外,我們也多次提到手語(yǔ)識(shí)別的難度很高,這會(huì)影響我們開(kāi)發(fā)的技術(shù)的精度,這些情況都是存在的,這些因素都會(huì)影響到整個(gè)技術(shù)的實(shí)際落地和推廣。
倪蘭:去年我和方老師合作指導(dǎo)了一個(gè)關(guān)于應(yīng)急手語(yǔ)的學(xué)生科創(chuàng)項(xiàng)目。大家普遍認(rèn)為聾人群體在日常生活中會(huì)頻繁使用手語(yǔ),但實(shí)際上,聾人群體是多元化的,也包括那些不會(huì)打手語(yǔ)的聽(tīng)障人士,他們的手語(yǔ)熟練程度和教育水平也各不相同。他們對(duì)字幕和文本的理解能力也不盡相同,因此我們需要確定哪些場(chǎng)景最需要手語(yǔ)識(shí)別技術(shù)。
有時(shí),我們?cè)谛侣勚锌吹降氖终Z(yǔ)翻譯可能并不總是被聾人理解,但它代表了一種對(duì)語(yǔ)言權(quán)益的尊重。
如果手語(yǔ)識(shí)別技術(shù)能夠發(fā)展到聾人在日常生活中都能方便使用,就像拿出手機(jī)發(fā)短信那樣簡(jiǎn)單,那將是一個(gè)巨大的進(jìn)步。之前vivo曾推出過(guò)手語(yǔ)識(shí)別和合成技術(shù),聾人朋友嘗試使用后發(fā)現(xiàn),輸入一句漢語(yǔ)可以逐字打出手勢(shì),但如果要識(shí)別一個(gè)聾人打的手語(yǔ)句子,目前的技術(shù)水平還做不到。
在需求分析方面,我們可能需要深入了解聾人最迫切的需求場(chǎng)景,比如醫(yī)療領(lǐng)域,中老年聽(tīng)障人士的需求尤其大,他們可能更依賴手語(yǔ)。與年輕人不同,他們可能不太熟悉語(yǔ)音轉(zhuǎn)文字的電子設(shè)備。在這種情況下,我們需要考慮手語(yǔ)數(shù)據(jù)應(yīng)該采集自哪些人群,以及把醫(yī)療術(shù)語(yǔ)翻譯成手語(yǔ)的挑戰(zhàn),因?yàn)楹芏嘈g(shù)語(yǔ)可能在手語(yǔ)中并不存在,直接翻譯反而會(huì)造成誤解。
因此,我認(rèn)為可能需要將“語(yǔ)音識(shí)別”與“手語(yǔ)識(shí)別”結(jié)合起來(lái)使用,并且要考慮數(shù)據(jù)庫(kù)采集對(duì)象的多樣性。
另一個(gè)場(chǎng)景是教育領(lǐng)域,聾人也需要學(xué)習(xí)手語(yǔ)。在學(xué)習(xí)手語(yǔ)的過(guò)程中,提供標(biāo)準(zhǔn)化和規(guī)則化的內(nèi)容是很重要的。
例如,鄭州工程技術(shù)學(xué)院等院校在招收全國(guó)各地聾人學(xué)生時(shí),會(huì)先培訓(xùn)他們共同使用一套手語(yǔ),然后在四年的學(xué)習(xí)中不斷練習(xí)和使用。
在教育領(lǐng)域,我們需要考慮如何為聾人提供課程支持。目前,招收聾人的學(xué)校大多使用字幕機(jī),但我們需要更深入了解聾人在哪些場(chǎng)合需要這些產(chǎn)品,并考慮在窗口、銀行等公共服務(wù)場(chǎng)所的應(yīng)用。我認(rèn)為手語(yǔ)識(shí)別產(chǎn)品可能需要結(jié)合多元化的模式,如果只依賴單一的手語(yǔ)識(shí)別,可能會(huì)在某些場(chǎng)合受到限制,因?yàn)榍闆r特別復(fù)雜,尤其是在中國(guó)這樣地域廣闊的國(guó)家。手語(yǔ)有很多地域分支,統(tǒng)一的標(biāo)準(zhǔn)可能無(wú)法滿足所有聾人的需求。
蘇劍波:我這邊的工作主要是關(guān)于機(jī)器識(shí)別聾人的手勢(shì),并將其翻譯給健聽(tīng)人,以便在各種環(huán)境中,如服務(wù)窗口、教育場(chǎng)所或醫(yī)療場(chǎng)所,促進(jìn)聾人與健聽(tīng)人之間的交流。
但我一直不太確定,應(yīng)該使用什么樣的工具來(lái)實(shí)現(xiàn)這一點(diǎn)。
比如,是否讓健聽(tīng)人手持iPad,實(shí)時(shí)拍攝聾人的手勢(shì),然后屏幕上就能顯示出他們所說(shuō)的內(nèi)容?
這種方式有助于促進(jìn)雙方的交流。然而,在實(shí)際應(yīng)用中,聾人往往不愿意被拍攝。即便解釋說(shuō)拍攝的目的是為了翻譯他們的手勢(shì),他們通常也不愿意接受。除非在迫不得已的情況下,比如在政府部門(mén)或醫(yī)院需要辦事時(shí),他們才會(huì)勉強(qiáng)接受這種方式的翻譯。但在正常情況下,比如在馬路上交流,如果用設(shè)備拍攝他們,他們肯定會(huì)反感。
我一直在思考,這種技術(shù)究竟應(yīng)該如何轉(zhuǎn)化為實(shí)際應(yīng)用?甚至連最基本的工具使用方式都沒(méi)搞清楚。我們通常習(xí)慣于使用手機(jī),比如不認(rèn)識(shí)的花,就用百度拍一下識(shí)別,這是我們?nèi)粘I钪谐S玫墓ぞ摺?/p>
但與聾人交流時(shí),我們不能總是帶著iPad,或者讓他們?cè)趇Pad顯示下進(jìn)行手勢(shì),然后翻譯出來(lái)。我不知道該如何應(yīng)對(duì)這種情況。
倪老師提到,在特定領(lǐng)域,如醫(yī)療和教育,可能不得不使用某些工具來(lái)幫助理解他們的意圖。但如果要設(shè)計(jì)一個(gè)適合聾人使用的產(chǎn)品,或者一個(gè)可以隨身攜帶的設(shè)備,讓他們?cè)谛枰c正常人交流時(shí),能夠?qū)崟r(shí)顯示他們的意圖,那將是非常有益的。
但這樣的產(chǎn)品是什么呢?我還不太清楚。就像手機(jī)那樣,但具體該如何操作呢?是通過(guò)拍攝手勢(shì),然后在手機(jī)屏幕上直接表達(dá)他們的意圖,還是通過(guò)語(yǔ)音說(shuō)出來(lái)?我還在探索這方面的解決方案。
田英利:針對(duì)蘇老師的問(wèn)題,我認(rèn)為我們的討論非常有益。從技術(shù)到產(chǎn)品的落地,確實(shí)還有許多困難需要克服,路還很長(zhǎng)。
關(guān)于應(yīng)該開(kāi)發(fā)什么樣的產(chǎn)品,近年來(lái)VR和AR技術(shù)被頻繁提及。我們需要一種自然的產(chǎn)品,而不是讓人們感覺(jué)像是扛著攝像機(jī)或iPad來(lái)錄制。
想象一下,如果聾人可以戴上一種眼鏡,這種眼鏡內(nèi)置有針孔攝像頭,能夠捕捉他們自己的手勢(shì),并將這些手勢(shì)直接翻譯成語(yǔ)音。
當(dāng)我知道他們的意思后,我就可以回答他們。這種眼鏡當(dāng)然也會(huì)有麥克風(fēng),能夠捕捉我的語(yǔ)音,這時(shí)就不需要手語(yǔ),而是直接將我的語(yǔ)音轉(zhuǎn)化成文字,顯示在他們的AR眼鏡上。
這樣一來(lái),我們就能理解蘇老師所講的情況,即不僅僅是通過(guò)攝像頭來(lái)識(shí)別手語(yǔ),而是將語(yǔ)音、文字和部分肢體語(yǔ)言這些多渠道信息綜合起來(lái),幫助我們進(jìn)行溝通交流。我們不需要成為他們的“靈魂伴侶”,只需要大致理解他們的意圖,這對(duì)他們的生活就已經(jīng)是很大的幫助了。
此外,蘇老師提到了一個(gè)非常重要的問(wèn)題,即關(guān)于拍攝的隱私問(wèn)題。在攝像頭無(wú)處不在的今天,我們?nèi)绾卧诒Wo(hù)隱私和技術(shù)發(fā)展之間找到平衡?
問(wèn)題五:在開(kāi)發(fā)和部署手語(yǔ)識(shí)別系統(tǒng)時(shí),如何確保聽(tīng)障人士的隱私得到保護(hù)?我們?nèi)绾卧诩夹g(shù)創(chuàng)新與倫理道德之間找到平衡?
倪蘭:這確實(shí)是我們?cè)跇?gòu)建數(shù)據(jù)庫(kù)時(shí)一直面臨的困擾。起初,我并沒(méi)有強(qiáng)烈的隱私保護(hù)或知識(shí)產(chǎn)權(quán)意識(shí),是方老師向我強(qiáng)調(diào)了在計(jì)算機(jī)領(lǐng)域中數(shù)據(jù)保護(hù)的重要性,我才開(kāi)始重視這個(gè)問(wèn)題。
我們采集了大量的數(shù)據(jù),但在采集過(guò)程中,我們都會(huì)與聾人被調(diào)查者簽訂協(xié)議,確保他們的隱私受到保護(hù)。因此,在數(shù)據(jù)的公開(kāi)使用上,我們非常謹(jǐn)慎,會(huì)明確詢問(wèn)數(shù)據(jù)的使用目的。
有時(shí),一些企業(yè)會(huì)委托進(jìn)行數(shù)據(jù)采集工作,我們也會(huì)非常小心,擔(dān)心數(shù)據(jù)被用于其他目的。
文本數(shù)據(jù)的情況不同,因?yàn)镃hatGPT所使用的大部分文本數(shù)據(jù)都是公開(kāi)發(fā)表的,如新聞報(bào)道、出版的書(shū)籍或?qū)W術(shù)論文等。但手語(yǔ)數(shù)據(jù)無(wú)法屏蔽肖像,即使是在臉部任何部位打上馬賽克,都會(huì)導(dǎo)致語(yǔ)義信息損失。眼睛是表情中最重要的部分,我們經(jīng)常說(shuō)它們是心靈的窗戶,眼睛的睜大、閉合,甚至眼神都包含了豐富的信息。如果在處理數(shù)據(jù)時(shí)屏蔽了這些信息,就無(wú)法進(jìn)行有效的識(shí)別。
因此,我們目前的做法是--有限度的授權(quán)使用。
我們確實(shí)意識(shí)到,如果不發(fā)布數(shù)據(jù),它們就無(wú)法得到廣泛應(yīng)用,但一旦發(fā)布,又如何保護(hù)這些信息呢?
因此,對(duì)于表示不愿讓自己的信息被發(fā)布的聾人,我們都會(huì)做出承諾。保留了原始數(shù)據(jù),但僅在不公開(kāi)的情況下,用于我們自己的研究和觀察。
蘇劍波:關(guān)于隱私保護(hù)的問(wèn)題,我并沒(méi)有一個(gè)特別好的答案。但在這個(gè)過(guò)程中,我一直在向遇到的人們解釋,在公共場(chǎng)合,無(wú)論你是殘障人士還是健聽(tīng)人,大家都是沒(méi)有隱私的。
當(dāng)然,如果有人惡意使用你的肖像或生理特征,那就是另一回事了。這種情況下,應(yīng)該從法律角度對(duì)濫用者進(jìn)行懲罰。
實(shí)際上,任何人只要不在自己家里,在外面就都沒(méi)有隱私。所以,隱私該如何保護(hù)?如何進(jìn)行過(guò)濾?
包括馬賽克等手段,現(xiàn)在都可以用人工智能算法恢復(fù)成正常狀態(tài),這些技術(shù)已經(jīng)沒(méi)有什么秘密可言。在這個(gè)問(wèn)題上,確實(shí)很難做到完全的過(guò)濾。當(dāng)然,倪老師剛才提到的也很對(duì),我們需要尊重使用者的個(gè)人意愿。
我會(huì)告訴他們,我會(huì)如何使用他們的生理圖像,如果他們同意,我就使用;如果不同意,我就不使用。
但實(shí)際上,我也不斷向他們解釋,在公共場(chǎng)合下,你的圖像很容易被別人使用。所以,讓他們逐漸了解現(xiàn)代科技已經(jīng)發(fā)展到何種程度。通過(guò)我?guī)状谓忉尯?,他們也能理解了。我?huì)給他們看各種各樣的視頻,讓他們明白公共場(chǎng)合下的監(jiān)控是多么普遍。
但如果有人惡意使用他們的信息,他們完全可以起訴對(duì)方,我也會(huì)提供幫助。這樣,他們就能理解這個(gè)問(wèn)題了。目前沒(méi)有特別好的辦法,每個(gè)人都有自己的權(quán)利,不容侵犯。
方昱春:盡管在公共場(chǎng)合,我們的部分隱私確實(shí)容易泄露,但從管理的角度來(lái)看,我們?nèi)匀恍枰⑼晟频闹贫葋?lái)進(jìn)行倫理審查。
例如,針對(duì)手語(yǔ)識(shí)別項(xiàng)目,我們可以邀請(qǐng)專家和聾人代表共同制定符合道德倫理要求的規(guī)則。
在數(shù)據(jù)采集過(guò)程中,就像我和倪老師在制作數(shù)據(jù)集時(shí)所做的那樣,我們需要向聾人透明地說(shuō)明為何收集這些數(shù)據(jù),以及我們將如何使用這些數(shù)據(jù),并征得他們的同意。這本身就是一種保護(hù)措施。
在數(shù)據(jù)管理上,我們也應(yīng)該制度化,盡量尊重并保護(hù)數(shù)據(jù),防止泄露。尤其是在涉及商業(yè)運(yùn)作時(shí),我們需要特別注意,因?yàn)椴划?dāng)處理可能會(huì)讓人感到被侵犯。如果能通過(guò)預(yù)防來(lái)保護(hù)隱私,那么從使用者的角度來(lái)看,他們會(huì)更加滿意。
在部署手語(yǔ)識(shí)別系統(tǒng)時(shí),我們應(yīng)該避免收部署那些與個(gè)人相關(guān)的信息。對(duì)于這部分?jǐn)?shù)據(jù),我們可以進(jìn)行加密,并在傳輸和存儲(chǔ)過(guò)程中將安全性放在重要位置。我們需要仔細(xì)考慮哪些數(shù)據(jù)應(yīng)該上傳到云端,哪些不應(yīng)該。
隱私保護(hù)也是我們領(lǐng)域的一個(gè)重要研究方向。我自己也在研究面部隱私保護(hù)技術(shù),目前我們稱之為“Face DeID”。早期DeID會(huì)對(duì)面部打馬賽克或添加噪音作為保護(hù)方法,但這樣就無(wú)法保留手語(yǔ)的語(yǔ)言學(xué)特征?,F(xiàn)在,我們可以使用AIGC等技術(shù),在保留手語(yǔ)語(yǔ)言學(xué)特征的同時(shí),保護(hù)個(gè)人身份信息。
我認(rèn)為我們的技術(shù)有可能實(shí)現(xiàn)一個(gè)較好的平衡:我們可以利用數(shù)據(jù),但同時(shí)也能確保使用的數(shù)據(jù)是安全的。如果我們考慮全面,制度合理,在技術(shù)進(jìn)步同時(shí)也捍衛(wèi)倫理道德。
田英利:我認(rèn)為各位老師的討論非常精彩,特別是在手語(yǔ)識(shí)別方面,因?yàn)槲覀冃枰娌勘砬?、手?shì)以及身體動(dòng)作的配合。所以,如果簡(jiǎn)單地對(duì)視頻打馬賽克或其他處理,其他人可能就無(wú)法使用這些數(shù)據(jù)了。正如方老師所提到的,信息保護(hù)在這一領(lǐng)域中極為重要。
我在IBM工作時(shí),我們組參與過(guò)指紋識(shí)別項(xiàng)目。指紋是唯一的,一旦丟失,就無(wú)法再用于銀行密碼等。但我們的同事提出了一種可撤銷的生物特征識(shí)別方法。這啟發(fā)我思考,未來(lái)我們或許可以對(duì)手臉進(jìn)行某種變換,既保留了對(duì)計(jì)算機(jī)視覺(jué)有用的信息,又不泄露個(gè)人的重要信息,這是一個(gè)值得探索的方向。
1,用多模態(tài)大模型來(lái)做識(shí)別手語(yǔ)會(huì)不會(huì)更好?
田英利:關(guān)于使用多模態(tài)大型模型進(jìn)行手語(yǔ)識(shí)別的問(wèn)題,我的回答是肯定的。當(dāng)然,采用多模態(tài)的方法肯定會(huì)帶來(lái)更好的識(shí)別效果。目前,研究和開(kāi)發(fā)的趨勢(shì)正是朝著這個(gè)方向發(fā)展。因此,簡(jiǎn)單來(lái)說(shuō),使用多模態(tài)大型模型進(jìn)行手語(yǔ)識(shí)別是一個(gè)明確且必要的前進(jìn)方向。
2.有團(tuán)隊(duì)正在考慮如何建立一個(gè)類似于“手語(yǔ)-GPT”的基礎(chǔ)模型,能兼容全球各地的手語(yǔ)。那么,手語(yǔ)語(yǔ)法和方言是難題嗎?還是說(shuō),只要數(shù)據(jù)充足就能完成“暴力美學(xué)”?
方昱春:這個(gè)問(wèn)題讓我想起了我國(guó)著名的語(yǔ)言學(xué)家趙元任,他是一位能夠在極短的時(shí)間內(nèi)學(xué)會(huì)不同地方方言和多國(guó)語(yǔ)言的超級(jí)語(yǔ)言學(xué)家。
他掌握和使用語(yǔ)言的速度非??欤侨祟愔悄艿囊粋€(gè)杰出代表。雖然這樣的例子可能非常罕見(jiàn),但如果我們的人類能夠具備這樣的能力,對(duì)多種方言和語(yǔ)言具有極高的適應(yīng)性,那么我們也許能夠讓一個(gè)“手語(yǔ)GPT”模型也具備這種多方言的適配能力。
因?yàn)楸M管語(yǔ)言千變?nèi)f化,但每種語(yǔ)言都有其共性,不是完全無(wú)法互相學(xué)習(xí)的。因此,我認(rèn)為這是一個(gè)值得探索的有益想法。
倪蘭:語(yǔ)言學(xué)的終極目標(biāo)是探索人類語(yǔ)言的普遍性原理。包括美國(guó)語(yǔ)言學(xué)家喬姆斯基在內(nèi),許多學(xué)者都在尋找方案,希望用一套規(guī)則來(lái)解釋人類語(yǔ)言的共性,語(yǔ)言的核心在于形式如何表達(dá)意義,我們希望找到語(yǔ)言形式的共同規(guī)則,以及與意義的匹配方式。
比如,所有的語(yǔ)言都包含否定和疑問(wèn)的表達(dá),盡管表現(xiàn)形式各異;又比如每種語(yǔ)言中能夠表達(dá)意義的語(yǔ)音數(shù)量是有限的。但我們尚未找到一套完美的規(guī)則來(lái)解釋所有人類語(yǔ)言,這是因?yàn)槲覀儗?duì)語(yǔ)言的理解還不夠深入。
有時(shí)看國(guó)外的聾人電影或電視劇,我發(fā)現(xiàn)不同國(guó)家的手語(yǔ)之間存在一定的相似性。
例如,我們會(huì)看到日本手語(yǔ)與中國(guó)手語(yǔ)有很多相同的手勢(shì),這表明手語(yǔ)的前身——身勢(shì)語(yǔ)——在人類中有著共通之處。如大多數(shù)人通過(guò)搖頭表示否定,盡管也有的文化中使用仰頭來(lái)表示否定。
我相信,手語(yǔ)之間的可懂度可能比有聲語(yǔ)言高。
有研究表明,使用不同手語(yǔ)的人之間的可懂度,高于使用不同有聲語(yǔ)言的人。周文罡教授也曾提到,他們使用美國(guó)手語(yǔ)、德國(guó)手語(yǔ)等其他國(guó)家的手語(yǔ)數(shù)據(jù)集來(lái)訓(xùn)練,這表明其中存在一些共通的元素。
我們目前對(duì)手語(yǔ)的語(yǔ)音分析都基于美國(guó)學(xué)者William .Stokoe對(duì)手語(yǔ)的手形、位置和運(yùn)動(dòng)的切分,以及后來(lái)加入的方向和表情體態(tài)分析。這些基本特征分析在每一種手語(yǔ)中都具有價(jià)值。因此,如果我們能夠構(gòu)建這樣一個(gè)模型,并將這些特征導(dǎo)入手語(yǔ)的分析標(biāo)注中,我們一定能發(fā)現(xiàn)許多人類語(yǔ)言共通的東西。
蘇劍波:我的想法可能相對(duì)簡(jiǎn)單,但我認(rèn)為這里有一個(gè)值得探討的小方向。我們知道人類有多種不同的語(yǔ)言表達(dá)方式,包括口語(yǔ)、手語(yǔ)、肢體語(yǔ)言,以及各種方言等,這些都是非常個(gè)性化的表達(dá)形式。我在思考,是否有可能通過(guò)識(shí)別個(gè)體的腦波來(lái)取代對(duì)語(yǔ)言的感知和手語(yǔ)的識(shí)別?這是否是一個(gè)可行的方向?
因?yàn)槟X波的感知更加個(gè)性化,這可能會(huì)為我們提供一個(gè)全新的交流方式。我提出這個(gè)問(wèn)題,希望能與大家一起探討這個(gè)可能性。
田英利:馬斯克的Neuralink項(xiàng)目就在探索人腦與計(jì)算機(jī)接口的可能性。他們最近似乎也取得了一些進(jìn)展,這可能是最直接的方式來(lái)實(shí)現(xiàn)人腦與機(jī)器的交流。
至于“手語(yǔ)GPT”,從技術(shù)角度看,如果我們能夠獲取全球范圍內(nèi)的大規(guī)模數(shù)據(jù),我認(rèn)為是有可能的。就像現(xiàn)在不同語(yǔ)言之間的翻譯,曾經(jīng)被認(rèn)為是一項(xiàng)艱巨的任務(wù),但現(xiàn)在ChatGPT可以輕松地在英文和中文之間切換,沒(méi)有任何問(wèn)題。
但從實(shí)施的角度來(lái)看,我認(rèn)為還存在一些困難。畢竟,聾人群體相對(duì)較小,當(dāng)需要大量的計(jì)算資源和技術(shù)支持時(shí),是否有政府或產(chǎn)業(yè)愿意投入巨大的財(cái)力和數(shù)據(jù)來(lái)服務(wù)這樣一個(gè)相對(duì)較小的受眾群體?
他們需要考慮實(shí)際的投資回報(bào),如果投入巨大但收益有限,甚至可能不賺錢(qián),只有少數(shù)人受益,他們是否愿意這樣做?
因此,我認(rèn)為對(duì)于手語(yǔ)識(shí)別或幫助殘障人群的項(xiàng)目,需要政府的政策支持和資助,以及不同產(chǎn)業(yè)的協(xié)助。但這些項(xiàng)目能盈利多少,我持保留態(tài)度。
此外,殘障人士本身對(duì)高科技的接受程度可能有限,加之全球老齡化問(wèn)題,一些老年人可能存在聽(tīng)力或視力損失。讓他們使用電話或平板電腦可能更加困難。我們?nèi)绾巫屵@些弱勢(shì)群體享受到科技的紅利,需要政府的大力推廣和支持,單靠個(gè)人力量是難以實(shí)現(xiàn)的。
不知不覺(jué),我們已經(jīng)討論了兩個(gè)小時(shí),非常感謝大家的分享。由于時(shí)間關(guān)系,我們今天的論壇討論就要告一段落了。非常感謝大家,感謝雷峰網(wǎng)為我們提供了這樣一個(gè)交流思想、碰撞智慧的平臺(tái)。
希望在未來(lái)的論壇中,能有更多有需求的人士加入我們的討論。
也希望我們的技術(shù)能夠在不久的將來(lái),真正應(yīng)用到他們的日常生活中。
本文作者吳彤,關(guān)注AI for Science,歡迎添加微信(icedaguniang),交流認(rèn)知,互通有無(wú)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章