0
本文作者: 任平 | 2024-03-18 14:42 | 專題:AI for Science |
在科技日新月異的今天,手語識別作為一種新興的跨學(xué)科研究領(lǐng)域,正逐漸走進(jìn)公眾視野。
近期,我們邀請了上海大學(xué)的方昱春教授,這位在計(jì)算機(jī)視覺和手語研究領(lǐng)域深耕多年的資深專家,與我們分享了她如何將計(jì)算機(jī)視覺技術(shù)與手語研究相融合,開辟出一片新的研究天地。
方教授的研究重點(diǎn)在于利用計(jì)算機(jī)視覺技術(shù)(CV)探索手語識別,特別是通過深度學(xué)習(xí)方法來求解這一復(fù)雜而神奇的自然語言交流形式。目前她和團(tuán)隊(duì)已經(jīng)在多模數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別以及人體姿態(tài)建模等四個(gè)方向上開展了研究。
實(shí)際上,方教授的學(xué)術(shù)研究始于人臉識別,隨著時(shí)間的推移,她的研究興趣逐漸擴(kuò)展到手語識別這一領(lǐng)域。
2003年,她在中科院自動化所獲得博士學(xué)位,之后前往法國國立信息與自動化研究院做博士后,從事圖像檢索研究。雖然手語研究并非她最初的研究重點(diǎn),但在2005年加入上海大學(xué)后,方教授逐漸將研究重心轉(zhuǎn)向了手語領(lǐng)域。
特別是在2017年,她協(xié)助本校手語語言學(xué)專家倪蘭教授籌建面向人工智能研究的手語數(shù)據(jù)庫,并在2018年獲得上海市科委項(xiàng)目支持,正式開展手語識別研究。
在方教授看來,手語研究不僅是技術(shù)探索的過程,更是深入理解人類認(rèn)知智能機(jī)制的重要途徑。她指出:“手語作為一種自然語言,盡管其發(fā)展歷史相對較短,但它所蘊(yùn)含的關(guān)于語言發(fā)展和認(rèn)知機(jī)制的信息是極其珍貴的?!?/p>
如今,方教授的研究不僅關(guān)注于手語的理論研究,更致力于解決手語在實(shí)際場景中的應(yīng)用問題,為聾人群體在應(yīng)急、醫(yī)療和購物等實(shí)際場景中提供數(shù)字化技術(shù)支持。方教授和團(tuán)隊(duì)正在開發(fā)的應(yīng)用程序和小程序,正是這一目標(biāo)的具體實(shí)踐。
此外,她也指出,隨著大型語言模型等前沿科技的發(fā)展,手語識別研究將面臨新的機(jī)遇和挑戰(zhàn)。她的團(tuán)隊(duì)正在積極探索結(jié)合計(jì)算機(jī)視覺和自然語言處理的方法,以期在手語研究領(lǐng)域取得更多突破。
以下為對話(經(jīng)編輯):
01 計(jì)算機(jī)視覺學(xué)者做起手語識別
雷峰網(wǎng):方教授,我注意到您是計(jì)算機(jī)視覺(CV)出身,手語研究在您的研究工作中所占比重在逐年增加,能具體介紹下您是如何把兩者集合起來的嗎?
方昱春:簡單來說,計(jì)算機(jī)視覺和手語的結(jié)合,形成了“手語識別”這一研究方向。
手語識別研究是數(shù)據(jù)驅(qū)動的,而手語數(shù)據(jù)的獲取和標(biāo)注相對復(fù)雜。之所以我涉足這一領(lǐng)域,是因?yàn)槟咛m老師參與了國家和上海的科研活動,希望將人工智能技術(shù)應(yīng)用于手語研究,這促使我開始著手語數(shù)據(jù)的采集和研究規(guī)劃。
在搭建手語識別系統(tǒng)時(shí),還有另一種技術(shù)路線--基于傳感設(shè)備(如數(shù)據(jù)手套和位置跟蹤器)的系統(tǒng)。穿戴式設(shè)備如數(shù)據(jù)手套也曾是主流手語識別研究方向。
隨著深度學(xué)習(xí)在人臉識別應(yīng)用上的成功,手語識別研究也逐漸向機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺結(jié)合的方向發(fā)展。
目前,我的研究小組跟蹤了計(jì)算機(jī)視覺領(lǐng)域的主流方法,正在以深度學(xué)習(xí)方法為主來處理手語識別問題,后續(xù)研究計(jì)劃更加關(guān)注手語語言學(xué)交叉學(xué)科問題的探索。
我和團(tuán)隊(duì)已經(jīng)探索了四個(gè)主要方向,包括多模態(tài)數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別,以及人體姿態(tài)建模和AI生成技術(shù)應(yīng)用于手語研究。
在連續(xù)手語識別方面,我想強(qiáng)調(diào)的一點(diǎn)是,我們試圖建模手語運(yùn)動的多模態(tài)特性,比如頭部、面部、雙手和軀干之間的空間關(guān)系和運(yùn)動關(guān)系,以實(shí)現(xiàn)對手語更深入的理解。這是我們團(tuán)隊(duì)過去幾年一直在努力的方向。
隨著人工智能生成內(nèi)容技術(shù)的發(fā)展,我們開始嘗試了一些手語的計(jì)算生成研究,這部分工作還處于初級階段。
雷峰網(wǎng):手語識別這一研究領(lǐng)域過去很少人關(guān)注,國內(nèi)在這方面大致經(jīng)歷了怎樣的發(fā)展階段?
方昱春:計(jì)算機(jī)視覺的手語識別研究經(jīng)歷了20年左右的發(fā)展,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的手語識別才開始蓬勃發(fā)展,近兩年里手語識別研究的規(guī)模迅速增長。
我是在2005年加入上海大學(xué),在2017年才開始規(guī)劃手語研究,2018年開始正式投入到手語研究中。2017年,我協(xié)助倪蘭老師籌備數(shù)據(jù)建設(shè),這年對上海大學(xué)手語研究來說是一個(gè)重要的里程碑,倪蘭教授建立了“中國手語及聾人研究中心”,非常有魄力。
雷峰網(wǎng):您認(rèn)為手語識別研究的長遠(yuǎn)目標(biāo)是什么?
方昱春:手語作為一種自然語言,蘊(yùn)含著人類的認(rèn)知智能機(jī)制。與文字語言或口語相比,手語形成的歷史相對較短,這使得手語成為研究語言發(fā)展和認(rèn)知機(jī)制的寶貴研究對象。
從理論角度來看,我們希望能夠更深入地理解這些機(jī)制。
而從應(yīng)用角度來說,我們的目標(biāo)是解決手語在實(shí)際場景中的應(yīng)用問題,比如在應(yīng)急、醫(yī)療和購物等場景中,為聾人社區(qū)提供數(shù)字化的技術(shù)支持。我們正在嘗試開發(fā)應(yīng)用程序和小程序,來實(shí)現(xiàn)這些目標(biāo)。
雷峰網(wǎng):方教授,手語研究現(xiàn)在是您研究工作的主要部分嗎?對您招生方面有何影響?
方昱春:手語研究是我目前研究的主要任務(wù)之一,自從開始著手語項(xiàng)目以來,我投入的精力和資源都在不斷增長。
在招收研究生方面,我們也非常希望有跨學(xué)科背景的學(xué)生加入,比如語言學(xué)和機(jī)器學(xué)習(xí)的雙重背景,但找到這樣的綜合型人才非常困難。
幸運(yùn)的是,上海大學(xué)有倪老師這樣在手語語言學(xué)領(lǐng)域有著深厚積累的專家,未來,我和倪老師計(jì)劃合作指導(dǎo)學(xué)生,培養(yǎng)具有交叉學(xué)科背景的復(fù)合性人才,這一目標(biāo)對學(xué)生的職業(yè)發(fā)展和人生規(guī)劃將非常有價(jià)值。
02 數(shù)據(jù)是手語識別研究的最大瓶頸
雷峰網(wǎng):我最近對田英利教授的手語研究進(jìn)行了專訪,您可能已經(jīng)看過了。田教授的研究專注于美國手語,并開發(fā)了一個(gè)實(shí)時(shí)手語語法錯(cuò)誤識別系統(tǒng)。這個(gè)系統(tǒng)旨在為手語學(xué)習(xí)者提供即時(shí)反饋,并有望在未來提高精確度后,集成到手機(jī)或電腦中,以便將聾啞人的手語翻譯給聽力正常的人。請問您在這方面的研究是否有相似之處或存在差異?
方昱春:從我個(gè)人的角度來說,我對手語研究還是一個(gè)新手,我們實(shí)驗(yàn)了從計(jì)算機(jī)視覺角度研究手語的基本方法,我認(rèn)為這些方法在應(yīng)用上是具有實(shí)用價(jià)值的,對未來的理論研究也特別有幫助。
我和倪老師在討論上海大學(xué)未來的手語研究規(guī)劃時(shí),了解到田英利教授開展了手語研究,于是我決定聯(lián)系她,促進(jìn)不同手語研究之間的交流。雖然我們研究的手語語種、可能不同,但背后的機(jī)理是可以互相借鑒的,我們可以通過比較美國手語和中國手語來互相驗(yàn)證。
實(shí)際上,我最初進(jìn)行手語研究時(shí),也是從孤立詞的識別開始,使用的是美國手語(ASL)的數(shù)據(jù)集。正如我之前提到的,數(shù)據(jù)驅(qū)動的研究離不開數(shù)據(jù)。在我們自己的數(shù)據(jù)準(zhǔn)備就緒之前,我們主要依賴開源數(shù)據(jù)集。
那么,無論是美國手語還是中國手語,實(shí)際上在不同地區(qū)之間,手語的表現(xiàn)形式還是有所不同的,就像方言一樣,會有變化。
目前,中國科學(xué)技術(shù)大學(xué)、西安電子科技大學(xué)、中國科學(xué)院計(jì)算所和自動化所,是國內(nèi)開展手語識別非常有代表性的研究機(jī)構(gòu)。團(tuán)隊(duì)之間的合作溝通一定是有益的,如推動數(shù)據(jù)庫共享等。
雷峰網(wǎng):手語也有“方言”之分,目前您使用的手語數(shù)據(jù)集,是否主要來自于上海一帶所使用的?
方昱春:我們目前在上海進(jìn)行的手語研究還處于比較基礎(chǔ)的階段,比如數(shù)據(jù)的分割和預(yù)處理,還沒有深入到識別層面。
我們算法研究使用的數(shù)據(jù)集叫做“中國手語識別數(shù)據(jù)集”(CSL),這是由中國科學(xué)技術(shù)大學(xué)的研究團(tuán)隊(duì)建立的。
目前國家層面和政策層面為了幫助聾人群體,做了很多語言推廣工作,通過制定新的標(biāo)準(zhǔn)來推廣手語。
雖然對于我們這些不打手語的外行人來說,不能辨識不同地區(qū)的手語方言,但是關(guān)于手語的這種地域差異,還有很多問題需要研究。
雷峰網(wǎng):國內(nèi)目前也有中科大、西電、中科院等幾支手語識別的領(lǐng)先團(tuán)隊(duì),所使用的手語數(shù)據(jù)是否針對特定地區(qū)?
方昱春:是的,這幾所單位開展手語識別研究,都具備豐厚的積累。針對特定的手語方言的研究還非常少。
上海的手語語言學(xué)發(fā)展較為先進(jìn),倪老師和上海的聾人群體建立了長期的聯(lián)系,并開展了實(shí)際合作。
從計(jì)算機(jī)視覺研究的角度來看,我們更多地使用德國的鳳凰(PHOENIX)數(shù)據(jù)集,因?yàn)榈聡氖终Z數(shù)據(jù)集上做出來的標(biāo)桿算法較多,我們希望了解自己的算法達(dá)到了什么程度。德國的標(biāo)桿數(shù)據(jù)集開源較多,因此大家都愿意使用它來驗(yàn)證自己方法的進(jìn)步。
雷峰網(wǎng):使用德國手語數(shù)據(jù)集進(jìn)行研究會有語言不通的問題嗎?這對我們的研究方法有影響嗎?
方昱春:從計(jì)算機(jī)視覺的角度來看,使用德國或其他國家手語數(shù)據(jù)集是沒有問題的,方法是有通用性的。視頻中包含的主要是上半身的多模態(tài)運(yùn)動,這些信號對我們來說都是一樣的。盡管如此,從語言學(xué)的角度來看,不同語言的手語確實(shí)存在差異,因?yàn)樗鼈儗儆诓煌恼Z系。
雷峰網(wǎng):在開發(fā)數(shù)字人進(jìn)行手語應(yīng)用時(shí),您是否遇到了一些挑戰(zhàn),比如聾人群體可能無法理解數(shù)字人使用的手語,或者不同企業(yè)開發(fā)的數(shù)字人在手語表達(dá)上可能出現(xiàn)同質(zhì)化的問題?
方昱春:首先,我們面臨的最大挑戰(zhàn)是手語數(shù)據(jù)的缺乏。
我們會選擇使用德國鳳凰(PHOENIX)數(shù)據(jù)集,因?yàn)樗鼘鼍跋薅ㄔ谔鞖忸A(yù)報(bào)上,問題因場景限定而簡化,他們提供公共研究的開源數(shù)據(jù)量很大,他們的團(tuán)隊(duì)開展了語言學(xué)家和計(jì)算機(jī)科學(xué)專家的合作,是一個(gè)很好的模式。
第二個(gè)挑戰(zhàn)是,手語語言學(xué)專家和語言學(xué)專業(yè)人員的缺乏。
上大大學(xué)手語識別研究,有幸能獲得倪蘭老師的指導(dǎo)。
如果僅從計(jì)算機(jī)視覺的角度解決手語識別問題,不了解手語語言的特點(diǎn),不了解聾人的語言特點(diǎn),所開發(fā)出來的算法或模型會脫離實(shí)際應(yīng)用的需求。
田英利教授的工作就是一個(gè)跨學(xué)科合作的典范,她結(jié)合了語言學(xué)和計(jì)算機(jī)視覺技術(shù),我認(rèn)為她的交叉應(yīng)用選點(diǎn)非常新穎。倪老師也非常贊賞田教授的工作,并特意推薦給我們上海大學(xué)團(tuán)隊(duì)參考。
雷峰網(wǎng):我們也非常關(guān)注前沿科技對您工作的影響,比如去年推出的ChatGPT和今年的Sora,它們在自然語言處理方面取得了顯著成就。這些模型背后的設(shè)計(jì)理念和技術(shù)路徑,對您做手語識別研究有何啟示?
方昱春:我們團(tuán)隊(duì)也一直在關(guān)注大語言模型的發(fā)展。我們正在計(jì)劃利用學(xué)校新建的大型GPU集群,開展更多大語言模型相關(guān)的研究。
在結(jié)合計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)方面,在中科大團(tuán)隊(duì)將自然語言理解技術(shù)應(yīng)用于手語識別研究的啟發(fā),我們團(tuán)隊(duì)近期也提出了一個(gè)解決方案,取得了顯著的效果。
雷峰網(wǎng):我們注意到,大模型的出現(xiàn)讓很多人希望建立一個(gè)全球或國家通用的手語大模型。但這確實(shí)面臨挑戰(zhàn),尤其是數(shù)據(jù)獲取困難。手語數(shù)據(jù)通常包含上半身,涉及肖像權(quán)和隱私問題。您是否主要使用倪蘭教授收集的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)研究?
方昱春:為了妥善使用數(shù)據(jù),確實(shí)需要健全隱私保護(hù)機(jī)制。我們團(tuán)隊(duì)在數(shù)據(jù)采集和使用方面,都嚴(yán)格遵守隱私保護(hù)的約束。
手語理解數(shù)據(jù)集面臨的最大的挑戰(zhàn)在于數(shù)據(jù)標(biāo)注問題。當(dāng)采集到孤立詞或連續(xù)手語句的視頻后,可以進(jìn)行什么程度的標(biāo)注?目前,文字形式自然語言的自動分詞已非常成熟。但是,要將手語視頻分解成音韻要素,自動處理難度非常高,人工標(biāo)注工作量會非常大。
在接下來的線上圓桌討論中,我希望和大家一起探討手語識別領(lǐng)域的數(shù)據(jù)之困。
本文作者吳彤,歡迎添加微信(icedaguniang),交流認(rèn)知,互通有無。
|GAIR live 圓桌預(yù)告
3月18日,北京時(shí)間20:00-22:00,雷峰網(wǎng)(公眾號:雷峰網(wǎng))將舉辦主題為「AI+手語識別,技術(shù)革新與應(yīng)用前景」的線上圓桌論壇。
本次論壇嘉賓有,美國紐約城市大學(xué)田英利教授、上海交通大學(xué)自動化系蘇劍波教授、上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院方昱春教授、上海大學(xué)文學(xué)院倪蘭教授,共同分享他們的見解和研究成果。
“全球人工智能與機(jī)器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計(jì)算機(jī)學(xué)會(CCF)合作創(chuàng)立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。
GAIR Live 作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。
|手語相關(guān)資料
1,《專訪紐約城市大學(xué)田英利教授:用多通道、多模態(tài)的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正在邀約論文和專題
《國際人工智能與機(jī)器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學(xué)術(shù)期刊。
作為全球首本專注于人工智能(AI)、機(jī)器人技術(shù)(Robotics)以及基礎(chǔ)科學(xué)交叉研究(Research)的期刊,IJAIRR致力于成為AI與機(jī)器人領(lǐng)域研究的權(quán)威發(fā)布平臺。
IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。
我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個(gè)更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。
(1)“如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。
(2)如果您領(lǐng)導(dǎo)的團(tuán)隊(duì)在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個(gè)專題(Special Issue),我們誠摯邀請您深入討論合作事宜。
(3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個(gè)專題(Special Issue),我們也期待與您具體商討合作細(xì)節(jié)。
IJAIRR期待與您攜手,共同推動人工智能與機(jī)器人研究的發(fā)展。
聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg
關(guān)于期刊創(chuàng)刊主編等更多信息,可點(diǎn)擊
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細(xì)介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章