0
本文作者: 任平 | 2024-03-18 14:42 | 專題:AI for Science |
在科技日新月異的今天,手語識別作為一種新興的跨學科研究領(lǐng)域,正逐漸走進公眾視野。
近期,我們邀請了上海大學的方昱春教授,這位在計算機視覺和手語研究領(lǐng)域深耕多年的資深專家,與我們分享了她如何將計算機視覺技術(shù)與手語研究相融合,開辟出一片新的研究天地。
方教授的研究重點在于利用計算機視覺技術(shù)(CV)探索手語識別,特別是通過深度學習方法來求解這一復雜而神奇的自然語言交流形式。目前她和團隊已經(jīng)在多模數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別以及人體姿態(tài)建模等四個方向上開展了研究。
實際上,方教授的學術(shù)研究始于人臉識別,隨著時間的推移,她的研究興趣逐漸擴展到手語識別這一領(lǐng)域。
2003年,她在中科院自動化所獲得博士學位,之后前往法國國立信息與自動化研究院做博士后,從事圖像檢索研究。雖然手語研究并非她最初的研究重點,但在2005年加入上海大學后,方教授逐漸將研究重心轉(zhuǎn)向了手語領(lǐng)域。
特別是在2017年,她協(xié)助本校手語語言學專家倪蘭教授籌建面向人工智能研究的手語數(shù)據(jù)庫,并在2018年獲得上海市科委項目支持,正式開展手語識別研究。
在方教授看來,手語研究不僅是技術(shù)探索的過程,更是深入理解人類認知智能機制的重要途徑。她指出:“手語作為一種自然語言,盡管其發(fā)展歷史相對較短,但它所蘊含的關(guān)于語言發(fā)展和認知機制的信息是極其珍貴的?!?/p>
如今,方教授的研究不僅關(guān)注于手語的理論研究,更致力于解決手語在實際場景中的應用問題,為聾人群體在應急、醫(yī)療和購物等實際場景中提供數(shù)字化技術(shù)支持。方教授和團隊正在開發(fā)的應用程序和小程序,正是這一目標的具體實踐。
此外,她也指出,隨著大型語言模型等前沿科技的發(fā)展,手語識別研究將面臨新的機遇和挑戰(zhàn)。她的團隊正在積極探索結(jié)合計算機視覺和自然語言處理的方法,以期在手語研究領(lǐng)域取得更多突破。
以下為對話(經(jīng)編輯):
01 計算機視覺學者做起手語識別
雷峰網(wǎng):方教授,我注意到您是計算機視覺(CV)出身,手語研究在您的研究工作中所占比重在逐年增加,能具體介紹下您是如何把兩者集合起來的嗎?
方昱春:簡單來說,計算機視覺和手語的結(jié)合,形成了“手語識別”這一研究方向。
手語識別研究是數(shù)據(jù)驅(qū)動的,而手語數(shù)據(jù)的獲取和標注相對復雜。之所以我涉足這一領(lǐng)域,是因為倪蘭老師參與了國家和上海的科研活動,希望將人工智能技術(shù)應用于手語研究,這促使我開始著手語數(shù)據(jù)的采集和研究規(guī)劃。
在搭建手語識別系統(tǒng)時,還有另一種技術(shù)路線--基于傳感設備(如數(shù)據(jù)手套和位置跟蹤器)的系統(tǒng)。穿戴式設備如數(shù)據(jù)手套也曾是主流手語識別研究方向。
隨著深度學習在人臉識別應用上的成功,手語識別研究也逐漸向機器學習和計算機視覺結(jié)合的方向發(fā)展。
目前,我的研究小組跟蹤了計算機視覺領(lǐng)域的主流方法,正在以深度學習方法為主來處理手語識別問題,后續(xù)研究計劃更加關(guān)注手語語言學交叉學科問題的探索。
我和團隊已經(jīng)探索了四個主要方向,包括多模態(tài)數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別,以及人體姿態(tài)建模和AI生成技術(shù)應用于手語研究。
在連續(xù)手語識別方面,我想強調(diào)的一點是,我們試圖建模手語運動的多模態(tài)特性,比如頭部、面部、雙手和軀干之間的空間關(guān)系和運動關(guān)系,以實現(xiàn)對手語更深入的理解。這是我們團隊過去幾年一直在努力的方向。
隨著人工智能生成內(nèi)容技術(shù)的發(fā)展,我們開始嘗試了一些手語的計算生成研究,這部分工作還處于初級階段。
雷峰網(wǎng):手語識別這一研究領(lǐng)域過去很少人關(guān)注,國內(nèi)在這方面大致經(jīng)歷了怎樣的發(fā)展階段?
方昱春:計算機視覺的手語識別研究經(jīng)歷了20年左右的發(fā)展,隨著深度學習技術(shù)的發(fā)展,基于機器學習和計算機視覺的手語識別才開始蓬勃發(fā)展,近兩年里手語識別研究的規(guī)模迅速增長。
我是在2005年加入上海大學,在2017年才開始規(guī)劃手語研究,2018年開始正式投入到手語研究中。2017年,我協(xié)助倪蘭老師籌備數(shù)據(jù)建設,這年對上海大學手語研究來說是一個重要的里程碑,倪蘭教授建立了“中國手語及聾人研究中心”,非常有魄力。
雷峰網(wǎng):您認為手語識別研究的長遠目標是什么?
方昱春:手語作為一種自然語言,蘊含著人類的認知智能機制。與文字語言或口語相比,手語形成的歷史相對較短,這使得手語成為研究語言發(fā)展和認知機制的寶貴研究對象。
從理論角度來看,我們希望能夠更深入地理解這些機制。
而從應用角度來說,我們的目標是解決手語在實際場景中的應用問題,比如在應急、醫(yī)療和購物等場景中,為聾人社區(qū)提供數(shù)字化的技術(shù)支持。我們正在嘗試開發(fā)應用程序和小程序,來實現(xiàn)這些目標。
雷峰網(wǎng):方教授,手語研究現(xiàn)在是您研究工作的主要部分嗎?對您招生方面有何影響?
方昱春:手語研究是我目前研究的主要任務之一,自從開始著手語項目以來,我投入的精力和資源都在不斷增長。
在招收研究生方面,我們也非常希望有跨學科背景的學生加入,比如語言學和機器學習的雙重背景,但找到這樣的綜合型人才非常困難。
幸運的是,上海大學有倪老師這樣在手語語言學領(lǐng)域有著深厚積累的專家,未來,我和倪老師計劃合作指導學生,培養(yǎng)具有交叉學科背景的復合性人才,這一目標對學生的職業(yè)發(fā)展和人生規(guī)劃將非常有價值。
02 數(shù)據(jù)是手語識別研究的最大瓶頸
雷峰網(wǎng):我最近對田英利教授的手語研究進行了專訪,您可能已經(jīng)看過了。田教授的研究專注于美國手語,并開發(fā)了一個實時手語語法錯誤識別系統(tǒng)。這個系統(tǒng)旨在為手語學習者提供即時反饋,并有望在未來提高精確度后,集成到手機或電腦中,以便將聾啞人的手語翻譯給聽力正常的人。請問您在這方面的研究是否有相似之處或存在差異?
方昱春:從我個人的角度來說,我對手語研究還是一個新手,我們實驗了從計算機視覺角度研究手語的基本方法,我認為這些方法在應用上是具有實用價值的,對未來的理論研究也特別有幫助。
我和倪老師在討論上海大學未來的手語研究規(guī)劃時,了解到田英利教授開展了手語研究,于是我決定聯(lián)系她,促進不同手語研究之間的交流。雖然我們研究的手語語種、可能不同,但背后的機理是可以互相借鑒的,我們可以通過比較美國手語和中國手語來互相驗證。
實際上,我最初進行手語研究時,也是從孤立詞的識別開始,使用的是美國手語(ASL)的數(shù)據(jù)集。正如我之前提到的,數(shù)據(jù)驅(qū)動的研究離不開數(shù)據(jù)。在我們自己的數(shù)據(jù)準備就緒之前,我們主要依賴開源數(shù)據(jù)集。
那么,無論是美國手語還是中國手語,實際上在不同地區(qū)之間,手語的表現(xiàn)形式還是有所不同的,就像方言一樣,會有變化。
目前,中國科學技術(shù)大學、西安電子科技大學、中國科學院計算所和自動化所,是國內(nèi)開展手語識別非常有代表性的研究機構(gòu)。團隊之間的合作溝通一定是有益的,如推動數(shù)據(jù)庫共享等。
雷峰網(wǎng):手語也有“方言”之分,目前您使用的手語數(shù)據(jù)集,是否主要來自于上海一帶所使用的?
方昱春:我們目前在上海進行的手語研究還處于比較基礎的階段,比如數(shù)據(jù)的分割和預處理,還沒有深入到識別層面。
我們算法研究使用的數(shù)據(jù)集叫做“中國手語識別數(shù)據(jù)集”(CSL),這是由中國科學技術(shù)大學的研究團隊建立的。
目前國家層面和政策層面為了幫助聾人群體,做了很多語言推廣工作,通過制定新的標準來推廣手語。
雖然對于我們這些不打手語的外行人來說,不能辨識不同地區(qū)的手語方言,但是關(guān)于手語的這種地域差異,還有很多問題需要研究。
雷峰網(wǎng):國內(nèi)目前也有中科大、西電、中科院等幾支手語識別的領(lǐng)先團隊,所使用的手語數(shù)據(jù)是否針對特定地區(qū)?
方昱春:是的,這幾所單位開展手語識別研究,都具備豐厚的積累。針對特定的手語方言的研究還非常少。
上海的手語語言學發(fā)展較為先進,倪老師和上海的聾人群體建立了長期的聯(lián)系,并開展了實際合作。
從計算機視覺研究的角度來看,我們更多地使用德國的鳳凰(PHOENIX)數(shù)據(jù)集,因為德國的手語數(shù)據(jù)集上做出來的標桿算法較多,我們希望了解自己的算法達到了什么程度。德國的標桿數(shù)據(jù)集開源較多,因此大家都愿意使用它來驗證自己方法的進步。
雷峰網(wǎng):使用德國手語數(shù)據(jù)集進行研究會有語言不通的問題嗎?這對我們的研究方法有影響嗎?
方昱春:從計算機視覺的角度來看,使用德國或其他國家手語數(shù)據(jù)集是沒有問題的,方法是有通用性的。視頻中包含的主要是上半身的多模態(tài)運動,這些信號對我們來說都是一樣的。盡管如此,從語言學的角度來看,不同語言的手語確實存在差異,因為它們屬于不同的語系。
雷峰網(wǎng):在開發(fā)數(shù)字人進行手語應用時,您是否遇到了一些挑戰(zhàn),比如聾人群體可能無法理解數(shù)字人使用的手語,或者不同企業(yè)開發(fā)的數(shù)字人在手語表達上可能出現(xiàn)同質(zhì)化的問題?
方昱春:首先,我們面臨的最大挑戰(zhàn)是手語數(shù)據(jù)的缺乏。
我們會選擇使用德國鳳凰(PHOENIX)數(shù)據(jù)集,因為它將場景限定在天氣預報上,問題因場景限定而簡化,他們提供公共研究的開源數(shù)據(jù)量很大,他們的團隊開展了語言學家和計算機科學專家的合作,是一個很好的模式。
第二個挑戰(zhàn)是,手語語言學專家和語言學專業(yè)人員的缺乏。
上大大學手語識別研究,有幸能獲得倪蘭老師的指導。
如果僅從計算機視覺的角度解決手語識別問題,不了解手語語言的特點,不了解聾人的語言特點,所開發(fā)出來的算法或模型會脫離實際應用的需求。
田英利教授的工作就是一個跨學科合作的典范,她結(jié)合了語言學和計算機視覺技術(shù),我認為她的交叉應用選點非常新穎。倪老師也非常贊賞田教授的工作,并特意推薦給我們上海大學團隊參考。
雷峰網(wǎng):我們也非常關(guān)注前沿科技對您工作的影響,比如去年推出的ChatGPT和今年的Sora,它們在自然語言處理方面取得了顯著成就。這些模型背后的設計理念和技術(shù)路徑,對您做手語識別研究有何啟示?
方昱春:我們團隊也一直在關(guān)注大語言模型的發(fā)展。我們正在計劃利用學校新建的大型GPU集群,開展更多大語言模型相關(guān)的研究。
在結(jié)合計算機視覺(CV)和自然語言處理(NLP)方面,在中科大團隊將自然語言理解技術(shù)應用于手語識別研究的啟發(fā),我們團隊近期也提出了一個解決方案,取得了顯著的效果。
雷峰網(wǎng):我們注意到,大模型的出現(xiàn)讓很多人希望建立一個全球或國家通用的手語大模型。但這確實面臨挑戰(zhàn),尤其是數(shù)據(jù)獲取困難。手語數(shù)據(jù)通常包含上半身,涉及肖像權(quán)和隱私問題。您是否主要使用倪蘭教授收集的數(shù)據(jù)庫進行數(shù)據(jù)研究?
方昱春:為了妥善使用數(shù)據(jù),確實需要健全隱私保護機制。我們團隊在數(shù)據(jù)采集和使用方面,都嚴格遵守隱私保護的約束。
手語理解數(shù)據(jù)集面臨的最大的挑戰(zhàn)在于數(shù)據(jù)標注問題。當采集到孤立詞或連續(xù)手語句的視頻后,可以進行什么程度的標注?目前,文字形式自然語言的自動分詞已非常成熟。但是,要將手語視頻分解成音韻要素,自動處理難度非常高,人工標注工作量會非常大。
在接下來的線上圓桌討論中,我希望和大家一起探討手語識別領(lǐng)域的數(shù)據(jù)之困。
本文作者吳彤,歡迎添加微信(icedaguniang),交流認知,互通有無。
|GAIR live 圓桌預告
3月18日,北京時間20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應用前景」的線上圓桌論壇。
本次論壇嘉賓有,美國紐約城市大學田英利教授、上海交通大學自動化系蘇劍波教授、上海大學計算機工程與科學學院方昱春教授、上海大學文學院倪蘭教授,共同分享他們的見解和研究成果。
“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學會(CCF)合作創(chuàng)立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學術(shù)、工業(yè)和投資領(lǐng)域盛會。
GAIR Live 作為雷峰網(wǎng)(公眾號:雷峰網(wǎng))旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學、研、投的特色線上平臺。
|手語相關(guān)資料
1,《專訪紐約城市大學田英利教授:用多通道、多模態(tài)的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正在邀約論文和專題
《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學術(shù)期刊。
作為全球首本專注于人工智能(AI)、機器人技術(shù)(Robotics)以及基礎科學交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領(lǐng)域研究的權(quán)威發(fā)布平臺。
IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。
我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。
(1)“如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。
(2)如果您領(lǐng)導的團隊在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。
(3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細節(jié)。
IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發(fā)展。
聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg
關(guān)于期刊創(chuàng)刊主編等更多信息,可點擊
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章