丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給任平
發(fā)送

0

對話上交蘇劍波教授:直面手語的「方言」多樣性與系統(tǒng)「通用性」挑戰(zhàn)|GAIR live

本文作者: 任平 2024-03-15 17:20 專題:AI for Science
導(dǎo)語:手語識別專用工具、模型與算法尚未出現(xiàn)。

作為上海交通大學(xué)自動(dòng)化系的資深教授,蘇劍波堅(jiān)守著一條科研信條:研究工作需源源不斷地注入活力。

他曾闡釋這一理念:“一個(gè)研究者在踏入某一科學(xué)領(lǐng)域時(shí),應(yīng)選取一個(gè)能夠長期深耕、并隨著理論及技術(shù)進(jìn)步而能不斷更新研究內(nèi)容的主題,這才是研究者始終能保持學(xué)術(shù)活力的根本原因。”

蘇教授的研究領(lǐng)域覆蓋了智能機(jī)器人理論與技術(shù)、多傳感器信息與智能融合、機(jī)器學(xué)習(xí)與人機(jī)交互等科學(xué)研究持續(xù)的熱點(diǎn)領(lǐng)域。在這些領(lǐng)域中,手語作為人類交流的基本方式,始終是蘇教授想賦予機(jī)器人的技能之一,并成為他將理論知識與實(shí)踐應(yīng)用相結(jié)合的重要體現(xiàn)。

為何要格外關(guān)注手語?蘇教授指出,“手語不僅是聾/啞人群體溝通的重要工具,也是人類信息表達(dá)的一種常見和高效的方式?!彼麖?qiáng)調(diào),手語的國際性和多樣性是研究的核心,因?yàn)椴煌貐^(qū)和國家的手語存在明顯差異,甚至包含方言差異。

目前,蘇教授及其團(tuán)隊(duì)專注于手語識別和情緒識別兩大技術(shù)領(lǐng)域,他們通過視頻捕捉和分析,深入探討靜態(tài)與動(dòng)態(tài)手語的表達(dá)方式及其在不同情境下的變化。終極目標(biāo)是開發(fā)出能夠精準(zhǔn)解讀聾啞人手語/手勢及正常人的手勢,并將其轉(zhuǎn)化為文字或語言系統(tǒng)。這一技術(shù)不僅能夠促進(jìn)與正常人的溝通,也蘊(yùn)含著巨大的商業(yè)潛力。

與此同時(shí),蘇教授坦言,手語語料庫的匱乏是當(dāng)前研究面臨的一大挑戰(zhàn)。因此,他們的研究主要集中在國內(nèi)聾啞人使用的標(biāo)準(zhǔn)化手語上,而方言手語的研究是第二階段的目標(biāo)。

蘇教授的學(xué)術(shù)追求不止于理論研究,近年來,他積極將科研成果轉(zhuǎn)化為實(shí)際應(yīng)用。

2016年,他依托上海交通大學(xué)智能機(jī)器人系統(tǒng)與技術(shù)研究中心,創(chuàng)立了上海靈至科技有限公司,該公司專注于提供人工智能技術(shù)解決方案,開發(fā)智能機(jī)器人、智慧家居、車載自動(dòng)駕駛軟件等產(chǎn)品。2019年,靈至科技的核心團(tuán)隊(duì)又聯(lián)合成立了上海追求人工智能科技有限公司,進(jìn)一步深化拓展已開發(fā)的人機(jī)交互技術(shù)和產(chǎn)品,為全球殘障人士提供專門化的人工智能解決方案。

談及手語識別產(chǎn)品方面的規(guī)劃,蘇教授表示,目前產(chǎn)品已在特定場景如銀行、醫(yī)院和政府部門中得到了初步的應(yīng)用,正需擴(kuò)展更多的應(yīng)用場景。

近期在與雷峰網(wǎng)-AI科技評論的對話中,蘇劍波教授從計(jì)算機(jī)視覺角度梳理了手語研究中的關(guān)鍵問題,也分享了對手語識別領(lǐng)域眾團(tuán)隊(duì)的發(fā)展建議。

3月18日(周一)20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應(yīng)用前景」的線上圓桌論壇,屆時(shí)蘇教授將分享更多前沿觀察。

以下為對話(經(jīng)編輯):

手語也有“方言”之分,系統(tǒng)“通用性”難保證

雷峰網(wǎng):蘇教授,您是自動(dòng)化出身,怎么看待手語這個(gè)細(xì)分研究方向和應(yīng)用價(jià)值?

蘇劍波:我開始手語研究最初是出于關(guān)注正常人使用手勢來表達(dá)情緒的嘗試,隨后擴(kuò)展到聾啞人群體的溝通需求。

手語的特點(diǎn)是具有國際性和多樣性,不同地區(qū)和國家的手語存在差異,甚至還有方言之分。但從本質(zhì)上看,手語是人類信息表達(dá)的一種方式,因此理解和研究手語的多樣性和標(biāo)準(zhǔn)化問題至關(guān)重要。此外,手勢識別與手語識別有很大區(qū)別。

讓機(jī)器理解聾啞人的手勢,并將這些手勢轉(zhuǎn)換成文字或語言,以便讓正常人理解。反之亦然,當(dāng)正常人說話時(shí),機(jī)器也能轉(zhuǎn)換成手語將信息傳達(dá)給聾啞人,實(shí)現(xiàn)雙方的溝通。

這項(xiàng)工作自2016年開始,但實(shí)際上,相關(guān)的研究工作要更早。大約是在2010年左右,開始涉及機(jī)器人識別人類手勢并理解人類情緒的研究。

雷峰網(wǎng):能再詳細(xì)解釋一下在手語識別這項(xiàng)技術(shù)嗎,也就是CV技術(shù)如何參與到手語研究中?

蘇劍波:我們主要專注于兩大類技術(shù):手語識別和情緒識別。這些技術(shù)基本上都是基于視頻的。計(jì)算機(jī)或機(jī)器人通過攝像機(jī)捕捉人的手勢/手語視頻,再分析視頻中的手勢/手語的含義。

舉個(gè)例子,手語分為靜態(tài)手語和動(dòng)態(tài)手語,還涉及到方言和國際化的問題。手指伸/縮或手掌張/閉狀態(tài)屬于靜態(tài)手語,而表達(dá)“不行”或“過來”等手指和/或手臂的動(dòng)作則屬于動(dòng)態(tài)手語。我們從視頻采集出發(fā),研究靜態(tài)和動(dòng)態(tài)手語的表達(dá)方式,以及它們在不同情境下的表達(dá)差異。

我們目前主要針對國內(nèi)聾啞人使用的標(biāo)準(zhǔn)化手語進(jìn)行研究,并未涉及太多方言,主要是受限于語料庫的不足及語料采集的差異化。

雷峰網(wǎng):國內(nèi)正在推廣中國通用手語,會使得以后的手語識別研究難度變小嗎?

蘇劍波:中國通用手語在實(shí)際推廣和執(zhí)行過程中還會遇到一些挑戰(zhàn)的。

這是因?yàn)槊@啞人群體也存在地域性差異,他們可能并不熟悉通用手語。這與許多偏遠(yuǎn)地區(qū)的人們聽不懂普通話的情況類似,他們可能將普通話視為另一種方言。

手語同樣如此,同一個(gè)手勢在不同地區(qū)可能表達(dá)不同的意義,使得制定統(tǒng)一標(biāo)準(zhǔn)變得復(fù)雜。

國家已經(jīng)嘗試過多次推廣通用手語,但效果并不顯著。如果某個(gè)地方的聾啞人不遵循這些規(guī)則,或者他們已經(jīng)有了自己約定俗成的手語交流方式,我們又能如何呢?我們不能指責(zé)他們的交流方式不正確。

這樣來看,推廣標(biāo)準(zhǔn)化手語的難度可能比推廣普通話要大得多。

但即便如此,我們的最終夢想還是能在開發(fā)出一個(gè)能夠識別標(biāo)準(zhǔn)化手語的系統(tǒng)的基礎(chǔ)上,充分利用機(jī)器智能生成和進(jìn)化的自學(xué)習(xí)特點(diǎn),完成識別具有地區(qū)和個(gè)人特色的手語識別系統(tǒng),特別是那些與政府部門交流時(shí)常用的手語。

我們希望能夠?yàn)槊@啞人提供個(gè)性化的實(shí)時(shí)翻譯,比如在政府辦事窗口,通過計(jì)算機(jī)系統(tǒng)將他們的手語翻譯成文字,同時(shí)也為聾啞學(xué)校的老師提供培訓(xùn)。

目前,我們的目標(biāo)是實(shí)現(xiàn)對日常使用的大約2000個(gè)手語詞匯的識別,其中最常用的大約500個(gè)詞匯,我們的識別準(zhǔn)確率可以達(dá)到90%以上。對于這500個(gè)詞匯以外的不太常用的詞匯,識別率會因采集的角度、光照、背景等有所下降,可能需要多次手勢才能提高識別的準(zhǔn)確率。

雷峰網(wǎng):數(shù)據(jù)是打造手語識別系統(tǒng)的第一步,這個(gè)過程中,您親身經(jīng)歷過哪些困難?

蘇劍波:確實(shí),數(shù)據(jù)的缺乏是一個(gè)主要問題。因?yàn)槌艘珳?zhǔn)捕捉聾啞人手語動(dòng)作,還要考慮到肖像權(quán)和隱私權(quán)的問題,這無疑增加了研究的復(fù)雜性。

其次,與聾啞人合作拍攝視頻時(shí)可能會遇到問題,比如他們可能會感到不適或生氣。有時(shí)候,即使我們有最好的意圖,也可能難以解釋清楚我們的研究目的,這可能導(dǎo)致一些誤解和沖突。

但無論如何,這項(xiàng)工作必須繼續(xù)進(jìn)行,因?yàn)槲覀兊哪繕?biāo)是通過人工智能和技術(shù)賦能,打破人與人之間交流的障礙,特別是幫助殘疾人與政府部門等機(jī)構(gòu)進(jìn)行有效溝通,幫助他們的意愿能最準(zhǔn)確地為他人所知和理解。

手語識別專用的算法與模型尚未出現(xiàn)

雷峰網(wǎng):目前手語識別領(lǐng)域的算法和模型,是借鑒了許多其他領(lǐng)域的成果,還是專門針對手語研究開發(fā)的?

蘇劍波:在算法創(chuàng)新方面,我們確實(shí)借鑒了許多其他領(lǐng)域的成果。

例如,我們使用的卷積神經(jīng)網(wǎng)絡(luò)等工具,和特征完備化等基礎(chǔ)算法,包括隱馬爾可夫模型等,都是在語音識別和人臉識別等領(lǐng)域已經(jīng)嘗試并證明有效的技術(shù)。

到目前為止,我還沒有發(fā)現(xiàn)有專門針對手語識別領(lǐng)域的技術(shù),我們目前使用的都是通用的模式識別工具。所以說,手語識別領(lǐng)域的研究進(jìn)展相對于其他更活躍的模式識別領(lǐng)域,還有一定的差距。

我們的工作主要集中在尋找能夠準(zhǔn)確代表和區(qū)分不同手型或手勢的更魯棒的特征。這是模式識別領(lǐng)域的通用目標(biāo),無論是人臉識別還是語音識別,都需要找到能夠精確描述特定含義的特征集合。

然而,手語識別面臨的挑戰(zhàn)在于,手勢的含義可能會因?yàn)楣庹?、角度、速度等各種因素的影響而發(fā)生變化,存在多種干擾。我們的工作關(guān)鍵在于能夠針對濾除這些不同的干擾因素,找到最能準(zhǔn)確代表特定手勢的魯棒穩(wěn)定的特征。

雷峰網(wǎng):ChatGPT、Sora等大型語言模型在自然語言處理(NLP)領(lǐng)域取得了顯著成就。這些模型背后的設(shè)計(jì)理念和技術(shù)路徑,對手語識別研究有何啟示?

蘇劍波:確實(shí),這些模型的設(shè)計(jì)理念和技術(shù)路徑對我們的研究是有啟發(fā)的,但遺憾的是,這些模型的具體實(shí)現(xiàn)細(xì)節(jié)往往不公開。

這在AI領(lǐng)域并不罕見,許多團(tuán)隊(duì)在開發(fā)先進(jìn)技術(shù)時(shí),出于商業(yè)競爭的考慮,會選擇保留關(guān)鍵信息。

例如,機(jī)器人領(lǐng)域的波士頓動(dòng)力公司,他們的機(jī)器人技術(shù)和各種機(jī)器人原型系統(tǒng)發(fā)展迅速,但他們很少在國際會議或?qū)W術(shù)刊物上公開具體的、真實(shí)的研究技術(shù)路線。我們只能從他們的產(chǎn)品表現(xiàn)來推測可能的技術(shù)實(shí)現(xiàn)方式。

國內(nèi)在手語識別領(lǐng)域相對于國外確實(shí)存在一定的差距。例如,聾啞學(xué)校非常希望引入這些技術(shù),但由于疫情等因素的影響,相關(guān)項(xiàng)目曾被迫暫停,這個(gè)過程相當(dāng)曲折。

此外,技術(shù)進(jìn)步可能會對某些職業(yè)造成沖擊,這可能導(dǎo)致一些行業(yè)從業(yè)者對人工智能技術(shù)的接受度不高。盡管他們認(rèn)識到人工智能的潛力,但從生存的角度出發(fā),他們可能并不希望人工智能取代他們的工作。這種心態(tài)在實(shí)際合作中可能會成為障礙。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):我們觀察到,在國內(nèi)外的大型賽事如亞運(yùn)會、殘運(yùn)會期間,許多公司推出了他們自己的手語數(shù)字人。其中一些公司所使用的手語數(shù)據(jù)由一兩家公司自行采集后出售的,導(dǎo)致不同公司開發(fā)的數(shù)字人產(chǎn)品同質(zhì)化,缺乏突破,而且有聾啞人反饋無法看懂這些數(shù)字人打出的手語。您怎么看這個(gè)現(xiàn)象?

蘇劍波:這個(gè)問題非常關(guān)鍵。如果一個(gè)旨在為聾啞人服務(wù)的產(chǎn)品,連目標(biāo)用戶群體都無法理解,那么它的服務(wù)價(jià)值就大打折扣了。目前我們?nèi)狈σ粋€(gè)國家權(quán)威機(jī)構(gòu)來鑒定這些成果的有效性,或者提供服務(wù)的權(quán)威性認(rèn)證。至于服務(wù)的實(shí)際效果,很少人去深究聾人同胞的滿意度。

雷峰網(wǎng):最后想請問您,因?yàn)槟谏辖挥凶约旱恼n題團(tuán)隊(duì),還孵化了兩家公司(母公司“靈至科技”、以及專門打造手語產(chǎn)品的“上海追求”),那么您今年在手語識別方面有什么規(guī)劃?

蘇劍波:我和團(tuán)隊(duì)的重點(diǎn)是提高機(jī)器識別手語的準(zhǔn)確率,并盡可能擴(kuò)大語料庫和應(yīng)用場景。

從學(xué)術(shù)角度出發(fā),機(jī)器對手語的識別,不過是手語特征被機(jī)器表達(dá)和計(jì)算的準(zhǔn)確度和效率。我們鼓勵(lì)博士生和碩士生進(jìn)行創(chuàng)新研究,尋找能夠更精準(zhǔn)、有效、快速地表達(dá)手語蘊(yùn)含的主體人意圖的可計(jì)算的、完備且正交的手勢特征集合。我們希望我們的工作不僅能在國內(nèi)產(chǎn)生影響,也能為國際同行提供借鑒,幫助他們在自己的領(lǐng)域或語言體系中應(yīng)用我們的研究成果。

我們的目標(biāo)是建立行業(yè)內(nèi)公認(rèn)的標(biāo)準(zhǔn),這是我們努力的方向。

目前國內(nèi)從事手語識別的團(tuán)隊(duì)正在增多,在這一發(fā)展勢頭下,我們需要提前確立統(tǒng)一的測試場景,來驗(yàn)證手語識別系統(tǒng)的實(shí)用效果,否則很難真正認(rèn)可其研究價(jià)值。此外,還要考慮到聾人群體的實(shí)際需求和接受程度,保證這些研究的應(yīng)用價(jià)值。

從公司角度來說,我們希望能夠?qū)⑽覀兊募夹g(shù)應(yīng)用到實(shí)際產(chǎn)品中,進(jìn)行測試和驗(yàn)證。目前我們產(chǎn)品的應(yīng)用程度有限,在銀行、醫(yī)院和政府部門等特定場景下,我們的產(chǎn)品可以發(fā)揮作用。我們希望未來能夠達(dá)到一個(gè)更廣泛的應(yīng)用水平,但目前還很難說能做到什么程度,我們只能繼續(xù)努力。

至于產(chǎn)品的應(yīng)用區(qū)域,由于我們在上海,所以語料和數(shù)據(jù)標(biāo)注可能更傾向于江浙滬一帶的方言。這可能導(dǎo)致我們的產(chǎn)品在這些地區(qū)的醫(yī)院等場景中應(yīng)用得更多。我們希望未來能夠擴(kuò)大應(yīng)用范圍,更好地服務(wù)于更廣泛的聾人同胞。

同時(shí),我們也熱切期待有更多資本能理解手語識別目前從公益性向市場化發(fā)展的初級階段屬性,而義無反顧地介入,以加速手語研究和產(chǎn)品開發(fā)的進(jìn)程,為具有中國特色的人工智能產(chǎn)業(yè)的發(fā)展注入新的活力。

本文作者吳彤,歡迎添加微信(icedaguniang),交流認(rèn)知,互通有無。


|GAIR live 圓桌預(yù)告

3月18日,北京時(shí)間20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應(yīng)用前景」的線上圓桌論壇。

本次論壇嘉賓有,美國紐約城市大學(xué)田英利教授、上海交通大學(xué)自動(dòng)化系蘇劍波教授、上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院方昱春教授、上海大學(xué)文學(xué)院倪蘭教授,共同分享他們的見解和研究成果。

“全球人工智能與機(jī)器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計(jì)算機(jī)學(xué)會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。

經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。

對話上交蘇劍波教授:直面手語的「方言」多樣性與系統(tǒng)「通用性」挑戰(zhàn)|GAIR live

|手語相關(guān)資料

1,《專訪紐約城市大學(xué)田英利教授:用多通道、多模態(tài)的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

2,《Multi-Modal Multi-Channel American Sign Language Recognition https://gairdao.com/doi/10.1142/S2972335324500017


|IJAIRR正在邀約論文和專題

《國際人工智能與機(jī)器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學(xué)術(shù)期刊。

作為全球首本專注于人工智能(AI)、機(jī)器人技術(shù)(Robotics)以及基礎(chǔ)科學(xué)交叉研究(Research)的期刊,IJAIRR致力于成為AI與機(jī)器人領(lǐng)域研究的權(quán)威發(fā)布平臺。

IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。

我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個(gè)更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。

(1)“如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。

(2)如果您領(lǐng)導(dǎo)的團(tuán)隊(duì)在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個(gè)專題(Special Issue),我們誠摯邀請您深入討論合作事宜。

(3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個(gè)專題(Special Issue),我們也期待與您具體商討合作細(xì)節(jié)。


IJAIRR期待與您攜手,共同推動(dòng)人工智能與機(jī)器人研究的發(fā)展。

聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg

關(guān)于期刊創(chuàng)刊主編等更多信息,可點(diǎn)擊

https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細(xì)介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

對話上交蘇劍波教授:直面手語的「方言」多樣性與系統(tǒng)「通用性」挑戰(zhàn)|GAIR live

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說