0
本文作者: 郭仁賢 | 2019-05-20 20:52 |
雷鋒網(wǎng)按:據(jù)2019年3月份世界衛(wèi)生組織公布的最新數(shù)據(jù),超過(guò)全世界人口的5%(約4.66億人)患有殘疾性聽(tīng)力障礙。據(jù)估計(jì),到2050年這一數(shù)據(jù)將達(dá)到9億。與此同時(shí),手語(yǔ)作為聽(tīng)障者使用較多的語(yǔ)言,能正確理解手語(yǔ)的健全人士卻寥寥無(wú)幾。
5月16日,騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合深圳市信息無(wú)障礙研究會(huì)發(fā)布“優(yōu)圖AI手語(yǔ)翻譯機(jī)”。據(jù)官方資料顯示,用戶通過(guò)面對(duì)翻譯機(jī)攝像頭進(jìn)行手語(yǔ)表達(dá),翻譯機(jī)屏幕界面便能快速把手語(yǔ)轉(zhuǎn)換為文字。
據(jù)公開(kāi)資料顯示,騰訊優(yōu)圖實(shí)驗(yàn)室創(chuàng)立于2012年,是騰訊三大人工智能實(shí)驗(yàn)室之一。去年,騰訊優(yōu)圖實(shí)驗(yàn)室已升級(jí)為騰訊計(jì)算機(jī)視覺(jué)研發(fā)中心。此外,更與國(guó)際期刊《科學(xué)》達(dá)成戰(zhàn)略合作,共享在計(jì)算機(jī)視覺(jué)領(lǐng)域的資源和信息。
任何技術(shù)的發(fā)展都不是一蹴而就的,尤其是近些年來(lái),優(yōu)圖AI手語(yǔ)翻譯機(jī)也并不是第一款針對(duì)手語(yǔ)應(yīng)用的的產(chǎn)品,在此之前,手語(yǔ)識(shí)別技術(shù)已經(jīng)發(fā)展多年,包括國(guó)內(nèi)IT企業(yè)級(jí)科研院校都曾針對(duì)這一技術(shù)進(jìn)行研究,并有此類成果和產(chǎn)品推出:
2013年7月,微軟團(tuán)隊(duì)和中國(guó)科學(xué)院計(jì)算技術(shù)研究所進(jìn)行合作,通過(guò)Kinect For Windows創(chuàng)建手語(yǔ)識(shí)別軟件,可根據(jù)手語(yǔ)動(dòng)作的追蹤識(shí)別轉(zhuǎn)換成正常人能夠讀懂的內(nèi)容;
2018年2月,中科大發(fā)布了一篇手語(yǔ)識(shí)別的論文被人工智能頂級(jí)學(xué)術(shù)會(huì)議AAAI 2018收錄;該論文提出一種新型連續(xù)手語(yǔ)識(shí)別框架 LS-HAN,無(wú)需時(shí)間分割;
2018年3月,Magic Leap的頭戴式設(shè)備識(shí)別手語(yǔ)和文本“感官眼鏡”,據(jù)3月新專利申請(qǐng),相關(guān)信息概述了使用頭戴式設(shè)備檢測(cè)和翻譯手語(yǔ)的方法,并介紹了如何識(shí)別標(biāo)牌和店面上的文字;
2018年7月,軟件開(kāi)發(fā)者 Abhishek Singh演示了一款能夠理解手語(yǔ)手勢(shì)的 MOD,通過(guò)攝像頭的捕捉和深度學(xué)習(xí),讓亞馬遜 Alexa 對(duì)手語(yǔ)手勢(shì)作出反饋;
2018年12月,愛(ài)奇藝研發(fā)的AI手語(yǔ)主播在中國(guó)網(wǎng)絡(luò)視聽(tīng)大會(huì)上首次亮相,可識(shí)別用戶語(yǔ)音并轉(zhuǎn)換為文字,還能對(duì)健聽(tīng)人自然語(yǔ)言進(jìn)行理解,并智能翻譯為手語(yǔ)表達(dá)。
手語(yǔ)識(shí)別技術(shù)的困境與突破
傳統(tǒng)的手語(yǔ)識(shí)別方法通常會(huì)針對(duì)特定的數(shù)據(jù)集設(shè)計(jì)合理的特征,再利用這些特征進(jìn)行動(dòng)作和手勢(shì)的分類。受限于人工的特征設(shè)計(jì)和數(shù)據(jù)量大小,這些方法在適應(yīng)性、泛化性和魯棒性上都非常有限。
近年來(lái),得益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)不斷的進(jìn)步,人工智能算法的發(fā)展也水漲船高,尤其在計(jì)算機(jī)視覺(jué)、音頻處理和自然語(yǔ)言處理等方面,這助推了AI算法在許多應(yīng)用和場(chǎng)景中實(shí)現(xiàn)落地,研究人員開(kāi)始嘗試應(yīng)用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的算法來(lái)解決手語(yǔ)識(shí)別中的難題。
然而,不同于大部分的計(jì)算機(jī)問(wèn)題,手語(yǔ)特有的地域性、復(fù)雜性和多樣性給AI算法帶來(lái)了難度。不僅增加了數(shù)據(jù)采集和清洗的成本,也使得這門技術(shù)的落地存在很大的挑戰(zhàn),難以被實(shí)際應(yīng)用。
目前,針對(duì)解決聽(tīng)障人群溝通問(wèn)題的研究,其研究方向多集中在將文字轉(zhuǎn)化成手語(yǔ);反過(guò)來(lái),將聽(tīng)障人群的手語(yǔ)轉(zhuǎn)化成文字就比較難了。
據(jù)公開(kāi)資料顯示,雷鋒網(wǎng)了解到騰訊優(yōu)圖實(shí)驗(yàn)室手語(yǔ)識(shí)別數(shù)據(jù)集覆蓋了近千句日常表達(dá),900個(gè)常用詞匯。此外,優(yōu)圖AI手語(yǔ)翻譯機(jī)能夠?qū)崿F(xiàn)整句的識(shí)別和翻譯,用戶表達(dá)的時(shí)候可以將整個(gè)句子連貫表達(dá)完畢,不需要設(shè)定特定的結(jié)束或起始動(dòng)作,也無(wú)需在句中故意停頓或放慢速度。
據(jù)官方資料顯示,優(yōu)圖AI手語(yǔ)翻譯機(jī)核心技術(shù)是與聽(tīng)障者手語(yǔ)表達(dá)高度符合的數(shù)據(jù)集與手語(yǔ)識(shí)別算法。
針對(duì)AI手語(yǔ)翻譯機(jī)的手語(yǔ)識(shí)別數(shù)據(jù)集、特征提取器等關(guān)鍵技術(shù)能力,雷鋒網(wǎng)根據(jù)官方資料整理如下:
手語(yǔ)識(shí)別數(shù)據(jù)集
目前,AI手語(yǔ)翻譯機(jī)的數(shù)據(jù)集覆蓋近千句日常表達(dá),900個(gè)常用詞匯。此外,采集數(shù)據(jù)集還考慮了手語(yǔ)表達(dá)的地域性和多樣性,包含了不同的表達(dá)習(xí)慣和速度。
特征提取器
結(jié)合普通2D卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)的優(yōu)勢(shì),通過(guò)2D卷積網(wǎng)絡(luò)來(lái)提取手語(yǔ)中的手勢(shì)和身體姿勢(shì)等靜態(tài)信息,同時(shí)通過(guò)3D卷積網(wǎng)絡(luò)來(lái)提取手語(yǔ)中普遍存在的細(xì)微而快速的變換動(dòng)作的動(dòng)態(tài)信息,最后將這兩個(gè)信息相結(jié)合,產(chǎn)生最后的特征表達(dá)。
通過(guò)結(jié)合應(yīng)用視頻中的動(dòng)態(tài)、靜態(tài)信息,從而實(shí)現(xiàn)利用單純的RGB視頻圖像進(jìn)行手語(yǔ)識(shí)別。
句子表達(dá)中挖掘詞級(jí)信息
該算法在視頻幀與最后的輸出之間加入了詞級(jí)信息提取單元,詞級(jí)信息提取單元利用長(zhǎng)短時(shí)網(wǎng)絡(luò)充分考慮特征提取器所提取出的信息,并結(jié)合視頻中相鄰的信息計(jì)算出詞級(jí)的特征表達(dá)。這個(gè)單元使得算法能夠更好地在句子中找到詞語(yǔ)表達(dá)的邊界,并提升對(duì)各種地域性表達(dá)的總結(jié)能力。
單句切分并充分考慮句中上下文信息
算法在提取詞級(jí)信息的基礎(chǔ)上還會(huì)充分將整句中的上下文信息進(jìn)行綜合考慮,然后再輸出最后的識(shí)別結(jié)果。同時(shí),為了減少用戶在使用過(guò)程中的限制,技術(shù)團(tuán)隊(duì)在手語(yǔ)識(shí)別之前加入人臉檢測(cè)和動(dòng)作檢測(cè)兩個(gè)模塊,用人臉檢測(cè)確定手語(yǔ)表達(dá)者的位置,然后用動(dòng)作檢測(cè)判斷用戶是否在進(jìn)行手語(yǔ)表達(dá)。
目前來(lái)看,雖然AI手語(yǔ)識(shí)別技術(shù)受限于計(jì)算機(jī)性能、語(yǔ)料庫(kù)豐富程度等因素的影響,但是隨著人工智能和圖像識(shí)別技術(shù)不斷受到關(guān)注,目前包括曠世、商湯等國(guó)內(nèi)獨(dú)角獸企業(yè),以及國(guó)內(nèi)的BAT、國(guó)外的谷歌、微軟、亞馬遜,無(wú)不針對(duì)這一技術(shù)砸重金立項(xiàng)研究。
在智能語(yǔ)音技術(shù)帶來(lái)了智能音箱后,AI視覺(jué)技術(shù)是否能帶來(lái)類似的爆款硬件產(chǎn)品,此前大家更多關(guān)注的是受眾人群更大的智能攝像機(jī),騰訊優(yōu)圖此次發(fā)布的“優(yōu)圖AI手語(yǔ)翻譯機(jī)”雖然難免有些“劍走偏鋒”,卻也不失為是一種更為場(chǎng)景化的應(yīng)用和嘗試。至于是否能為特殊人群帶來(lái)真實(shí)便利,還有待真實(shí)應(yīng)用場(chǎng)景中的用戶反饋數(shù)據(jù)來(lái)呈現(xiàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。