丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊麗
發(fā)送

1

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

本文作者: 楊麗 2020-10-04 17:48
導(dǎo)語(yǔ):用于視頻會(huì)議的實(shí)時(shí)自動(dòng)手語(yǔ)檢測(cè)系統(tǒng)

雷鋒網(wǎng)按:視頻會(huì)議對(duì)所有人開放,那也應(yīng)該包括使用手語(yǔ)進(jìn)行交流的用戶,但由于大多數(shù)視頻會(huì)議系統(tǒng)會(huì)自動(dòng)跟蹤講話人提示窗口,對(duì)于手語(yǔ)交流者而言,他們卻很難輕松有效地進(jìn)行溝通。

因此,在視頻會(huì)議中采用實(shí)時(shí)手語(yǔ)檢測(cè)的場(chǎng)景變得十分有挑戰(zhàn)性,系統(tǒng)需要使用大量視頻反饋?zhàn)鳛檩斎脒M(jìn)行分類,這使得任務(wù)計(jì)算變得十分繁重。某種程度上,這些挑戰(zhàn)的存在也導(dǎo)致有關(guān)手語(yǔ)檢測(cè)的研究很少。

近日在ECCV 2020和SLRTP 2020全球頂會(huì)上,谷歌的研究團(tuán)隊(duì)提出了一個(gè)實(shí)時(shí)手語(yǔ)檢測(cè)模型,并詳述了該模型將如何用于視頻會(huì)議系統(tǒng)中識(shí)別“發(fā)言人”的過(guò)程。

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

1、設(shè)計(jì)思路

為了主動(dòng)適配主流視頻會(huì)議系統(tǒng)所提供的會(huì)議解決方案,研究團(tuán)隊(duì)采取了一種輕量型、即插即用的模型。該模型占用CPU小,以最大程度降低對(duì)客戶端通話質(zhì)量的影響。為了減少輸入的維度,采用從視頻中分離所需信息,對(duì)每個(gè)幀進(jìn)行分類。

“由于手語(yǔ)涉及用戶的身體和手兩部分,我們先運(yùn)行了人體姿態(tài)估計(jì)模型PoseNet,這樣可將輸入從整個(gè)高清圖像大幅分減到用戶身體上的一小部分,如眼睛、鼻子、肩膀、手等關(guān)鍵特征點(diǎn)(landmarks)。然后,我們?cè)賹⑦@些關(guān)鍵特征點(diǎn)用于計(jì)算每一幀光流(Optical Flow),從而在不保留用戶特定信息的前提下就能量化用戶的姿態(tài)特征。每個(gè)姿態(tài)都通過(guò)人肩膀?qū)挾冗M(jìn)行歸一化,以確保模型在距離攝像頭一定距離內(nèi)注意到用戶的手勢(shì)。最后,將光流通過(guò)視頻的幀速率進(jìn)行歸一化,再傳遞給該模型?!?/p>

為了測(cè)試這種方法的有效性,研究團(tuán)隊(duì)采用了德語(yǔ)手語(yǔ)語(yǔ)料庫(kù)(DGS),該語(yǔ)料庫(kù)包含人體手勢(shì)的長(zhǎng)視頻(含跨度注釋)?;谟?xùn)練好的線性回歸模型基線,使用光流數(shù)預(yù)測(cè)人體手勢(shì)何時(shí)發(fā)出。該模型基線可達(dá)到80%的準(zhǔn)確度,每一幀僅需要約3μs(0.000003秒)的處理時(shí)間即可完成。通過(guò)將前50個(gè)幀的光流作為該模型的上下文,最終達(dá)到83.4%的準(zhǔn)確度。

團(tuán)隊(duì)使用了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)架構(gòu),該模型可實(shí)現(xiàn)的91.5%的準(zhǔn)確度,每一幀的處理時(shí)間約為3.5毫秒(0.0035秒)。

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

2、概念驗(yàn)證

在實(shí)際的場(chǎng)景中,有了運(yùn)行完備的手語(yǔ)檢測(cè)模型僅是第一步,團(tuán)隊(duì)還需要設(shè)計(jì)一種方法來(lái)出發(fā)視頻會(huì)議系統(tǒng)的主動(dòng)式揚(yáng)聲器功能。團(tuán)隊(duì)開發(fā)了一款輕量級(jí)的在線手語(yǔ)檢測(cè)演示demo,可以連接到任何視頻會(huì)議系統(tǒng)上,并將手語(yǔ)交流者設(shè)置為“發(fā)言人”。

當(dāng)手勢(shì)檢測(cè)模型確定用戶正在進(jìn)行手語(yǔ)交流時(shí),它會(huì)通過(guò)虛擬音頻電纜傳遞超聲音頻,任何視頻會(huì)議系統(tǒng)都可檢測(cè)到該音頻,就好像手語(yǔ)交流者正在“講話”一樣。音頻以20kHz傳輸,通常在人類聽覺范圍之外。因?yàn)橐曨l會(huì)議系統(tǒng)通常將音頻的音量作為檢測(cè)是否正在講話的標(biāo)準(zhǔn),而不是檢測(cè)語(yǔ)音,所以應(yīng)用程序會(huì)誤以為手語(yǔ)交流者正在講話。

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

目前這款模型的在線視頻演示源代碼已經(jīng)公布在GitHub上。

GitHub傳送門:https://github.com/AmitMY/sign-language-detector

3、演示過(guò)程

在視頻中,研究團(tuán)隊(duì)演示了如何使用該模型。視頻中的黃色圖表反映了模型在檢測(cè)到手語(yǔ)交流時(shí)的確認(rèn)值。當(dāng)用戶使用手語(yǔ)時(shí),圖表值將增加到接近100,當(dāng)用戶停止使用手語(yǔ)時(shí),圖表值將降低至0。

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

為了進(jìn)一步驗(yàn)證該模型效果,團(tuán)隊(duì)還進(jìn)行了一項(xiàng)用戶體驗(yàn)反饋調(diào)查。調(diào)研要求參與者在視頻會(huì)議期間使用該模型,并像往常一樣進(jìn)行手語(yǔ)交流。他們還被要求互相使用手語(yǔ),以檢測(cè)對(duì)說(shuō)話人的切換功能。反饋結(jié)果是,該模型檢測(cè)到了手語(yǔ),將其識(shí)別為可聽見的語(yǔ)音,并成功識(shí)別了手勢(shì)參與人。

雷鋒網(wǎng)總結(jié)

從目前來(lái)看,此次嘗試的出發(fā)點(diǎn)及過(guò)程中采用的一系列方法的可操作性均本著場(chǎng)景落地為出發(fā)點(diǎn),盡管從實(shí)際應(yīng)用中可能還會(huì)出現(xiàn)更多意想不到的海量用戶需求,如不同國(guó)家地區(qū)的手語(yǔ)存在巨大差異等問(wèn)題,如何將這些能力抽象出來(lái)滿足更多的人群,將是接下來(lái)對(duì)這項(xiàng)工作能在商業(yè)環(huán)境中真正落地需要積極思考的方向。

參考鏈接:https://ai.googleblog.com/2020/10/developing-real-time-automatic-sign.html

雷鋒網(wǎng)編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌新研究:讓失語(yǔ)者在視頻會(huì)議中用手語(yǔ)自然交流!

分享:
相關(guān)文章

高級(jí)主筆

關(guān)注企業(yè)軟件、操作系統(tǒng)、云原生(PaaS)、數(shù)據(jù)中臺(tái) | 微信:leeyangamber
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)