谷歌新研究：讓失語者在視頻會議中用手語自然交流！

本文作者：楊麗

2020-10-04 17:48

導語：用于視頻會議的實時自動手語檢測系統(tǒng)

雷鋒網按：視頻會議對所有人開放，那也應該包括使用手語進行交流的用戶，但由于大多數視頻會議系統(tǒng)會自動跟蹤講話人提示窗口，對于手語交流者而言，他們卻很難輕松有效地進行溝通。

因此，在視頻會議中采用實時手語檢測的場景變得十分有挑戰(zhàn)性，系統(tǒng)需要使用大量視頻反饋作為輸入進行分類，這使得任務計算變得十分繁重。某種程度上，這些挑戰(zhàn)的存在也導致有關手語檢測的研究很少。

近日在ECCV 2020和SLRTP 2020全球頂會上，谷歌的研究團隊提出了一個實時手語檢測模型，并詳述了該模型將如何用于視頻會議系統(tǒng)中識別“發(fā)言人”的過程。

谷歌新研究：讓失語者在視頻會議中用手語自然交流！

1、設計思路

為了主動適配主流視頻會議系統(tǒng)所提供的會議解決方案，研究團隊采取了一種輕量型、即插即用的模型。該模型占用CPU小，以最大程度降低對客戶端通話質量的影響。為了減少輸入的維度，采用從視頻中分離所需信息，對每個幀進行分類。

“由于手語涉及用戶的身體和手兩部分，我們先運行了人體姿態(tài)估計模型PoseNet，這樣可將輸入從整個高清圖像大幅分減到用戶身體上的一小部分，如眼睛、鼻子、肩膀、手等關鍵特征點（landmarks)。然后，我們再將這些關鍵特征點用于計算每一幀光流(Optical Flow)，從而在不保留用戶特定信息的前提下就能量化用戶的姿態(tài)特征。每個姿態(tài)都通過人肩膀寬度進行歸一化，以確保模型在距離攝像頭一定距離內注意到用戶的手勢。最后，將光流通過視頻的幀速率進行歸一化，再傳遞給該模型?！?/p>

為了測試這種方法的有效性，研究團隊采用了德語手語語料庫（DGS），該語料庫包含人體手勢的長視頻（含跨度注釋）?；谟柧毢玫木€性回歸模型基線，使用光流數預測人體手勢何時發(fā)出。該模型基線可達到80%的準確度，每一幀僅需要約3μs（0.000003秒）的處理時間即可完成。通過將前50個幀的光流作為該模型的上下文，最終達到83.4%的準確度。

團隊使用了長短期記憶網絡（LSTM）架構，該模型可實現(xiàn)的91.5%的準確度，每一幀的處理時間約為3.5毫秒（0.0035秒）。

谷歌新研究：讓失語者在視頻會議中用手語自然交流！

2、概念驗證

在實際的場景中，有了運行完備的手語檢測模型僅是第一步，團隊還需要設計一種方法來出發(fā)視頻會議系統(tǒng)的主動式揚聲器功能。團隊開發(fā)了一款輕量級的在線手語檢測演示demo，可以連接到任何視頻會議系統(tǒng)上，并將手語交流者設置為“發(fā)言人”。

當手勢檢測模型確定用戶正在進行手語交流時，它會通過虛擬音頻電纜傳遞超聲音頻，任何視頻會議系統(tǒng)都可檢測到該音頻，就好像手語交流者正在“講話”一樣。音頻以20kHz傳輸，通常在人類聽覺范圍之外。因為視頻會議系統(tǒng)通常將音頻的音量作為檢測是否正在講話的標準，而不是檢測語音，所以應用程序會誤以為手語交流者正在講話。

谷歌新研究：讓失語者在視頻會議中用手語自然交流！

目前這款模型的在線視頻演示源代碼已經公布在GitHub上。

GitHub傳送門：https://github.com/AmitMY/sign-language-detector

3、演示過程

在視頻中，研究團隊演示了如何使用該模型。視頻中的黃色圖表反映了模型在檢測到手語交流時的確認值。當用戶使用手語時，圖表值將增加到接近100，當用戶停止使用手語時，圖表值將降低至0。

谷歌新研究：讓失語者在視頻會議中用手語自然交流！

為了進一步驗證該模型效果，團隊還進行了一項用戶體驗反饋調查。調研要求參與者在視頻會議期間使用該模型，并像往常一樣進行手語交流。他們還被要求互相使用手語，以檢測對說話人的切換功能。反饋結果是，該模型檢測到了手語，將其識別為可聽見的語音，并成功識別了手勢參與人。

雷鋒網總結

從目前來看，此次嘗試的出發(fā)點及過程中采用的一系列方法的可操作性均本著場景落地為出發(fā)點，盡管從實際應用中可能還會出現(xiàn)更多意想不到的海量用戶需求，如不同國家地區(qū)的手語存在巨大差異等問題，如何將這些能力抽象出來滿足更多的人群，將是接下來對這項工作能在商業(yè)環(huán)境中真正落地需要積極思考的方向。

參考鏈接：https://ai.googleblog.com/2020/10/developing-real-time-automatic-sign.html

雷鋒網編譯

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

楊麗

高級主筆

關注企業(yè)軟件、操作系統(tǒng)、云原生（PaaS）、數據中臺 | 微信：leeyangamber

發(fā)私信

當月熱門文章