索尼「無聲語音識別」大法：脖頸貼合傳感器，AI 轉(zhuǎn)換皮膚震動信息

本文作者：付靜

2020-04-03 18:17

導(dǎo)語：利用 AI，將觸診唇讀法自動化。

如今，對于聽力有障礙的群體來說，聽不到的聲音，可以觸摸到了。

“觸摸”聽不到的語言，是由東京大學(xué)和索尼計算機科學(xué)研究所（CSL）共同研發(fā)的 AI 系統(tǒng)「Derma」實現(xiàn)的。有了 Derma 系統(tǒng)，只要在喉嚨周圍的皮膚上貼上傳感器，利用喉嚨和下顎的皮膚震動，就能將口形轉(zhuǎn)化為語音。

索尼「無聲語音識別」大法：脖頸貼合傳感器，AI 轉(zhuǎn)換皮膚震動信息

可“觸摸”的語言

根據(jù)病癥的嚴(yán)重程度，現(xiàn)階段治療聽力障礙的主流手段包括：

藥物治療：通過靜脈點滴或局部滴藥（如激素、抗菌素、抗病毒藥物等）消退炎癥，使聽力盡快恢復(fù)；
手術(shù)治療：主要針對外、中耳畸形、各種壓迫咽鼓管疾病、耳外傷等進行手術(shù)；
儀器輔助：如助聽器（聽力損失程度≤80dB）、人工耳蝸（聽力損失程度>80dB）。

其中，人工耳蝸植入是當(dāng)前讓重度、極重度耳聾患者恢復(fù)聽力的唯一有效辦法。

雷鋒網(wǎng)了解到，早在 1957 年，法國科學(xué)家首次將電極植入一位全聾病人的耳蝸內(nèi)，使該患者感知到周圍的環(huán)境音。直到上世紀(jì) 90 年代，人工耳蝸進入臨床應(yīng)用階段，給極重度耳聾患者帶來了“新生”。

實際上，人工耳蝸的發(fā)展離不開電子技術(shù)、計算機技術(shù)、語音學(xué)、電生理學(xué)、材料學(xué)、耳顯微外科學(xué)的發(fā)展。在這些學(xué)科興起、發(fā)展之前，針對聽力障礙患者，科學(xué)家給出的應(yīng)對措施是一種叫做 Tadoma 的觸診唇讀法。顧名思義，這種療法是指——聽力障礙患者通過用手指觸摸說話者的嘴唇、下巴、脖頸處，讀取說話者想表達的內(nèi)容。

而上述日本團隊研發(fā) AI 系統(tǒng) Derma 的靈感，最初正是源于 Tadoma。

通過機器學(xué)習(xí)將 Tadoma 自動化

該團隊的設(shè)計其實就是將 Tadoma 療法的過程通過機器學(xué)習(xí)自動化了。

就其原理而言，如下圖所示，在喉嚨周邊的皮膚上貼上一個加速度/角速度傳感器，獲取無聲發(fā)聲時下顎、舌肌運動引起的從下顎到喉嚨的皮膚顫動信息，采用深度學(xué)習(xí)進行分析識別，最終實現(xiàn)將無聲語音轉(zhuǎn)換為語音輸入的無聲語音交互（Silent Speech Interaction，SSI）。

索尼「無聲語音識別」大法：脖頸貼合傳感器，AI 轉(zhuǎn)換皮膚震動信息

雷鋒網(wǎng)注意到，該傳感器可獲取 12 維的皮膚運動信息，深度學(xué)習(xí)可以分析、識別 35 種發(fā)聲類型。實驗表明，識別皮膚顫動信息的精準(zhǔn)度超過 94％。

值得一提的是，研究團隊訓(xùn)練模型用到了連接時間分類（Connectionist Temporal Classification, CTC）。

實際上，在訓(xùn)練語音識別器的過程中，受說話者語速等因素影響，將輸入與輸出對齊是一個難點。為解決這一問題，連接時間分類就派上用場了。

就其外形而言，與現(xiàn)有的一些無聲語音交互設(shè)備相比，這一設(shè)備體積小、重量輕、并不顯眼。此外，這一系統(tǒng)耗電量低，不易受到環(huán)境亮度等因素的影響，不會影響到佩戴者的正常生活，可以說是非常實用了。

另外研究團隊表示，經(jīng)轉(zhuǎn)換后的語音合成不僅可以輸入到具有語音識別功能的數(shù)字設(shè)備（語音助手），同時也能幫助有語言障礙的患者進行交流。

將來，該團隊的研究方向則是可穿戴電子設(shè)備和體內(nèi)嵌入式計算集成。

基于 AI 的無聲語音交互

近年來，無聲語音交互領(lǐng)域方興未艾，當(dāng)前產(chǎn)業(yè)和學(xué)界在該領(lǐng)域的思路主要有 2 條——通過感知氣流識別話語（氣流采集）和通過感知肌肉運動的方式識別話語（EMG 信號采集）。以下是該領(lǐng)域發(fā)展的大致時間線：

2009 年，麻省理工學(xué)院感知交流組研發(fā)的觸覺設(shè)備能夠克服讀唇語無法清晰識別的障礙，成本比人工耳蝸植入手術(shù)低幾個數(shù)量級；
2016 年，牛津大學(xué)人工智能實驗室、谷歌 DeepMind 和加拿大高等研究院（CIFAR）聯(lián)合開發(fā)了結(jié)合深度學(xué)習(xí)技術(shù)的唇讀程序 LipNet；
2016 年，DeepMind 經(jīng) 1 萬小時的新聞視頻訓(xùn)練，將 AI 唇讀準(zhǔn)確率提升至 46.8%；
2019 年，世界知識產(chǎn)權(quán)組織公布了微軟申請的“無聲語音輸入”（Silent Voice Input）專利，豐富了“機器聽懂人話”的場景；
2020 年 3 月，浙江工業(yè)大學(xué)、中科院計算技術(shù)研究所智能信息處理重點實驗室及中國科學(xué)院大學(xué)共同提出了在局部特征層和全局序列層上引入互信息約束，增強口型特征與語音內(nèi)容的關(guān)系，將計算機唇讀精度提升至 84.41%。

實際上，無聲語音識別不僅可以幫助有聽力、語言障礙的人群，也適用于包括災(zāi)害現(xiàn)場、艙外探索、水下作業(yè)、工廠車間在內(nèi)的場景。

不過，無聲語音交互設(shè)備要想真正成為消費級產(chǎn)品，還需打磨。正如微軟全球資深技術(shù)院士、微軟云與人工智能事業(yè)部負(fù)責(zé)人黃學(xué)東博士曾表示：

公開的測試、已發(fā)表的學(xué)術(shù)文章，雖不能與現(xiàn)實完全割裂，但相比消費級產(chǎn)品與商業(yè)場景，仍需要不一樣的評判標(biāo)準(zhǔn)。

關(guān)于索尼 CSL

正如上文所述，Derma 由東京大學(xué)和索尼 CSL 共同研發(fā)。

索尼「無聲語音識別」大法：脖頸貼合傳感器，AI 轉(zhuǎn)換皮膚震動信息

在中國人民大學(xué)出版社 2011 年出版的一本名為《索尼研究所的經(jīng)營哲學(xué)》的書中，索尼 CSL 董事長所真理雄便講述了索尼 CSL 的經(jīng)營管理理念。所真理雄寫道，索尼 CSL 遵循“小即是美”的經(jīng)營理念，堅持不擴大規(guī)模，因此誕生了眾多的“異類和天才”，同時也支持人才的“流通”。

雷鋒網(wǎng)了解到，索尼 CSL 成立于 1988 年，作為索尼公司的“創(chuàng)新工廠”，廣泛關(guān)注計算機科學(xué)、生命科學(xué)、腦科學(xué)和經(jīng)濟學(xué)等多個領(lǐng)域。當(dāng)前索尼 CSL 的研究方向包括「全球議程」（涵蓋從能源到食品和醫(yī)療保健的問題）、「人類增強」（包括探索人類創(chuàng)造力和人機交互/集成的研究）與「網(wǎng)絡(luò)智能」（AI）。

2019 年 11 月，索尼宣布成立索尼 AI 部門，以“利用 AI 激發(fā)人類的想象力和創(chuàng)造力” 為使命，旨在推進 AI 技術(shù)的基礎(chǔ)研發(fā)，而索尼 CSL 總裁兼 CEO Hiroaki Kitano 便是索尼 AI 的全球負(fù)責(zé)人。

引用來源：

[1] https://www.itmedia.co.jp/news/articles/2003/18/news046.html

[2] https://www.sonycsl.co.jp/

[3] https://mp.weixin.qq.com/s/qvq2H7d0p0slydZpXWeJCQ

[4] https://baike.baidu.com/item/%E5%90%AC%E5%8A%9B%E9%9A%9C%E7%A2%8D/5155092?fr=aladdin#5

[5] https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E8%80%B3%E8%9C%97/250269?fr=aladdin#1

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章