丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給付靜
發(fā)送

2

索尼「無聲語音識別」大法:脖頸貼合傳感器,AI 轉換皮膚震動信息

本文作者: 付靜 2020-04-03 18:17
導語:利用 AI,將觸診唇讀法自動化。

如今,對于聽力有障礙的群體來說,聽不到的聲音,可以觸摸到了。

“觸摸”聽不到的語言,是由東京大學和索尼計算機科學研究所(CSL)共同研發(fā)的 AI 系統(tǒng)「Derma」實現(xiàn)的。有了 Derma 系統(tǒng),只要在喉嚨周圍的皮膚上貼上傳感器,利用喉嚨和下顎的皮膚震動,就能將口形轉化為語音。

索尼「無聲語音識別」大法:脖頸貼合傳感器,AI 轉換皮膚震動信息

可“觸摸”的語言

根據(jù)病癥的嚴重程度,現(xiàn)階段治療聽力障礙的主流手段包括:

  • 藥物治療:通過靜脈點滴或局部滴藥(如激素、抗菌素、抗病毒藥物等)消退炎癥,使聽力盡快恢復;

  • 手術治療:主要針對外、中耳畸形、各種壓迫咽鼓管疾病、耳外傷等進行手術;

  • 儀器輔助:如助聽器(聽力損失程度≤80dB)、人工耳蝸(聽力損失程度>80dB)。

其中,人工耳蝸植入是當前讓重度、極重度耳聾患者恢復聽力的唯一有效辦法。

雷鋒網了解到,早在 1957 年,法國科學家首次將電極植入一位全聾病人的耳蝸內,使該患者感知到周圍的環(huán)境音。直到上世紀 90 年代,人工耳蝸進入臨床應用階段,給極重度耳聾患者帶來了“新生”。

實際上,人工耳蝸的發(fā)展離不開電子技術、計算機技術、語音學、電生理學、材料學、耳顯微外科學的發(fā)展。在這些學科興起、發(fā)展之前,針對聽力障礙患者,科學家給出的應對措施是一種叫做 Tadoma 的觸診唇讀法。顧名思義,這種療法是指——聽力障礙患者通過用手指觸摸說話者的嘴唇、下巴、脖頸處,讀取說話者想表達的內容。

而上述日本團隊研發(fā) AI 系統(tǒng) Derma 的靈感,最初正是源于 Tadoma。

通過機器學習將 Tadoma 自動化

該團隊的設計其實就是將 Tadoma 療法的過程通過機器學習自動化了。

就其原理而言,如下圖所示,在喉嚨周邊的皮膚上貼上一個加速度/角速度傳感器,獲取無聲發(fā)聲時下顎、舌肌運動引起的從下顎到喉嚨的皮膚顫動信息,采用深度學習進行分析識別,最終實現(xiàn)將無聲語音轉換為語音輸入的無聲語音交互(Silent Speech Interaction,SSI)。

索尼「無聲語音識別」大法:脖頸貼合傳感器,AI 轉換皮膚震動信息

雷鋒網注意到,該傳感器可獲取 12 維的皮膚運動信息,深度學習可以分析、識別 35 種發(fā)聲類型。實驗表明,識別皮膚顫動信息的精準度超過 94%。

值得一提的是,研究團隊訓練模型用到了連接時間分類(Connectionist Temporal Classification, CTC)。

實際上,在訓練語音識別器的過程中,受說話者語速等因素影響,將輸入與輸出對齊是一個難點。為解決這一問題,連接時間分類就派上用場了。

就其外形而言,與現(xiàn)有的一些無聲語音交互設備相比,這一設備體積小、重量輕、并不顯眼。此外,這一系統(tǒng)耗電量低,不易受到環(huán)境亮度等因素的影響,不會影響到佩戴者的正常生活,可以說是非常實用了。

另外研究團隊表示,經轉換后的語音合成不僅可以輸入到具有語音識別功能的數(shù)字設備(語音助手),同時也能幫助有語言障礙的患者進行交流。

將來,該團隊的研究方向則是可穿戴電子設備和體內嵌入式計算集成。

基于 AI 的無聲語音交互 

近年來,無聲語音交互領域方興未艾,當前產業(yè)和學界在該領域的思路主要有 2 條——通過感知氣流識別話語(氣流采集)和通過感知肌肉運動的方式識別話語(EMG 信號采集)。以下是該領域發(fā)展的大致時間線:

  • 2009 年,麻省理工學院感知交流組研發(fā)的觸覺設備能夠克服讀唇語無法清晰識別的障礙,成本比人工耳蝸植入手術低幾個數(shù)量級;

  • 2016 年,牛津大學人工智能實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)聯(lián)合開發(fā)了結合深度學習技術的唇讀程序 LipNet;

  • 2016 年,DeepMind 經 1 萬小時的新聞視頻訓練,將 AI 唇讀準確率提升至 46.8%;

  • 2019 年,世界知識產權組織公布了微軟申請的“無聲語音輸入”(Silent Voice Input)專利,豐富了“機器聽懂人話”的場景;

  • 2020 年 3 月,浙江工業(yè)大學、中科院計算技術研究所智能信息處理重點實驗室及中國科學院大學共同提出了在局部特征層和全局序列層上引入互信息約束,增強口型特征與語音內容的關系,將計算機唇讀精度提升至 84.41%。

實際上,無聲語音識別不僅可以幫助有聽力、語言障礙的人群,也適用于包括災害現(xiàn)場、艙外探索、水下作業(yè)、工廠車間在內的場景。

不過,無聲語音交互設備要想真正成為消費級產品,還需打磨。正如微軟全球資深技術院士、微軟云與人工智能事業(yè)部負責人黃學東博士曾表示:

公開的測試、已發(fā)表的學術文章,雖不能與現(xiàn)實完全割裂,但相比消費級產品與商業(yè)場景,仍需要不一樣的評判標準。

關于索尼 CSL

正如上文所述,Derma 由東京大學和索尼 CSL 共同研發(fā)。

索尼「無聲語音識別」大法:脖頸貼合傳感器,AI 轉換皮膚震動信息

在中國人民大學出版社 2011 年出版的一本名為《索尼研究所的經營哲學》的書中,索尼 CSL 董事長所真理雄便講述了索尼 CSL 的經營管理理念。所真理雄寫道,索尼 CSL 遵循“小即是美”的經營理念,堅持不擴大規(guī)模,因此誕生了眾多的“異類和天才”,同時也支持人才的“流通”。

雷鋒網了解到,索尼 CSL 成立于 1988 年,作為索尼公司的“創(chuàng)新工廠”,廣泛關注計算機科學、生命科學、腦科學和經濟學等多個領域。當前索尼 CSL 的研究方向包括「全球議程」(涵蓋從能源到食品和醫(yī)療保健的問題)、「人類增強」(包括探索人類創(chuàng)造力和人機交互/集成的研究)與「網絡智能」(AI)。

2019 年 11 月,索尼宣布成立索尼 AI 部門,以“利用 AI 激發(fā)人類的想象力和創(chuàng)造力” 為使命,旨在推進 AI 技術的基礎研發(fā),而索尼 CSL 總裁兼 CEO Hiroaki Kitano 便是索尼 AI 的全球負責人。

引用來源:

[1] https://www.itmedia.co.jp/news/articles/2003/18/news046.html

[2] https://www.sonycsl.co.jp/

[3] https://mp.weixin.qq.com/s/qvq2H7d0p0slydZpXWeJCQ

[4] https://baike.baidu.com/item/%E5%90%AC%E5%8A%9B%E9%9A%9C%E7%A2%8D/5155092?fr=aladdin#5

[5] https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E8%80%B3%E8%9C%97/250269?fr=aladdin#1

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

關注前沿科技。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說