借助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機(jī)接口」

本文作者：叢末

2019-04-26 09:48

導(dǎo)語：失語者重拾說話能力不是夢！

雷鋒網(wǎng) AI 科技評論按：近日，來自加州大學(xué)舊金山分校的研究者開發(fā)出了一種能將大腦信號轉(zhuǎn)換為語音的虛擬假體語音系統(tǒng)，可幫助癲癇和其他神經(jīng)性疾病患者還原語音能力。這項研究成果于 4 月 24 日發(fā)表在《自然》雜志上，加州大學(xué)舊金山分校的官網(wǎng)上也報道了這一成果。

現(xiàn)實世界中，有很多人都由于中風(fēng)或肌萎縮側(cè)索硬化（ALS）等神經(jīng)退行性疾病喪失說話能力，最終造成溝通障礙。而現(xiàn)在，科學(xué)家們在報告中提出，他們已經(jīng)開發(fā)了一種虛擬的假體語音系統(tǒng)，該系統(tǒng)能夠解碼大腦的說話意圖，并將它們轉(zhuǎn)化為基本可以理解的言語，而不需要移動任何肌肉，甚至是口腔內(nèi)的肌肉。例如物理學(xué)家斯蒂芬 · 霍金，曾經(jīng)就使用他臉頰上的肌肉在鍵盤上打出字符，然后計算機(jī)再將這些字符合成為語音。

這項研究由加州大學(xué)舊金山分校的 Gopala K. Anumanchipalli 以及同時在加州大學(xué)舊金山分校和加州大學(xué)伯克利分校任教的 Josh Chartier 領(lǐng)導(dǎo)。它建立在最近的一篇論文上，該論文首次描述人類大腦的語音中心如何設(shè)計嘴唇、上下顎、舌頭以及其他聲帶組成部分，從而生成流暢的語音。

這項新研究工作的論文作者、加州大學(xué)舊金山分校神經(jīng)外科教授 Edward Chang 博士表示，「實驗顯示，我們通過解碼指導(dǎo)發(fā)音的大腦活動模擬出來的語音，比根據(jù)從大腦中提取出來的聲音表示而合成的語音更準(zhǔn)確，也更自然?！?/span>

借助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機(jī)接口」

Edward Chang 博士致力于研究大腦如何產(chǎn)生和分析語音，他開發(fā)了一個為癲癇和其他神經(jīng)性疾病患者還原語音能力的假體。（圖源：加州大學(xué)舊金山分校）

以前基于植入物的通信系統(tǒng)，每分鐘可生成大約 8 個單詞。而這項新成果每分鐘能以自然的說話節(jié)奏生成約 150 個單詞。

同時，他還認(rèn)為，這項新的工作成果代表了一次「原理論證」，它預(yù)示著科技現(xiàn)在所能實現(xiàn)程度，研究者們能夠開發(fā)出一個能夠幫助喪失說話能力的患者重拾說話能力。

實際上，此前研究人員就已經(jīng)開發(fā)出了其他的虛擬語音輔助工具。它們都通過解碼負(fù)責(zé)識別字母和單詞以及口頭表示的大腦信號來實現(xiàn)語音輔助，但是這些方法在自然語言表達(dá)的速度和流動性上尚顯不足。

而這項新成果，則譯解了大腦在說話期間用來指導(dǎo)聲帶運動（如舌頭與口腔的碰撞、嘴唇縮窄等）的控制命令，使得產(chǎn)生的句子在可理解的同時，也接近于說話者自然的說話節(jié)奏。

目前，這項研究成果已在說話正常的人身上進(jìn)行了測試，但還未在由于神經(jīng)性疾病或重傷（例如常見的中風(fēng)）而造成語言障礙的患者身上進(jìn)行測試，由于這類神經(jīng)性疾病往往會加大對大腦信號的解碼難度或使得無法實現(xiàn)對大腦信號的解碼。

對此，加州大學(xué)舊金山分校和加州大學(xué)伯克利分校的科學(xué)家們招募了五名在醫(yī)院接受癲癇手術(shù)評估的患者來接受該系統(tǒng)的測試。

借助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機(jī)接口」

ECoG 電極矩陣由能夠記錄大腦活動的顱內(nèi)電極組成（圖源：加州大學(xué)舊金山分校）

借助 RNN 從腦電波還原語音，Nature 論文呈上新款「腦機(jī)接口」

Gopala Anumanchipalli 是加州大學(xué)舊金山分校的神經(jīng)學(xué)家，他正拿著一個跟在當(dāng)前研究中所使用的電極矩陣非常相似的電極矩陣（圖源：加州大學(xué)舊金山分校）

許多癲癇患者都由于藥物治療效果不佳而選擇接受腦部手術(shù)。在手術(shù)前，醫(yī)生必須首先找到癲癇在每個人的大腦中發(fā)作的「熱點」，這通過在大腦中或大腦表面上放置電極，并聽取明顯的電風(fēng)暴 (electrical storms) 來完成。

對此位置進(jìn)行精確定位可能需要耗費數(shù)周時間。在此期間，患者通過在涉及到運動和聽覺信號的大腦區(qū)域里面或附近植入電極來度日。這些患者往往會同意在這些植入物體上搭載其他額外的實驗。

加州大學(xué)舊金山分校的這五名此類患者就接受在他們身上測試虛擬語音生成器。研究者在他們每個人的大腦中都植入了一個或兩個電極矩陣：郵票大小的襯墊包裹了數(shù)百個被放置在大腦表層的微小電極。

當(dāng)每個志愿者在背誦數(shù)百個句子時，電極就會記錄下運動皮層中神經(jīng)元的發(fā)射模式。研究人員將這些模式與患者在自然說話期間所發(fā)生的嘴唇、舌頭、喉部以及下頜的微妙運動聯(lián)系起來。之后，研究團(tuán)隊再將這些運動轉(zhuǎn)譯為成口頭表達(dá)的句子。

另外在實驗中，研究者還讓以英語為母語的人聽取句子來測試虛擬語音生成器的流暢度，最終發(fā)現(xiàn)虛擬系統(tǒng)說出的 70% 的內(nèi)容都是可理解的。

研究人員還發(fā)現(xiàn)，其他人可以使用和調(diào)整基于某個人的大腦活動的合成語音系統(tǒng)——這就暗示著現(xiàn)有的虛擬系統(tǒng)在未來某一天都能夠?qū)ν忾_放。

該團(tuán)隊正計劃展開臨床試驗以進(jìn)一步測試該系統(tǒng)。而臨床試驗面臨的最大挑戰(zhàn)，可能是尋找合適的患者：讓人類喪失說活能力的中風(fēng)，往往也會損害或影響到支持語音發(fā)音的大腦區(qū)域。

盡管如此，眾所周知，腦器接口技術(shù)（相關(guān)技術(shù)可查看雷鋒網(wǎng) AI 科技評論此前的一篇相關(guān)報道）領(lǐng)域正在迅速發(fā)展，世界各地的研究團(tuán)隊也正在改進(jìn)這項技術(shù)，未來有可能實現(xiàn)對特定傷患進(jìn)行腦器接口技術(shù)的量身定制。

論文：《Speech synthesis from neural decoding of spoken sentences》
下載地址：https://www.nature.com/articles/s41586-019-1119-1

摘要：將神經(jīng)活動轉(zhuǎn)換成語音的技術(shù)對于因神經(jīng)系統(tǒng)損傷而無法正常交流的人來說，是革命性的。從神經(jīng)活動中解碼語音極具挑戰(zhàn)性，因為說話者需要對聲道發(fā)聲進(jìn)行非常精準(zhǔn)、快速的多維度控制。這項新研究設(shè)計了一個神經(jīng)解碼器，以顯式地利用人類大腦皮層活動中進(jìn)行了編碼的運動表示和聲音表示來合成語音。首先，用循環(huán)神經(jīng)網(wǎng)絡(luò)直接將記錄的大腦皮層活動解碼為發(fā)音運動的表示，然后將這些表示轉(zhuǎn)換為語音。在封閉的詞匯測試中，聽眾可以識別和轉(zhuǎn)錄出利用大腦皮層活動合成的語音。中間的發(fā)音動態(tài)即使在數(shù)據(jù)有限的情況下也能幫助提升性能。講話者可以較大程度地保存經(jīng)過解碼的發(fā)音運動表示，從而使得解碼器的組件可在不同參與者之間遷移。此外，該解碼器還可以在參與者默念句子時合成語音。這些發(fā)現(xiàn)都提升了使用神經(jīng)假體技術(shù)還原語音交流能力的臨床可行性。

參考：https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings 雷鋒網(wǎng) AI 科技評論報道

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

叢末

編輯

發(fā)私信

當(dāng)月熱門文章