丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給張丹
發(fā)送

3

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

本文作者: 張丹 2017-03-25 22:32
導語:18日在西雅圖召開的“AI NEXT”大會,亞馬遜首席科學家 Nikko Strom 再次以“揭秘Alexa 語音識別技術”為主題做了演講。

雷鋒網(wǎng)按:本月 18 日,由美中技術與創(chuàng)新協(xié)會(Association of Technology and Innovation,ATI)主辦的第一屆“AI NEXT”大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業(yè)內知名專家。

大會主題是“探索 AI 的潛力,把 AI 技術應用于實用項目和服務”,對 CV、NLP、智能助手、深度學習框架均做了專題報告。其中,亞馬遜首席科學家 Nikko Strom 再次以“Alexa是怎樣煉成的”為主題講述了 Alexa 的深度學習基本架構、聲學模型、語音合成等內容,雷鋒網(wǎng)整理如下:

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

Nikko Strom,現(xiàn)任亞馬遜首席科學家,是 Echo 和 Alexa 項目的創(chuàng)始成員,在語音識別技術相關領域有著資深的研究及從業(yè)經(jīng)驗:

1997 年于瑞典皇家理工學院語音通信實驗室獲得博士學位,后擔任MIT計算機科學實驗室研究員;

2000 年加入語音技術初創(chuàng)公司 Tellme Networks;

2007 年隨著 Tellme Networks 被微軟收購,加入微軟,推進商業(yè)語音識別技術的前沿研究;

2011 年加入亞馬遜,擔任首席科學家,領導語音識別及相關領域的深度學習項目。

以下是 Nikko Strom 在本次大會上的演講,雷鋒網(wǎng)在不改變愿意的基礎上有刪減和補充。

先簡單介紹下我們的產(chǎn)品。如果你買了 Amazon Echo,意味著你可以通過 Alexa 語音識別系統(tǒng)控制它,并與它對話,而且不需要拿遙控器。左邊(下圖)是 Holiday Season,是我們新加入的白色Echo和Dot,相信在座應該有很多人比較偏愛白色的電子產(chǎn)品。

Echo 還可以與沒有內置 Alexa 系統(tǒng)的家電進行連接,如燈具、咖啡機、恒溫器等,只需要喚醒Alexa,就可以讓這些家電設備執(zhí)行一些命令。此外,開發(fā)者還可以通過工具包 Alexa Skills Kit,打造個性化的功能。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

現(xiàn)如今,Echo已經(jīng)進入了數(shù)百萬用戶的家中,每天它都在被大量地使用著,也讓我們得到了無法想象的數(shù)據(jù)量。

深度學習基礎框架

事實上,人耳并非每時每刻都在搜集語音信息,真正在“聽”的時間大約只占 10%,所以一個人成長到 16歲時,他/她所聽到的語音訓練時間大概有 14016 個小時。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

回到 Alexa,我們把數(shù)千個小時的真實語音訓練數(shù)據(jù)存儲到 S3 中,使用 EC2 云上的分布式 GPU 集群來訓練深度學習模型。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

訓練模型的過程中發(fā)現(xiàn),用 MapReduce 的方法效果并不理想,因為節(jié)點之間需要頻繁地保持同步更新,不能再通過增加更多的節(jié)點來加速運算。也可以這樣理解,就是GPU集群更新模型的計算速度非常之快,每秒都會更新幾次,每次的更新大約是模型本身的大小。也就是說,每一個線程(Worker)都要跟其它線程同步更新幾百兆的量,而這在一秒鐘的時間里要發(fā)生很多次。所以,MapReduce的方法效果并不是很好。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

我們在 Alexa 里的解決方法就是,使用幾個逼近算法(Approximations)來減少更新規(guī)模,將其壓縮 3個量級。這里是我們一篇 2015 年論文里的圖表,可以看到,隨著GPU線程的增加,訓練速度加快。到 40 個 GUP 線程時,幾乎成直線上升,然后增速有點放緩。80 GPU 線程對應著大約 55 萬幀/秒的速度,每一秒的語音大約包含 100 幀,也就是說這時的一秒鐘可以處理大約90分鐘的語音。前面我提到一個人要花 16 年的時間來學習 1.4 萬小時的語音,而用我們的系統(tǒng),大約 3 個小時就可以學習完成。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

這就是 Alexa 大致的深度學習基礎架構。

聲學模型

大家都知道,語音識別系統(tǒng)框架主要包括四大塊:信號處理、聲學模型、解碼器和后處理。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

首先我們會將從麥克風收集來的聲音,進行一些信號處理,將語音信號轉化到頻域,從每 10 毫秒的語音中提出一個特征向量,提供給后面的聲學模型。聲學模型負責把音頻分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最后一步是后處理,就是把單詞組合成容易讀取的文本。

在這幾個步驟中,或多或少都會用到機器學習和深度學習的方法。我今天主要講一下聲學模型的部分。

聲學模型就是一個分類器(classifier),輸入的是向量,輸出的是語音類別的概率。這是一個典型的神經(jīng)網(wǎng)絡。底部是輸入的信息,隱藏層將向量轉化到最后一層里的音素概率。

這里是一個美式英語的 Alexa 語音識別系統(tǒng),所以就會輸出美式英語中的各個音素。在 Echo 初始發(fā)布的時候,我們錄了幾千個小時的美式英語語音來訓練神經(jīng)網(wǎng)絡模型,這個成本是很高的。當然,世界上還有很多其它的語言,比如我們在2016年9月發(fā)行了德語版的Echo,如果再重頭來一遍用幾千個小時的德語語音來訓練,成本是很高的。所以,這個神經(jīng)網(wǎng)絡模型一個有趣的地方就是可以“遷移學習”,你可以保持原有網(wǎng)絡中其它層不變,只把最后的一層換成德語。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

兩種不同的語言,音素有很多是不一樣的,但仍然有很多相同的部分。所以,你可以只使用少量的德語的訓練數(shù)據(jù),在稍作改變的模型上就可以最終得到不錯的德語結果。

“錨定嵌入”

在一個充滿很多人的空間里,Alexa 需要弄清楚到底誰在說話。開始的部分比較簡單,用戶說一句喚醒詞“Alexa”,Echo上的對應方向的麥克風就會開啟,但接下來的部分就比較困難了。比如,在一個雞尾酒派對中,一個人說“Alexa,來一點爵士樂”,但如果他/她的旁邊緊挨著同伴一起交談,在很短的時間里都說話,那么要弄清楚到底是誰在發(fā)出指令就比較困難了。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

這個問題的解決方案來自于2016年的一份論文《錨定語音檢測》(Anchored Speech Detection)。一開始,我們得到喚醒詞“Alexa”,我們使用一個RNN從中提取一個“錨定嵌入”(Anchor embedding),這代表了喚醒詞里包含語音特征。接下來,我們用了另一個不同的RNN,從后續(xù)的請求語句中提取語音特征,基于此得出一個端點決策。這就是我們解決雞尾酒派對難題的方法。

“雙連音片段”

Alexa里的語音合成技術,也用在了Polly里。語音合成的步驟一般包括:

第一步,將文本規(guī)范化。如果你還記得的話,這一步驟恰是對“語音識別”里的最后一個步驟的逆向操作。

第二步,把字素轉換成音素,由此得到音素串。

第三步是關鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。

最后,就可以把音頻播放出來了。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

Alexa擁有連續(xù)的語音合成。我們錄下了數(shù)小時人的自然發(fā)音的音頻,然后將其切割成非常小的片段,由此組成一個數(shù)據(jù)庫。這些被切割的片段被稱為“雙連音片段”(Di-phone segment),雙連音由一個音素的后半段和另一個音素的前半段組成,當最終把語音整合起來時,聲音聽起來的效果就比較好。

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

創(chuàng)建這個數(shù)據(jù)庫時,要高度細致,保證整個數(shù)據(jù)庫里片段的一致性。另外一個重要環(huán)節(jié)是算法方面的,如何選擇最佳片段序列結合在一起形成最終的波形。首先要弄清楚目標函數(shù)是什么,來確保得到最合適的“雙連音片段”,以及如何從龐大的數(shù)據(jù)庫里搜索到這些片段。比如,我們會把這些片段標簽上屬性,我今天會談到三個屬性,分別是音高(pitch)、時長(duration)和密度(intensity),我們也要用RNN為這些特征找到目標值。之后,我們在數(shù)據(jù)庫中,搜索到最佳片段組合序列,然后播放出來。

本文為雷鋒網(wǎng)獨家編譯,未經(jīng)允許不可轉載。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說