丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

現(xiàn)場(chǎng) | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

本文作者: 亞萌 2017-01-23 18:05
導(dǎo)語(yǔ):作為2017開(kāi)年最火的人工智能之星Alexa項(xiàng)目的領(lǐng)導(dǎo)者,亞馬遜首席科學(xué)家Nikko Strom帶來(lái)了演講。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

雷鋒網(wǎng)按:2016年1月11日-12日,美國(guó)加州圣克拉拉市,AI Frontier大會(huì)召開(kāi),這次大會(huì)聚集了美國(guó)人工智能公司里最強(qiáng)悍的明星人物,包括谷歌大腦負(fù)責(zé)人Jeff Dean、微軟AI首席科學(xué)家鄧力、亞馬遜首席科學(xué)家Nikko Strom、百度AI實(shí)驗(yàn)室主管Adam Coates、Facebook科學(xué)家賈楊清等20多位業(yè)界大咖,堪稱AI業(yè)界領(lǐng)域的一場(chǎng)盛事。

作為2017開(kāi)年最火的人工智能之星Alexa項(xiàng)目的領(lǐng)導(dǎo)者,亞馬遜首席科學(xué)家Nikko Strom帶來(lái)了演講,詳細(xì)闡述了Alexa里的大規(guī)模深度的基本架構(gòu)、語(yǔ)音識(shí)別、語(yǔ)音合成等內(nèi)容,尤其提到了Alexa為“雞尾酒派對(duì)難題”找到了有效的解決方法。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

Nikko Strom,亞馬遜首席科學(xué)家。1997年于瑞典工學(xué)院獲得博士學(xué)位,之后擔(dān)任MIT計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室研究員,2000年加入初創(chuàng)公司Tellme Networks,2007年加入微軟,推進(jìn)商業(yè)語(yǔ)音識(shí)別技術(shù)的前沿研究。2011年加入亞馬遜,并擔(dān)任首席科學(xué)家,領(lǐng)導(dǎo)語(yǔ)音識(shí)別及相關(guān)領(lǐng)域的深度學(xué)習(xí)項(xiàng)目,是如今炙手可熱的亞馬遜Echo和Alexa項(xiàng)目的創(chuàng)始成員。

以下是雷鋒網(wǎng)根據(jù)Nikko Strom現(xiàn)場(chǎng)演講整理而成,在不改變?cè)敢獾幕A(chǔ)上做了刪減和補(bǔ)充。

這是Amazon Echo,內(nèi)置了一個(gè)Alexa系統(tǒng),提供語(yǔ)音服務(wù),你可以把它放到你的家里,你可以跟它對(duì)話,并不需要拿遙控器來(lái)控制。這個(gè)Holiday Season,我們加入了新的白色Echo和Dot,你們當(dāng)中應(yīng)該有很多人比較偏愛(ài)白色的電子產(chǎn)品。其它的一些產(chǎn)品,并沒(méi)有內(nèi)置Alexa系統(tǒng),但是可以與其連接,比如家里的燈具、咖啡機(jī)、恒溫器等,你只需要語(yǔ)音,就可以讓它們執(zhí)行一些命令。另外,開(kāi)發(fā)者們通過(guò)“Skills”來(lái)給Alexa增加更多的功能應(yīng)用。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

如今數(shù)百萬(wàn)的家庭里放置了Echo,而它真正地在被使用著,由此我們得到的數(shù)據(jù)多到瘋狂(insane),可能會(huì)超出你的想象。我無(wú)法告訴你確切的數(shù)字,但盡可能往大了去想吧。

大規(guī)模深度學(xué)習(xí)

人的耳朵并非每時(shí)每刻都在搜集語(yǔ)音信息,“聽(tīng)”的時(shí)間大約占10%,所以一個(gè)人成長(zhǎng)到16歲的年紀(jì),他/她所聽(tīng)到的語(yǔ)音訓(xùn)練時(shí)間大概有14016小時(shí),關(guān)于這個(gè)數(shù)據(jù),我后面會(huì)提到一個(gè)對(duì)比。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

回到Alexa,我們把數(shù)千個(gè)小時(shí)的真實(shí)語(yǔ)音訓(xùn)練數(shù)據(jù)存儲(chǔ)到S3中,使用EC2云上的分布式GPU集群來(lái)訓(xùn)練深度學(xué)習(xí)模型。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

在訓(xùn)練模型的過(guò)程中,用MapReduce的方法效果并不理想,因?yàn)楣?jié)點(diǎn)之間需要頻繁地保持同步更新,不能再通過(guò)增加更多的節(jié)點(diǎn)來(lái)加速運(yùn)算。我們可以這樣理解,那就是GPU集群更新模型的計(jì)算速度非常之快,每秒都有幾次更新,而每次更新大約是模型本身的大小。也就是說(shuō),每一個(gè)線程(Worker)都要跟其它線程同步更新幾百兆的量,而這在一秒鐘的時(shí)間里要發(fā)生很多次。所以,MapReduce的方法效果并不是很好。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

我們?cè)贏lexa里的解決方法就是,使用幾個(gè)逼近算法(Approximations)來(lái)減少這些更新的規(guī)模,將其壓縮3個(gè)量級(jí)。這里是我們一篇2015年論文的圖表,我們可以看到,隨著GPU線程的增加,訓(xùn)練速度加快。到 40個(gè)GUP線程時(shí),幾乎成直線上升,然后增速有點(diǎn)放緩。80 GPU線程對(duì)應(yīng)著大約55萬(wàn)幀/秒的速度,每一秒的語(yǔ)音大約包含100幀,也就是說(shuō)這時(shí)的一秒鐘可以處理大約90分鐘的語(yǔ)音。前面我提到一個(gè)人要花16年的時(shí)間來(lái)學(xué)習(xí)1.4萬(wàn)小時(shí)的語(yǔ)音,而用我們的系統(tǒng),大約3個(gè)小時(shí)就可以學(xué)習(xí)完成。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

這就是我們大致的深度學(xué)習(xí)基礎(chǔ)架構(gòu)。

Alexa的語(yǔ)音識(shí)別

我們知道語(yǔ)音識(shí)別系統(tǒng)框架主要包括四大塊:信號(hào)處理、聲學(xué)模型、解碼器和后處理。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

首先我們將從麥克風(fēng)收集來(lái)的聲音,進(jìn)行一些信號(hào)處理,將語(yǔ)音信號(hào)轉(zhuǎn)化到頻域,從每10毫秒的語(yǔ)音中提出一個(gè)特征向量,提供給后面的聲學(xué)模型。聲學(xué)模型負(fù)責(zé)把音頻分類(lèi)成不同的音素。接下來(lái)就是解碼器,可以得出概率最高一串詞串,最后一步是后處理,就是把單詞組合成容易讀取的文本。

在這幾個(gè)步驟中,我們或多或少都會(huì)用到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。但是我今天主要講一下聲學(xué)模型的部分。

聲學(xué)模型就是一個(gè)分類(lèi)器(classifier),輸入的是向量,輸出的是語(yǔ)音類(lèi)別的概率。這是一個(gè)典型的神經(jīng)網(wǎng)絡(luò)。底部是輸入的信息,隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。

這里是一個(gè)美式英語(yǔ)的Alexa語(yǔ)音識(shí)別系統(tǒng),所以就會(huì)輸出美式英語(yǔ)中的各個(gè)音素。在Echo初始發(fā)布的時(shí)候,我們錄了幾千個(gè)小時(shí)的美式英語(yǔ)語(yǔ)音來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,這個(gè)成本是很高的。當(dāng)然,世界上還有很多其它的語(yǔ)言,比如我們?cè)?016年9月發(fā)行了德語(yǔ)版的Echo,如果再重頭來(lái)一遍用幾千個(gè)小時(shí)的德語(yǔ)語(yǔ)音來(lái)訓(xùn)練,成本是很高的。所以,這個(gè)神經(jīng)網(wǎng)絡(luò)模型一個(gè)有趣的地方就是可以“遷移學(xué)習(xí)”,你可以保持原有網(wǎng)絡(luò)中其它層不變,只把最后的一層換成德語(yǔ)的。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

兩種不同的語(yǔ)言,音素有很多是不一樣的,但是仍然有很多相同的部分。所以,你可以只使用少量的德語(yǔ)的訓(xùn)練數(shù)據(jù),在稍作改變的模型上就可以最終得到不錯(cuò)的德語(yǔ)結(jié)果。

雞尾酒派對(duì)難題

在一個(gè)充滿很多人的空間里,Alexa需要弄清楚到底誰(shuí)在說(shuō)話。開(kāi)始的部分比較簡(jiǎn)單,用戶說(shuō)一句喚醒詞“Alexa”,Echo上的對(duì)應(yīng)方向的麥克風(fēng)就會(huì)開(kāi)啟,但接下來(lái)的部分就比較困難了。比如,在一個(gè)雞尾酒派對(duì)中,一個(gè)人說(shuō)“Alexa,來(lái)一點(diǎn)爵士樂(lè)”,但如果他/她的旁邊緊挨著同伴一起交談,在很短的時(shí)間里都說(shuō)話,那么要弄清楚到底是誰(shuí)在發(fā)出指令就比較困難了。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

這個(gè)問(wèn)題的解決方案來(lái)自于2016年的一份論文《錨定語(yǔ)音檢測(cè)》(Anchored Speech Detection)。一開(kāi)始,我們得到喚醒詞“Alexa”,我們使用一個(gè)RNN從中提取一個(gè)“錨定嵌入”(Anchor embedding),這代表了喚醒詞里包含語(yǔ)音特征。接下來(lái),我們用了另一個(gè)不同的RNN,從后續(xù)的請(qǐng)求語(yǔ)句中提取語(yǔ)音特征,基于此得出一個(gè)端點(diǎn)決策。這就是我們解決雞尾酒派對(duì)難題的方法。

語(yǔ)音合成

Alexa里的語(yǔ)音合成技術(shù),也用在了Polly里。語(yǔ)音合成的步驟一般包括:

第一步,將文本規(guī)范化。如果你還記得的話,這一步驟恰是對(duì)“語(yǔ)音識(shí)別”里的最后一個(gè)步驟的逆向操作。

第二步,把字素轉(zhuǎn)換成音素,由此得到音素串。

第三步是關(guān)鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。

最后,就可以把音頻播放出來(lái)了。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

Alexa擁有連續(xù)的語(yǔ)音合成。我們錄下了數(shù)小時(shí)人的自然發(fā)音的音頻,然后將其切割成非常小的片段,由此組成一個(gè)數(shù)據(jù)庫(kù)。這些被切割的片段被稱為“雙連音片段”(Di-phone segment),雙連音由一個(gè)音素的后半段和另一個(gè)音素的前半段組成,當(dāng)最終把語(yǔ)音整合起來(lái)時(shí),聲音聽(tīng)起來(lái)的效果就比較好。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

當(dāng)你創(chuàng)建這個(gè)數(shù)據(jù)庫(kù)時(shí),要高度細(xì)致,保證整個(gè)數(shù)據(jù)庫(kù)里片段的一致性。另外一個(gè)重要的環(huán)節(jié)是算法方面的,如何選擇最佳的片段序列結(jié)合在一起形成最終的波形。首先要弄清楚目標(biāo)函數(shù)是什么,來(lái)確保得到最合適的“雙連音片段”,以及如何從龐大的數(shù)據(jù)庫(kù)里搜索到這些片段。比如,我們會(huì)把這些片段標(biāo)簽上屬性,我今天會(huì)談到三個(gè)屬性,分別是音高(pitch)、時(shí)長(zhǎng)(duration)和密度(intensity),我們也要用RNN為這些特征找到目標(biāo)值。之后,我們?cè)跀?shù)據(jù)庫(kù)中,搜索到最佳片段組合序列,然后播放出來(lái)。

PS:文章由雷鋒網(wǎng)獨(dú)家原創(chuàng),未經(jīng)許可拒絕轉(zhuǎn)載~

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

現(xiàn)場(chǎng)  | 亞馬遜首席科學(xué)家:Alexa背后的深度學(xué)習(xí)技術(shù)是如何煉成的?

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)