0
亞馬遜的Alexa又在繼續(xù)學習新技能,將可以被用于進行專業(yè)的新聞解讀,幾周后,具有“播音員風格”的聲音即會被內(nèi)置于Alexa中。
9月初,亞馬遜智能家居副總裁Daniel Rausch在IFA大會上公布了Alexa的各項數(shù)據(jù):全球范圍內(nèi),Alexa已經(jīng)擁有50,000個技能,與20,000種設備兼容,并與超過3,500個品牌合作。
據(jù)雷鋒網(wǎng)了解,在2018年年初,Alexa的公布數(shù)據(jù)還只有4,000種設備,1,200個品牌。幾個月時間,各方數(shù)據(jù)上漲都很快。
雷鋒網(wǎng)注:NTTS技術(shù)和傳統(tǒng)的TTS技術(shù)對比
亞馬遜稱,Alexa新的語音運用了公司開發(fā)的 NTTS(neural text-to-speech)技術(shù),這種新一代語音合成技術(shù)可以更快地使用機器學習來生成富有表現(xiàn)力的聲音。
目前,Alexa使用的是銜接語音合成(concatenative speech synthesis),這種方法已經(jīng)存在了幾十年。該技術(shù)將語音樣本分解成獨立的聲音音素,然后縫合在一起形成新的單詞和句子。
雷鋒網(wǎng)注:銜接語音合成示意圖
固然,銜接語音合成效果不錯,但新的融入AI技術(shù)的方法正在將其迅速迭代。去年10月,谷歌為其谷歌助手采用了一種新型語音合成方法,該方法使用了DeepMind AI實驗室最新開發(fā)的機器學習技術(shù)。
亞馬遜稱,未來幾周內(nèi)將把Alexa的聲音切換成使用神經(jīng)語音合成的新語音(完整的新聞播音員的聲音)。
播音員說話的聲音來自于現(xiàn)實生活中新聞頻道的錄音音頻片段,然后使用了機器學習技術(shù)識別模仿,使機器可以像播音員一樣讀新聞。
亞馬遜的AI語音負責人Trevor Wood表示,這種方法更容易捕獲人類講話風格的細節(jié)?!斑@其間的細微差別很難用語言描述,但顯然,使用AI技術(shù),以數(shù)據(jù)驅(qū)動,可以比人類更有效地捕捉和模擬這些細節(jié)”。
值得注意的是,亞馬遜說,他們只花了幾個小時來訓練Alexa的“新聞播音員”聲音,這表明未來亞馬遜應該還會為Alexa開發(fā)出一系列的人類聲音風格。
到目前為止,亞馬遜已經(jīng)添加了Alexa耳語模式,再加上幾周內(nèi)將更新的“新聞播音員”聲音,我們有望在2019年聽到Alexa模仿更多的不同風格的聲音。
via: The Verge
相關(guān)文章:
問Alexa問題,回答不上來怎么辦?別擔心,它找到答案就會告訴你
亞馬遜推出Auto SDK,欲將Alexa引入更多車載系統(tǒng)中
Alexa新的數(shù)據(jù)里程碑:50000個技能、20000種設備、3500個品牌
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。