亞馬遜用AI語音技術(shù)，為企業(yè)提供品牌服務(wù)

本文作者：周舟

2020-02-05 09:43

導(dǎo)語：聲音是品牌的重要組成部分，AI讓每一個品牌都擁有自己的聲音。

品牌就是一個虛構(gòu)的人，和人一樣它也擁有許多獨(dú)特的特征，其中就包括聲音。

品牌的聲音可幫助用戶通過聽覺立馬識別出品牌的個性。今日，亞馬遜的云服務(wù)Amazon Polly推出了“品牌之聲”業(yè)務(wù)，這是一項(xiàng)完全自動化的服務(wù)。該服務(wù)可以將文字內(nèi)容轉(zhuǎn)換為逼真的語音，為客戶提供特別定制的聲音服務(wù)。

正如亞馬遜的AI語音負(fù)責(zé)人Rafal Kuklinski和高級產(chǎn)品經(jīng)理Ankit Dhawan在一篇博客文章中解釋的那樣，“品牌之聲”允許公司通過將獨(dú)特的聲音特征融入到他們的產(chǎn)品和服務(wù)中來區(qū)分其他品牌?！懊恳患夜径伎梢該碛米约邯?dú)特的聲音品牌?！彼麄儗懙馈?/p>

亞馬遜與KFC合作，為后者的品牌標(biāo)志“肯德基老爺爺”植入美國南部的英語口音，并在亞馬遜Alexa App中上線。另外，它還為澳大利亞國民銀行（National Australia Bank）設(shè)計了澳大利亞英語語音，該銀行將聯(lián)系中心遷移到亞馬遜全渠道云聯(lián)系中心產(chǎn)品Amazon Connect中。

亞馬遜用AI語音技術(shù)，為企業(yè)提供品牌服務(wù)

【圖片來源：KFC 】

去年年底，亞馬遜在一份研究論文中詳細(xì)介紹了其運(yùn)用AI生成語音方面的工作（“數(shù)據(jù)簡化效應(yīng)對文本轉(zhuǎn)化成語音的影響”），研究人員在其中描述了一種系統(tǒng)，該系統(tǒng)僅需要幾個小時的訓(xùn)練即可學(xué)會一種新的語言風(fēng)格。而同樣的目標(biāo)，配音演員可能需要數(shù)十小時。

亞馬遜的人工智能模型由兩個部分組成。第一種是神經(jīng)網(wǎng)絡(luò)，它可以將音素序列轉(zhuǎn)換為聲譜圖序列，聲音隨時間的變化使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器，它將聲譜圖轉(zhuǎn)換成連續(xù)的音頻信號。

這種人工智能模型的訓(xùn)練方法，將大量中性化風(fēng)格的語音數(shù)據(jù)與所需風(fēng)格的數(shù)據(jù)以及一種能夠區(qū)分語音的AI系統(tǒng)結(jié)合在一起。亞馬遜已經(jīng)在內(nèi)部使用它來為Alexa生成新的聲音。

這種技術(shù)具有很好的商業(yè)價值。品牌聲音（例如，由女演員斯蒂芬妮·考特尼扮演的角色Fio）的任務(wù)通常是為互動語音應(yīng)答系統(tǒng)錄制電話樹，或?yàn)槠髽I(yè)培訓(xùn)視頻錄制電子學(xué)習(xí)腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率，同時使他們騰出時間從事創(chuàng)造性工作。

憑借“品牌之聲”和其他文本轉(zhuǎn)化為語音的服務(wù)，亞馬遜與谷歌在這個領(lǐng)域脫穎而出。谷歌最近推出了31個人工智能合成的WaveNet語音和24個新的云文本到語音服務(wù)標(biāo)準(zhǔn)語音。除此之外，亞馬遜還有另一個值得注意的競爭對手微軟，微軟通過Azure語音服務(wù)API提供了三種人工智能生成的預(yù)覽語音和75種標(biāo)準(zhǔn)語音。

亞馬遜的“品牌之聲”還與Voicery等多家初創(chuàng)公司的產(chǎn)品展開競爭，后者提供定制的數(shù)字聲音，聽起來令人印象深刻，很像人類的聲音。文本轉(zhuǎn)化為語音的技術(shù)初創(chuàng)公司iSpeech也擁有類似的語音工具，Modulate，Respeecher，Resemble AI，Descript和印度班加羅爾的DeepSync也是如此。

本文譯自Venturebeat，作者KYLE WIGGERS。

雷鋒網(wǎng)文章（公眾號雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

周舟

編輯

專注報道AI+金融（微信：18811172358）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

亞馬遜用AI語音技術(shù)，為企業(yè)提供品牌服務(wù)

亞馬遜用AI語音技術(shù)，為企業(yè)提供品牌服務(wù)