0
品牌就是一個虛構(gòu)的人,和人一樣它也擁有許多獨(dú)特的特征,其中就包括聲音。
品牌的聲音可幫助用戶通過聽覺立馬識別出品牌的個性。今日,亞馬遜的云服務(wù)Amazon Polly推出了“品牌之聲”業(yè)務(wù),這是一項(xiàng)完全自動化的服務(wù)。該服務(wù)可以將文字內(nèi)容轉(zhuǎn)換為逼真的語音,為客戶提供特別定制的聲音服務(wù)。
正如亞馬遜的AI語音負(fù)責(zé)人Rafal Kuklinski和高級產(chǎn)品經(jīng)理Ankit Dhawan在一篇博客文章中解釋的那樣,“品牌之聲”允許公司通過將獨(dú)特的聲音特征融入到他們的產(chǎn)品和服務(wù)中來區(qū)分其他品牌。“每一家公司都可以擁用自己獨(dú)特的聲音品牌?!彼麄儗懙?。
亞馬遜與KFC合作,為后者的品牌標(biāo)志“肯德基老爺爺”植入美國南部的英語口音,并在亞馬遜Alexa App中上線。另外,它還為澳大利亞國民銀行(National Australia Bank)設(shè)計(jì)了澳大利亞英語語音,該銀行將聯(lián)系中心遷移到亞馬遜全渠道云聯(lián)系中心產(chǎn)品Amazon Connect中。
【 圖片來源:KFC 】
去年年底,亞馬遜在一份研究論文中詳細(xì)介紹了其運(yùn)用AI生成語音方面的工作(“數(shù)據(jù)簡化效應(yīng)對文本轉(zhuǎn)化成語音的影響”),研究人員在其中描述了一種系統(tǒng),該系統(tǒng)僅需要幾個小時的訓(xùn)練即可學(xué)會一種新的語言風(fēng)格。而同樣的目標(biāo),配音演員可能需要數(shù)十小時。
亞馬遜的人工智能模型由兩個部分組成。第一種是神經(jīng)網(wǎng)絡(luò),它可以將音素序列轉(zhuǎn)換為聲譜圖序列,聲音隨時間的變化使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器,它將聲譜圖轉(zhuǎn)換成連續(xù)的音頻信號。
這種人工智能模型的訓(xùn)練方法,將大量中性化風(fēng)格的語音數(shù)據(jù)與所需風(fēng)格的數(shù)據(jù)以及一種能夠區(qū)分語音的AI系統(tǒng)結(jié)合在一起。亞馬遜已經(jīng)在內(nèi)部使用它來為Alexa生成新的聲音。
這種技術(shù)具有很好的商業(yè)價值。品牌聲音(例如,由女演員斯蒂芬妮·考特尼扮演的角色Fio)的任務(wù)通常是為互動語音應(yīng)答系統(tǒng)錄制電話樹,或?yàn)槠髽I(yè)培訓(xùn)視頻錄制電子學(xué)習(xí)腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率,同時使他們騰出時間從事創(chuàng)造性工作。
憑借“品牌之聲”和其他文本轉(zhuǎn)化為語音的服務(wù),亞馬遜與谷歌在這個領(lǐng)域脫穎而出。谷歌最近推出了31個人工智能合成的WaveNet語音和24個新的云文本到語音服務(wù)標(biāo)準(zhǔn)語音。除此之外,亞馬遜還有另一個值得注意的競爭對手微軟,微軟通過Azure語音服務(wù)API提供了三種人工智能生成的預(yù)覽語音和75種標(biāo)準(zhǔn)語音。
亞馬遜的“品牌之聲”還與Voicery等多家初創(chuàng)公司的產(chǎn)品展開競爭,后者提供定制的數(shù)字聲音,聽起來令人印象深刻,很像人類的聲音。文本轉(zhuǎn)化為語音的技術(shù)初創(chuàng)公司iSpeech也擁有類似的語音工具,Modulate,Respeecher,Resemble AI,Descript和印度班加羅爾的DeepSync也是如此。
本文譯自Venturebeat,作者KYLE WIGGERS。
雷鋒網(wǎng)文章(公眾號雷鋒網(wǎng))
雷鋒網(wǎng)文章(公眾號雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。