0
本文作者: 叢末 | 2019-08-26 20:55 |
雷鋒網(wǎng) AI 科技評(píng)論按:智能語(yǔ)音作為人工智能領(lǐng)域技術(shù)比較成熟的細(xì)分方向之一,對(duì)于初創(chuàng)企業(yè)來(lái)說(shuō),是其進(jìn)入人工智能領(lǐng)域的入口之一,然而從市場(chǎng)上來(lái)看,這一賽道的頭部企業(yè)國(guó)外如谷歌、蘋果,國(guó)內(nèi)如 BAT,因其資本優(yōu)勢(shì)以及先發(fā)性的技術(shù)沉淀,對(duì)該市場(chǎng)有較強(qiáng)的壟斷性,因而初創(chuàng)企業(yè)要想在僅剩不多的市場(chǎng)份額中求生存或者分一杯羹,技術(shù)實(shí)力是關(guān)鍵之一。
對(duì)于去年才成立的深聲科技而言,不遺余力地深耕技術(shù),也是其在這一賽道中突出重圍的命門所在。就在剛落幕不久的 Blizzard Challenge 2019 國(guó)際語(yǔ)音合成大賽上,深聲科技就倚仗其在智能語(yǔ)音技術(shù)上的扎實(shí)積累,首次參賽就在一眾老牌選手中脫穎而出,一舉斬獲亞軍,成為本屆比賽中的一匹黑馬。
圖源:深聲科技
作為語(yǔ)音合成界最具權(quán)威性和影響力的國(guó)際賽事,Blizzard Challenge 對(duì)于該領(lǐng)域的關(guān)注者而言并不陌生,例如語(yǔ)音界的領(lǐng)頭羊之一科大訊飛就頻頻報(bào)道過(guò)其在該賽事中取得的成績(jī),并自該賽程首次于 2005 年舉辦后的第二年開(kāi)始就一直參賽至今。
除科大訊飛以外,在Blizzard Challenge 的歷屆賽事中,既有來(lái)自微軟亞洲研究院、IBM研究院、阿里巴巴、搜狗等知名企業(yè)的團(tuán)隊(duì),也不乏英國(guó)愛(ài)丁堡大學(xué)、英國(guó)劍橋大學(xué)、美國(guó)卡內(nèi)基-梅隆大學(xué)、日本東京大學(xué)、新加坡南洋理工大學(xué)等頂級(jí)高校的身影。Blizzard Challenge在該領(lǐng)域的影響力,可見(jiàn)一斑。
而今年,Blizzard Challenge 首次以中文作為主任務(wù),同時(shí)以羅振宇脫口秀風(fēng)格聲音作為合成樣本,以故事、百科、詩(shī)詞等文本為合成形式,除此之外,還加上了英文混讀、兒化音等偏門難點(diǎn)任務(wù),堪稱 Blizzard Challenge“史上最難”賽程。不僅如此,今年的Blizzard Challenge 更是史上最火爆的一屆,入圍隊(duì)伍達(dá)到 24支,與去年的10支隊(duì)伍足足翻了約1.5倍。
面對(duì)這一“史上最難”賽程以及以科大訊飛等老牌廠商為首的 24支隊(duì)伍,深聲科技能夠以稍低于科大訊飛的成績(jī)拿下亞軍完成在 Blizzard Challenge 上的精彩首秀,具體表現(xiàn)又是怎樣的呢?
注:Blizzard Challenge 2019最終排名。官方分別用26個(gè)字母作為各參賽隊(duì)伍的代號(hào),其中字母“A”為原聲(即羅振宇本人錄音);字母“I”為深聲科技語(yǔ)音合成系統(tǒng)代號(hào);“M ”為科大訊飛語(yǔ)音合成系統(tǒng)代號(hào)。圖源:深聲科技
據(jù)悉,Blizzard Challenge 2019比賽共有四項(xiàng)指標(biāo):MOS(自然度)、PER(拼音-不包含聲調(diào)-錯(cuò)誤率)、PTER(拼音-包含聲調(diào)-錯(cuò)誤率)、Sim(相似度)。
在其中的PER和PTER兩項(xiàng)指標(biāo)中,深聲科技的錯(cuò)誤率為 0.092、0.103,均低于冠軍科大訊飛的0.098、0.107,這就意味著深聲科技在系統(tǒng)可懂性方面,表現(xiàn)比本屆比賽的冠軍還要更勝一籌。
而MOS自然度指標(biāo)則是本次比賽中最重要的一項(xiàng)指標(biāo),由所有測(cè)評(píng)人員對(duì)音頻的總體效果進(jìn)行打分,滿分為 5 分。最終,深聲科技的合成效果平均 MOS 分為4.3分,稍低于科大訊飛的 4.5分,與真人原聲的4.7分更是僅差0.4分。
比較遺憾的是,深聲科技在第四項(xiàng)指標(biāo)Sim上的表現(xiàn)較為一般,得分為 3.3 分。不過(guò)據(jù)深聲科技透露,這主要是因?yàn)槠湓?月初提交比賽數(shù)據(jù)時(shí),使用了表現(xiàn)不穩(wěn)定的多說(shuō)話人聲碼器技術(shù),導(dǎo)致了合成聲音稍稍偏離了真人原聲。目前,該問(wèn)題已徹底解決。
更值得一提的是,在本次比賽中,深聲科技使用的參賽系統(tǒng)實(shí)際上是其當(dāng)時(shí)已上線的商用系統(tǒng),而不是還無(wú)法走出實(shí)驗(yàn)室的試驗(yàn)性技術(shù)。一個(gè)商用系統(tǒng)能夠在比賽中取得如此成績(jī),深聲科技所擁有的語(yǔ)音合成技術(shù)實(shí)力是相當(dāng)雄厚的。
綜合成績(jī)排名第二,四項(xiàng)指標(biāo)其中兩項(xiàng)甚至超過(guò)冠軍,深聲科技這份亮麗的成績(jī)單背后所倚仗的技術(shù)實(shí)力不可小覷,那具體都有哪些呢?我們下面來(lái)看。
深聲科技在智能語(yǔ)音這條賽道上的起步雖然較晚,但是在技術(shù)的沉淀和積累上卻很強(qiáng)勢(shì)。雖僅成立一年多,深聲科技就自主研發(fā)出了一整套領(lǐng)先的智能語(yǔ)音技術(shù)。
從核心技術(shù)上來(lái)看,深聲科技有七大核心技術(shù),包括聲音定制、語(yǔ)音分離、語(yǔ)音合成、智能語(yǔ)音降噪、音頻處理算法、語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)換。其中以語(yǔ)音分離為例,能夠基于其領(lǐng)先的端到端深度學(xué)習(xí)方法,在保留原始音頻信號(hào)中所有細(xì)節(jié)的前提下,能夠同時(shí)完美地將單通道歌曲中人聲和伴奏聲分離出來(lái)。
圖源:深聲科技官網(wǎng)
而進(jìn)一步從語(yǔ)音合成的整條鏈路上來(lái)看,深聲科技也是業(yè)內(nèi)少有的擁有語(yǔ)音合成全鏈路技術(shù)能力的公司,主要包括語(yǔ)料庫(kù)制作、文本分析模塊、高表現(xiàn)力的語(yǔ)音合成后端、高性能聲碼器。
針對(duì)語(yǔ)音合成語(yǔ)料庫(kù)制作這一語(yǔ)音合成流程中復(fù)雜而困難的環(huán)節(jié),深聲科技自主研發(fā)的數(shù)據(jù)標(biāo)注平臺(tái),采用自動(dòng)標(biāo)注+人工校正的模式,在確保高質(zhì)量的前提下,大大節(jié)省了語(yǔ)料庫(kù)制作成本和時(shí)間周期,使深聲能夠快速響應(yīng)客戶聲音定制化的需求。
深聲科技的文本分析模塊包含文本正則化、G2P(文本轉(zhuǎn)音素)和韻律分析,借助深度學(xué)習(xí)技術(shù),準(zhǔn)確率相比目前行業(yè)的主流方法有較大的提升,即便在遇到多音詞如“打的”,“美的”,“朝陽(yáng)”時(shí),也能輕松辨別。
深聲科技研發(fā)的高表現(xiàn)力語(yǔ)音合成后端采用了可控的端到端技術(shù),無(wú)論在情感的表現(xiàn)力上,還是在合成的準(zhǔn)確率、音質(zhì)穩(wěn)定性、音色可控性上都超越當(dāng)前行業(yè)的主流方法。
深聲科技研發(fā)的高性能聲碼器結(jié)合語(yǔ)音算法和網(wǎng)絡(luò)模型,在提升合成效率的同時(shí),解決了噪聲、沉悶、機(jī)械感強(qiáng)等音質(zhì)問(wèn)題,合成出清晰流暢的、與真人相媲美的聲音,不僅能夠滿足大規(guī)模的實(shí)時(shí)語(yǔ)音交互應(yīng)用的需求,還能滿足對(duì)音質(zhì)長(zhǎng)時(shí)間使用場(chǎng)景的嚴(yán)苛需求。
在智能語(yǔ)音乃至整個(gè)人工智能行業(yè)近年來(lái)都一路高歌猛進(jìn)的背景色中,于去年3月份成立的深聲科技顯得有些低調(diào)。實(shí)際上,早在去年7月份的時(shí)候,深聲科技就獲得了小米科技的數(shù)千萬(wàn)天使投資,成為小米投資生態(tài)中的一家黑馬級(jí)企業(yè),而它今年在 Blizzard Challenge 2019 中所獲得的佳績(jī),算是給小米投資做了一次很好的回應(yīng)。
靠技術(shù)立足的深聲科技,自然離不開(kāi)一支強(qiáng)悍的技術(shù)團(tuán)隊(duì)的支持。據(jù)介紹,深聲科技的核心成員都是來(lái)自中科院、中山大學(xué)、華南理工、日本早稻田大學(xué)等海內(nèi)外頂級(jí)院校的博士、碩士人才,并且其中大部分都曾就職于騰訊、網(wǎng)易、YY等國(guó)內(nèi)知名互聯(lián)網(wǎng)企業(yè),無(wú)論是技術(shù)實(shí)力,還是行業(yè)經(jīng)驗(yàn),在行業(yè)內(nèi)都是領(lǐng)先的。
有了資金、技術(shù)、團(tuán)隊(duì)等的加持,深聲科技目前在智能客服、有聲讀物、新聞播報(bào)、語(yǔ)音助手等場(chǎng)景的落地上也取得了一些成果,獲得了包括金山、小米及其生態(tài)鏈企業(yè)等客戶的高度評(píng)價(jià)和口碑。
同時(shí),雷鋒網(wǎng) AI 科技評(píng)論還獲悉,深聲科技在不久后還將會(huì)推出更加重磅的應(yīng)用落地。屆時(shí),大眾也將會(huì)獲得一個(gè)更加深入認(rèn)識(shí)和了解深聲科技的好機(jī)會(huì),大家拭目以待!
對(duì)于深聲科技智能語(yǔ)音技術(shù)感興趣的讀者,可前往深聲科技的官網(wǎng) http://www.deepsound.cn/ 或微信小程序“深聲AI”親身體驗(yàn)。
【CNCC 2019來(lái)了!】
10月17-19日,CNCC 2019 將在蘇州金雞湖國(guó)際會(huì)議中心舉辦,本次會(huì)議由中國(guó)計(jì)算機(jī)學(xué)會(huì) (CCF) 主辦,蘇州工業(yè)園區(qū)管委會(huì)承辦。
CNCC 全稱為中國(guó)計(jì)算機(jī)大會(huì),是我國(guó)計(jì)算領(lǐng)域規(guī)模最大、規(guī)格最高的學(xué)術(shù)、技術(shù)、產(chǎn)業(yè)交融互動(dòng)的盛會(huì)。該會(huì)議創(chuàng)建于 2003 年,每年于不同城市舉辦,至今已成功舉辦十五屆。會(huì)議形式包括大會(huì)特邀報(bào)告、大會(huì)論壇、技術(shù)論壇、特色活動(dòng)及展覽展示等。大會(huì)也將會(huì)對(duì)本文提到的語(yǔ)音合成領(lǐng)域的最新趨勢(shì)動(dòng)向準(zhǔn)備了豐富的內(nèi)容。
如果你是個(gè)人參會(huì),可以:
?通過(guò)官網(wǎng)cncc.ccf.org.cn參會(huì)報(bào)名
?申請(qǐng)論壇,作為論壇主席或講者參會(huì)
?申請(qǐng)資助參會(huì),申請(qǐng)者限邊遠(yuǎn)地區(qū)高校青年教師或?qū)W生
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。