0
雷鋒網(wǎng) AI 科技評論按:智能語音作為人工智能領(lǐng)域技術(shù)比較成熟的細分方向之一,對于初創(chuàng)企業(yè)來說,是其進入人工智能領(lǐng)域的入口之一,然而從市場上來看,這一賽道的頭部企業(yè)國外如谷歌、蘋果,國內(nèi)如 BAT,因其資本優(yōu)勢以及先發(fā)性的技術(shù)沉淀,對該市場有較強的壟斷性,因而初創(chuàng)企業(yè)要想在僅剩不多的市場份額中求生存或者分一杯羹,技術(shù)實力是關(guān)鍵之一。
對于去年才成立的深聲科技而言,不遺余力地深耕技術(shù),也是其在這一賽道中突出重圍的命門所在。就在剛落幕不久的 Blizzard Challenge 2019 國際語音合成大賽上,深聲科技就倚仗其在智能語音技術(shù)上的扎實積累,首次參賽就在一眾老牌選手中脫穎而出,一舉斬獲亞軍,成為本屆比賽中的一匹黑馬。
圖源:深聲科技
作為語音合成界最具權(quán)威性和影響力的國際賽事,Blizzard Challenge 對于該領(lǐng)域的關(guān)注者而言并不陌生,例如語音界的領(lǐng)頭羊之一科大訊飛就頻頻報道過其在該賽事中取得的成績,并自該賽程首次于 2005 年舉辦后的第二年開始就一直參賽至今。
除科大訊飛以外,在Blizzard Challenge 的歷屆賽事中,既有來自微軟亞洲研究院、IBM研究院、阿里巴巴、搜狗等知名企業(yè)的團隊,也不乏英國愛丁堡大學、英國劍橋大學、美國卡內(nèi)基-梅隆大學、日本東京大學、新加坡南洋理工大學等頂級高校的身影。Blizzard Challenge在該領(lǐng)域的影響力,可見一斑。
而今年,Blizzard Challenge 首次以中文作為主任務(wù),同時以羅振宇脫口秀風格聲音作為合成樣本,以故事、百科、詩詞等文本為合成形式,除此之外,還加上了英文混讀、兒化音等偏門難點任務(wù),堪稱 Blizzard Challenge“史上最難”賽程。不僅如此,今年的Blizzard Challenge 更是史上最火爆的一屆,入圍隊伍達到 24支,與去年的10支隊伍足足翻了約1.5倍。
面對這一“史上最難”賽程以及以科大訊飛等老牌廠商為首的 24支隊伍,深聲科技能夠以稍低于科大訊飛的成績拿下亞軍完成在 Blizzard Challenge 上的精彩首秀,具體表現(xiàn)又是怎樣的呢?
注:Blizzard Challenge 2019最終排名。官方分別用26個字母作為各參賽隊伍的代號,其中字母“A”為原聲(即羅振宇本人錄音);字母“I”為深聲科技語音合成系統(tǒng)代號;“M ”為科大訊飛語音合成系統(tǒng)代號。圖源:深聲科技
據(jù)悉,Blizzard Challenge 2019比賽共有四項指標:MOS(自然度)、PER(拼音-不包含聲調(diào)-錯誤率)、PTER(拼音-包含聲調(diào)-錯誤率)、Sim(相似度)。
在其中的PER和PTER兩項指標中,深聲科技的錯誤率為 0.092、0.103,均低于冠軍科大訊飛的0.098、0.107,這就意味著深聲科技在系統(tǒng)可懂性方面,表現(xiàn)比本屆比賽的冠軍還要更勝一籌。
而MOS自然度指標則是本次比賽中最重要的一項指標,由所有測評人員對音頻的總體效果進行打分,滿分為 5 分。最終,深聲科技的合成效果平均 MOS 分為4.3分,稍低于科大訊飛的 4.5分,與真人原聲的4.7分更是僅差0.4分。
比較遺憾的是,深聲科技在第四項指標Sim上的表現(xiàn)較為一般,得分為 3.3 分。不過據(jù)深聲科技透露,這主要是因為其在5月初提交比賽數(shù)據(jù)時,使用了表現(xiàn)不穩(wěn)定的多說話人聲碼器技術(shù),導致了合成聲音稍稍偏離了真人原聲。目前,該問題已徹底解決。
更值得一提的是,在本次比賽中,深聲科技使用的參賽系統(tǒng)實際上是其當時已上線的商用系統(tǒng),而不是還無法走出實驗室的試驗性技術(shù)。一個商用系統(tǒng)能夠在比賽中取得如此成績,深聲科技所擁有的語音合成技術(shù)實力是相當雄厚的。
綜合成績排名第二,四項指標其中兩項甚至超過冠軍,深聲科技這份亮麗的成績單背后所倚仗的技術(shù)實力不可小覷,那具體都有哪些呢?我們下面來看。
深聲科技在智能語音這條賽道上的起步雖然較晚,但是在技術(shù)的沉淀和積累上卻很強勢。雖僅成立一年多,深聲科技就自主研發(fā)出了一整套領(lǐng)先的智能語音技術(shù)。
從核心技術(shù)上來看,深聲科技有七大核心技術(shù),包括聲音定制、語音分離、語音合成、智能語音降噪、音頻處理算法、語音識別和語音轉(zhuǎn)換。其中以語音分離為例,能夠基于其領(lǐng)先的端到端深度學習方法,在保留原始音頻信號中所有細節(jié)的前提下,能夠同時完美地將單通道歌曲中人聲和伴奏聲分離出來。
圖源:深聲科技官網(wǎng)
而進一步從語音合成的整條鏈路上來看,深聲科技也是業(yè)內(nèi)少有的擁有語音合成全鏈路技術(shù)能力的公司,主要包括語料庫制作、文本分析模塊、高表現(xiàn)力的語音合成后端、高性能聲碼器。
針對語音合成語料庫制作這一語音合成流程中復雜而困難的環(huán)節(jié),深聲科技自主研發(fā)的數(shù)據(jù)標注平臺,采用自動標注+人工校正的模式,在確保高質(zhì)量的前提下,大大節(jié)省了語料庫制作成本和時間周期,使深聲能夠快速響應客戶聲音定制化的需求。
深聲科技的文本分析模塊包含文本正則化、G2P(文本轉(zhuǎn)音素)和韻律分析,借助深度學習技術(shù),準確率相比目前行業(yè)的主流方法有較大的提升,即便在遇到多音詞如“打的”,“美的”,“朝陽”時,也能輕松辨別。
深聲科技研發(fā)的高表現(xiàn)力語音合成后端采用了可控的端到端技術(shù),無論在情感的表現(xiàn)力上,還是在合成的準確率、音質(zhì)穩(wěn)定性、音色可控性上都超越當前行業(yè)的主流方法。
深聲科技研發(fā)的高性能聲碼器結(jié)合語音算法和網(wǎng)絡(luò)模型,在提升合成效率的同時,解決了噪聲、沉悶、機械感強等音質(zhì)問題,合成出清晰流暢的、與真人相媲美的聲音,不僅能夠滿足大規(guī)模的實時語音交互應用的需求,還能滿足對音質(zhì)長時間使用場景的嚴苛需求。
在智能語音乃至整個人工智能行業(yè)近年來都一路高歌猛進的背景色中,于去年3月份成立的深聲科技顯得有些低調(diào)。實際上,早在去年7月份的時候,深聲科技就獲得了小米科技的數(shù)千萬天使投資,成為小米投資生態(tài)中的一家黑馬級企業(yè),而它今年在 Blizzard Challenge 2019 中所獲得的佳績,算是給小米投資做了一次很好的回應。
靠技術(shù)立足的深聲科技,自然離不開一支強悍的技術(shù)團隊的支持。據(jù)介紹,深聲科技的核心成員都是來自中科院、中山大學、華南理工、日本早稻田大學等海內(nèi)外頂級院校的博士、碩士人才,并且其中大部分都曾就職于騰訊、網(wǎng)易、YY等國內(nèi)知名互聯(lián)網(wǎng)企業(yè),無論是技術(shù)實力,還是行業(yè)經(jīng)驗,在行業(yè)內(nèi)都是領(lǐng)先的。
有了資金、技術(shù)、團隊等的加持,深聲科技目前在智能客服、有聲讀物、新聞播報、語音助手等場景的落地上也取得了一些成果,獲得了包括金山、小米及其生態(tài)鏈企業(yè)等客戶的高度評價和口碑。
同時,雷鋒網(wǎng) AI 科技評論還獲悉,深聲科技在不久后還將會推出更加重磅的應用落地。屆時,大眾也將會獲得一個更加深入認識和了解深聲科技的好機會,大家拭目以待!
對于深聲科技智能語音技術(shù)感興趣的讀者,可前往深聲科技的官網(wǎng) http://www.deepsound.cn/ 或微信小程序“深聲AI”親身體驗。
【CNCC 2019來了!】
10月17-19日,CNCC 2019 將在蘇州金雞湖國際會議中心舉辦,本次會議由中國計算機學會 (CCF) 主辦,蘇州工業(yè)園區(qū)管委會承辦。
CNCC 全稱為中國計算機大會,是我國計算領(lǐng)域規(guī)模最大、規(guī)格最高的學術(shù)、技術(shù)、產(chǎn)業(yè)交融互動的盛會。該會議創(chuàng)建于 2003 年,每年于不同城市舉辦,至今已成功舉辦十五屆。會議形式包括大會特邀報告、大會論壇、技術(shù)論壇、特色活動及展覽展示等。大會也將會對本文提到的語音合成領(lǐng)域的最新趨勢動向準備了豐富的內(nèi)容。
如果你是個人參會,可以:
?通過官網(wǎng)cncc.ccf.org.cn參會報名
?申請論壇,作為論壇主席或講者參會
?申請資助參會,申請者限邊遠地區(qū)高校青年教師或?qū)W生
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。