1
本文作者: 肖漫 | 2020-08-13 15:26 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020 年 8 月 7 日- 9 日,2020 全球人工智能和機器人峰會(CCF-GAIR 2020)于深圳正式召開。CCF-GAIR 2020 峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細分,2019 年的人工智能 40 周年,峰會一直致力于打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺。
8 月 8 日,由深圳市人工智能學(xué)會、CCF 語音對話與聽覺專業(yè)組協(xié)辦的「前沿語音技術(shù)」專場拉開帷幕。
專場由北京大學(xué)教授,深圳市人工智能學(xué)會副理事長鄒月嫻教授主持,五位語音領(lǐng)域的專家學(xué)者坐鎮(zhèn),覆蓋“空間聲場控制、語音分離、聲紋識別、語音轉(zhuǎn)換、端到端語音識別”五個專門領(lǐng)域,論道前沿語音技術(shù)的發(fā)展。
可以說,這是一個干貨滿滿、學(xué)術(shù)氣息濃厚的專場。
第一位登場演講的嘉賓是西北工業(yè)大學(xué)智能聲學(xué)與臨境通信研究中心教授張雯,演講的題目為《開放空間聲場主動控制技術(shù)》。
張雯教授博士畢業(yè)于澳大利亞國立大學(xué),現(xiàn)任西北工業(yè)大學(xué)航海學(xué)院教授、博士生導(dǎo)師。曾在澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織、澳大利亞國立大學(xué)工程與計算機學(xué)院工作,先后在 IEEE Signal Processing Magazine、IEEE/ACM Transactions on Audio, Speech and Language Processing、Journal of the Acoustical Society of America 等國際權(quán)威期刊及會議上發(fā)表論文 60 余篇,于 2015 年獲得澳大利亞研究理事會“早期職業(yè)研究員獎”(ARC DECRA), 2017 年入選中國國家級人才計劃青年項目。
目前,張雯教授的研究方向主要包括語音與聲信號處理、主動噪聲控制和機器人語音交互。
在演講中,張雯教授主要從三個部分闡述了開放空間聲場主動控制技術(shù),分別為空間聲場重構(gòu)技術(shù)、空間多區(qū)域聲場控制技術(shù),以及空間主動噪聲場控制技術(shù)。
在空間聲場重構(gòu)方面,主要涉及到兩個技術(shù):一是波場合成 WFS,二是 Ambisonics。張雯教授指出,近期更為受到歡迎的是 Ambisonics 面向場景的編解碼技術(shù),它以聲波輻射模態(tài)為基地函數(shù)對聲場建模,通過處理經(jīng)波域轉(zhuǎn)換后的 Amibisonic 信號實現(xiàn)聲場重構(gòu)與控制。
在空間多區(qū)域聲場控制技術(shù)方面,張雯教授提出了空間多區(qū)域聲場控制系統(tǒng),用一個揚聲器陣列同時控制多個區(qū)域的聲場,典型的應(yīng)用包括在各種公共環(huán)境下產(chǎn)生個人聲區(qū),以及在嘈雜的環(huán)境下產(chǎn)生靜區(qū)。
除了提出技術(shù)本身的應(yīng)用場景,張雯教授還提出對該技術(shù)進行可實現(xiàn)性評價的理論,基于聲區(qū)的位置以及亮區(qū)期望重構(gòu)聲場的信號來得到可實現(xiàn)性系數(shù),越接近 1 實現(xiàn)性越高,越接近 0 表示實現(xiàn)性越低。
在空間主動噪聲場控制技術(shù)方面,張雯教授介紹到,區(qū)域內(nèi)主動噪聲控制是通過結(jié)合麥克風陣列、揚聲器陣列及聲場控制技術(shù),實現(xiàn)三維空間區(qū)域內(nèi)的降噪效果。
演講的最后,張雯教授從兩個方面提到了最新的工作考量——傳聲器新設(shè)計和結(jié)合 AI 與分布式聲學(xué)的信號處理。張雯教授表示,在信號處理上要關(guān)注的是語音信號和噪聲信號的寬帶隨機性質(zhì),特別是對中高頻和快速變化信號的跟蹤能力,在這些情況下聲場控制的難度急劇增加,還將有大量的工作待展開。
第二位登場的嘉賓是滴滴 AI Labs 高級專家研究員宋輝,其分享的主題是《基于深度學(xué)習的語音分離技術(shù)進展》。
宋輝博士畢業(yè)于清華大學(xué),在語音技術(shù)行業(yè)工作 10 余年,先后在百度語音技術(shù)部、滴滴 AI Labs 語音研究實驗室工作,擁有豐富的語音算法研發(fā)與產(chǎn)品化和商業(yè)化的經(jīng)驗。
在本場演講中,宋輝博士介紹了語音分離技術(shù)的發(fā)展現(xiàn)狀,深入闡述了基于深度學(xué)習的單通道語音分離技術(shù)的發(fā)展脈絡(luò),各種技術(shù)方案的優(yōu)缺點與適用場景,以及未來面臨的挑戰(zhàn)。
宋輝博士首先展示了當下比較流行的單通道語音分離技術(shù)在兩個不同的公開數(shù)據(jù)集合上的表現(xiàn),其中 WSJ0-2mix 是純凈測試集,WHAM 是與之相對應(yīng)的含噪測試集。
在比較理想的純凈數(shù)據(jù)集上,單通道的分離技術(shù)近兩年在 SI-SDRi 指標上有比較大的進步。而對于更貼近真實環(huán)境的噪聲場景,目前的學(xué)術(shù)研究還不是特別完備,與安靜環(huán)境相比在 SI-SDR 指標上會有幾個 dB 的落差,表現(xiàn)比較好的單通道方法在含噪數(shù)據(jù)集上還沒有通過完備的測試和評估。
宋輝博士指出,單通道的語音分離可以抽象成“Encoder—Separator—Decoder”基本框架,Encoder 用于將一維混合語音變換到另一個二維空間中,Separator 用于在此二維空間中學(xué)習相對于每個說話人的 mask,并與混合語音進行元素級別相乘得到每一路分離后的變換域信號,而 Decoder 則是將每一路信號反變換回到時域。
目前主要有時域和頻域兩種主流的分離方法。頻域方法的優(yōu)點是可以與傳統(tǒng)的信號處理方法(如頻域波束形成)更相融,可以得到更加稀疏和結(jié)構(gòu)化的聲學(xué)特征表征。不過,其缺點也比較明顯,例如精準的相位重建比較困難、需要較長的窗長滿足頻率分辨率的要求而導(dǎo)致的長時延等。
在演講中,宋輝博士主要從 u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat 四種方法闡述了頻域語音分離和目標說話人抽取任務(wù)的技術(shù)路線。
近年來,基于時域的語音分離技術(shù)越來越受到關(guān)注,宋輝博士也對時域語音分離技術(shù)進行了剖析——
與頻域的方法相對應(yīng)的,時域方法能夠把混合語音變換到一個實數(shù)域潛空間中,用一種 data-driven 的形式學(xué)習其特征表示,例如可以采用 1-D CNN 或是更深的 Encoder 完成這種變換。時域分離方法不需要處理相位重建問題,延時比較短,可以做到采樣點級別的時延,非常適用于那些對實時性要求高的場景。
在具體方法上,宋輝博士主要介紹了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+ 等幾種有代表性的方法。
隨后,宋輝博士介紹了單通道語音分離技術(shù)的幾個研究方向,包括 Separator 的改進、 Encoder/Decoder 的改進和優(yōu)化、訓(xùn)練機制的改進以及如果有效利用 speaker embedding 信息完成高質(zhì)量的特定說話人抽取任務(wù)等。
最后,宋輝博士總結(jié)到,目前在學(xué)術(shù)界和工業(yè)界中,基于時域的分離方式更受大家歡迎。在未來展望上,宋輝博士表示,希望不斷提升神經(jīng)網(wǎng)絡(luò)的泛化能力,使得各種分離網(wǎng)絡(luò)在真實的環(huán)境中可以取得滿意的結(jié)果;希望未來可以挖掘出更多語音分離的場景和應(yīng)用。
緊接著登場的是昆山杜克大學(xué)電子與計算機工程副教授李明,其演講的題目為《基于深度編碼的聲紋識別及其關(guān)聯(lián)任務(wù)》。
李明副教授博士畢業(yè)于美國南加州大學(xué),現(xiàn)任昆山杜克大學(xué)電子與計算機工程副教授,武漢大學(xué)計算機學(xué)院兼職教授,博導(dǎo)。研究方向包括音頻語音信息處理,多模態(tài)行為信號分析等方向。已發(fā)表學(xué)術(shù)論文 100 余篇,現(xiàn)擔任 IEEE 語音及語言技術(shù)委員會委員,中國計算機學(xué)會語音對話與聽覺專業(yè)組專委,中國人工智能學(xué)會人工心理與人工情感專委會專委, APSIPA 語音及語言處理技術(shù)委員會委員,IEEE 協(xié)會高級會員。
李明副教授曾擔任 Interspeech2016、2018 及 2020 年說話人語種識別領(lǐng)域主席。帶領(lǐng)團隊于 2011 年、2012 年、2019 年三次獲得了 INTERSPEECH paralinguistic challenge 第一名,ASRU19 阿拉伯語語種識別第一名,interspeech20 fearless steps 說話人識別第一名,指導(dǎo)學(xué)生獲得 ISCSLP2014 最佳學(xué)生論文獎, IEEE CPTECE2018 最佳論文獎。2016 年被授予 IBM Faculty Award,2018 年被授予 ISCA 5 年最佳期刊論文獎。
在演講中,李明副教授先是從特征提取,建立模型,魯棒性處理,分類器設(shè)計等幾個步驟介紹傳統(tǒng)聲紋方法,并隨后引出基于端到端深度學(xué)習框架的聲紋識別網(wǎng)絡(luò)設(shè)計。
李明副教授提到,基于深度編碼的聲紋識別與傳統(tǒng)的參數(shù)化建模方法從結(jié)構(gòu)上有一定的類比性,比如卷積神經(jīng)網(wǎng)絡(luò)用于特征提取,編碼層網(wǎng)絡(luò)用于計算統(tǒng)計量并得到固定維度的特征向量,全連接網(wǎng)絡(luò)用于后端分類等。
在李明副教授看來,基于深度編碼的聲紋識別是在傳統(tǒng)技術(shù)上的升級:一方面,基于深度編碼的聲紋識別更準確,效果更好;另一方面,聲紋深度編碼還可以被用于說話人日志,多說話人合成,特定人變聲,特定人語音分離等一系列關(guān)聯(lián)任務(wù)中。
緊接著,李明副教授分享了聲紋深度編碼在說話人日志中的應(yīng)用,介紹了如何通過 LSTM,Vector-To-Sequence 等方法更好的建模說話人片段序列相似度矩陣, 以及利用匈牙利算法和預(yù)處理降低 PIT 損失函數(shù)的復(fù)雜度等。
李明副教授還介紹了一個具有聲紋深度編碼一致性約束的多說話人合成系統(tǒng)框架,在傳統(tǒng)的 TTS 輸出上,在輸出端增加一個聲紋網(wǎng)絡(luò),使得合成網(wǎng)絡(luò)輸出聲音的聲紋編碼與給定的目標說話人的聲紋編碼保持一致,提高合成語音與目標說話人的相似性。
第四位進行演講的嘉賓是中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系副教授凌震華。
凌震華副教授主要研究領(lǐng)域包括語音信號處理和自然語言處理。主持與參與多項國家自然科學(xué)基金、國家重點研發(fā)計劃、安徽省語音專項等科研項目,已發(fā)表論文 100 余篇,論文累計被引 4000 余次,獲國家科技進步獎二等獎和 IEEE 信號處理學(xué)會最佳青年作者論文獎。在 Blizzard Challenge 國際語音合成技術(shù)評測、Voice Conversion Challenge 國際語音轉(zhuǎn)換技術(shù)評測等活動中多次獲得測試指標第一名。
凌震華副教授現(xiàn)為電氣電子工程師學(xué)會(IEEE)高級會員、中國計算機學(xué)會語音聽覺與對話專業(yè)組委員、中國語言學(xué)會語音學(xué)分會學(xué)術(shù)委員會委員、全國人機語音通訊學(xué)術(shù)會議常設(shè)機構(gòu)委員會委員。2014-2018 年曾任 IEEE/ACM TASLP 期刊副編輯。
在本次前沿語音技術(shù)專場,凌震華副教授的演講主題為《基于表征解耦的非平行語料話者轉(zhuǎn)換》。
話者轉(zhuǎn)換又稱語音轉(zhuǎn)換,指的是在不改變文本內(nèi)容的前提下改變語音中的說話人身份信息。在演講中,凌震華副教授主要從語音轉(zhuǎn)換所基于的語料類型出發(fā),介紹了平行語料下實現(xiàn)語音轉(zhuǎn)換的技術(shù)演變過程,并由此延伸到非平行語料下的語音轉(zhuǎn)換。
其中在平行語料條件下,傳統(tǒng)語音轉(zhuǎn)換基于 GMM (高斯混合模型)實現(xiàn)。 2013 年后深度學(xué)習技術(shù)被引入語音轉(zhuǎn)換任務(wù),基于產(chǎn)生式訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)(Generative Trained Deep Neural Network, GTDNN)等模型相繼被提出。不過無論是 GMM 還是 DNN,都面臨源與目標語音幀對齊過程中出現(xiàn)的誤差和不合理問題。近年來提出的序列到序列(seq2seq)語音轉(zhuǎn)換方法可以有效改善這一問題,提升轉(zhuǎn)換語音的自然度與相似度。
進一步,凌震華副教授談到了在非平行語料條件下的語音轉(zhuǎn)換,并表示這種場景普遍存在于實際應(yīng)用中,也更有難度?;诜瞧叫袛?shù)據(jù)構(gòu)造平行數(shù)據(jù),以及分離語音中的文本與話者表征,是實現(xiàn)非平行語音轉(zhuǎn)換的兩條主要技術(shù)途徑。
隨后,凌震華副教授重點介紹了所提出的基于特征解耦的序列到序列語音轉(zhuǎn)換方法,該方法在序列到序列建模框架下實現(xiàn)語音中文本相關(guān)內(nèi)容和話者相關(guān)內(nèi)容的分離,取得了優(yōu)于傳統(tǒng)逐幀處理方法的非平行語音轉(zhuǎn)換質(zhì)量,接近使用同等規(guī)模平行數(shù)據(jù)的序列到序列語音轉(zhuǎn)換效果。
最后,凌震華副教授表示:
我們在進行語音轉(zhuǎn)換的過程中,序列到序列建模方法在時長調(diào)整、長時相關(guān)性建模等方面有其優(yōu)勢,但是將該方法從平行數(shù)據(jù)條件推廣到非平行數(shù)據(jù)條件存在挑戰(zhàn)。特征解耦是解決這一問題的有效途徑,通過序列到序列框架下的模型結(jié)構(gòu)與損失函數(shù)設(shè)計可以獲取相對獨立的文本與話者表征,進一步實現(xiàn)非平行數(shù)據(jù)條件下的高質(zhì)量語音轉(zhuǎn)換。
最后一位壓軸登場的是上海交通大學(xué)計算機系教授俞凱。
俞凱教授是上海交大蘇州人工智能研究院執(zhí)行院長,思必馳創(chuàng)始人、首席科學(xué)家。清華大學(xué)本碩,英國劍橋大學(xué)博士。長期從事語音技術(shù)研究和產(chǎn)業(yè)化工作,發(fā)表論文 170 余篇,獲 ISCA Computer Speech and Language 和 Speech Communication的最優(yōu)期刊論文獎,InterSpeech、IEEE SLT、ISCSLP 等國際會議優(yōu)秀論文獎,以及美國國家標準局語音識別評測、國際口語對話系統(tǒng)研究挑戰(zhàn)賽等研究評測冠軍。
俞凱教授擔任多個領(lǐng)域旗艦會議領(lǐng)域主席與程序委員會主席。他是國家青年千人、自然科學(xué)基金委優(yōu)青,IEEE 高級會員,中國大陸高校首個 IEEE 語言文字處理技術(shù)委員會委員(2017-2019)。現(xiàn)任 IEEE 語音與語言處理匯刊編委,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識產(chǎn)權(quán)組組長,中國計算機學(xué)會語音對話及聽覺專業(yè)組副主任。獲評 2014 中國人工智能學(xué)會吳文俊科技進步獎,2016 年“《科學(xué)中國人》年度人物”,2018 中國計算機學(xué)會青竹獎。
在前沿語音專場,俞凱教授帶來的演講是《端到端及半監(jiān)督語音識別技術(shù)進展》。
在俞凱教授看來,端到端語音識別降低了識別系統(tǒng)復(fù)雜度,減少參數(shù)量,簡化了訓(xùn)練流水線。當下的端到端框架主要有兩類——同步框架和異步框架;解決分類和對齊的問題。
在演講中,俞凱教授主要探討的是異步的端到端,其最大特點是輸出和輸入沒有統(tǒng)一時鐘,具有兩個不同的網(wǎng)絡(luò)。Encoder 對整體輸入序列提取特征信心,接著 Decoder 以自回歸方式輸出標簽序列,再通過注意力機制(Attention)處理輸入輸出對齊。
同時,俞凱教授還指出,端到端識別系統(tǒng)存在“在線解碼的遲延問題、文本資源及語言空間約束”兩方面挑戰(zhàn)。
要解決在線解碼的遲延問題,需要借助異步端到端模型的在線解碼,主要有三種方法——固定短時窗口預(yù)測(Neural Transducer)、基于單幀觸發(fā)的變長窗口方法(MoChA, Triggered Attention)、基于多幀累積觸發(fā)閾值的方法(Adaptive Computing Steps)。
對于文本資源及語言空間約束的挑戰(zhàn),則可以采用模型融合(Fusion)、語言模型模塊嵌入、半監(jiān)督訓(xùn)練等方式進行解決。
除了端到端模型,俞凱教授還提到了數(shù)據(jù)處理。要從海量數(shù)據(jù)升級到高質(zhì)量精準大數(shù)據(jù),需要借以自監(jiān)督預(yù)訓(xùn)練、半監(jiān)督訓(xùn)練以及使用生存數(shù)據(jù)訓(xùn)練。
此外,俞凱教授還提及了在沒有數(shù)據(jù)的情況下如何無中生有合成。俞凱教授表示:
絕大部分無中生有的方式都是通過引入生成模型解決的,鑒別性方法則對數(shù)據(jù)依賴較高,有充分數(shù)據(jù)才能解決鑒別性的問題。
在演講中,俞凱教授主要介紹了兩種“豐富副語言信息生成”的方法:一是在低資源數(shù)據(jù)下使用 VAE 建模說話人空間,合成數(shù)據(jù)時,從隱變量的先驗分布中采樣,得到虛擬說話人的語音用于 ASR 訓(xùn)練;二是不使用句子級的 VAE,而是采用 phone 級的 VAE 以增加合成音頻在副語言信息上的多樣性。
隨著最后一位嘉賓演講結(jié)束,前沿語音專場也就此落下了帷幕。
關(guān)于各位嘉賓的演講內(nèi)容整理,稍后也將陸續(xù)發(fā)布,敬請期待。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章