3
本文作者: 雷鋒專欄 | 2017-08-01 19:56 |
雷鋒網(wǎng)按:本文來(lái)源公眾號(hào)“極限元”,作者溫正棋,極限元技術(shù)副總裁、中國(guó)科學(xué)院自動(dòng)化研究所副研究員,中科院—極限元“智能交互聯(lián)合實(shí)驗(yàn)室”主任。雷鋒網(wǎng)授權(quán)轉(zhuǎn)載。
語(yǔ)音作為互聯(lián)網(wǎng)的一種入口方式,正在侵入我們的生活,人機(jī)交互的核心——對(duì)話系統(tǒng),對(duì)交互的應(yīng)用至關(guān)重要,人腦與機(jī)器智能的結(jié)合,能夠突破現(xiàn)有技術(shù)瓶頸嗎?這里就有必要重點(diǎn)介紹下人機(jī)交互相關(guān)的核心技術(shù)。
從整個(gè)交互系統(tǒng)接入用戶的輸入信息開(kāi)始,包括語(yǔ)音、人臉、多模態(tài)情感相關(guān)的信息,我們?cè)趯?duì)話系統(tǒng)里面對(duì)輸入的信息進(jìn)行理解,通過(guò)這個(gè)對(duì)話部分以后產(chǎn)生輸出,最后用文字也可以用語(yǔ)音合成展現(xiàn)出來(lái),這就是整個(gè)流程,其中我們關(guān)注的最主要的是語(yǔ)音部分以及對(duì)話系統(tǒng)部分,其他的多模態(tài)今天的分享不會(huì)涉及太多。
國(guó)內(nèi)研究語(yǔ)音相關(guān)的團(tuán)隊(duì)主要包括科研院所、語(yǔ)音技術(shù)公司以及互聯(lián)網(wǎng)公司三部分:
科研院所主要包括高校和科學(xué)院,比如科學(xué)院里有聲學(xué)所、自動(dòng)化所,高校里面研究比較多的清華、北大、西工大、科大、上海交大等,這些都是在語(yǔ)音圈里占有較高位置的老牌隊(duì)伍。
語(yǔ)音技術(shù)公司包括我們比較熟悉的科大訊飛、云知聲、思必馳、極限元等。
互聯(lián)網(wǎng)公司包括BAT、搜狗等擁有強(qiáng)大的語(yǔ)音技術(shù)團(tuán)隊(duì)來(lái)支撐著其本身的很多業(yè)務(wù)。
在應(yīng)用對(duì)話系統(tǒng)時(shí),首先從語(yǔ)音輸入開(kāi)始要有一些前端處理,包括硬件和軟件的前期處理;接下來(lái)是語(yǔ)音內(nèi)容,說(shuō)話人識(shí)別等相關(guān)的內(nèi)容進(jìn)行判別,對(duì)話系統(tǒng)根據(jù)輸入信息來(lái)進(jìn)行對(duì)話邏輯的分析,以及對(duì)應(yīng)語(yǔ)言的產(chǎn)生,最后由語(yǔ)音合成系統(tǒng)來(lái)合成語(yǔ)音,在這里重點(diǎn)介紹一下前端處理、語(yǔ)音識(shí)別、說(shuō)話人識(shí)別語(yǔ)音合成等相關(guān)技術(shù)。
前端處理技術(shù)的研究進(jìn)展
前端處理包括回升消除、噪聲抑制、混響抑制等技術(shù),剛開(kāi)始時(shí)研究前端處理的人員并不多。近年來(lái)特別是ECHO的推出,把一些遠(yuǎn)場(chǎng)的問(wèn)題融入到語(yǔ)音識(shí)別等系統(tǒng)中,所以這部分的研究在這幾年興起比較快。語(yǔ)音識(shí)別的研究從一些簡(jiǎn)單的數(shù)據(jù)如手機(jī)的錄音擴(kuò)展到遠(yuǎn)場(chǎng)的語(yǔ)音識(shí)別,這些促進(jìn)了前端處理技術(shù)的發(fā)展,在語(yǔ)音圈里做前端處理比較牛的應(yīng)該是陳景東老師。
回聲消除
回聲消除在遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別中是比較典型功能,最典型的應(yīng)用是在智能終端播放音樂(lè)的時(shí)候,遠(yuǎn)場(chǎng)揚(yáng)聲器播放的音樂(lè)會(huì)回傳給近端麥克風(fēng),此時(shí)就需要有效的回聲消除算法來(lái)抑制遠(yuǎn)端信號(hào)的干擾,這是在智能設(shè)備如音響、智能家居當(dāng)中都需要考慮的問(wèn)題。比較復(fù)雜的回聲消除系統(tǒng),近端通過(guò)麥克風(fēng)陣列采集信號(hào),遠(yuǎn)端是雙聲道揚(yáng)聲器輸出,因此近端需要考慮如何將播出形成算法跟回聲消除算法對(duì)接,遠(yuǎn)端需要考慮如何對(duì)立體聲信號(hào)相關(guān)。
噪聲抑制
噪聲抑制可以有多通道的也可以有單通道的,今天主要介紹單通道噪聲抑制,單通道語(yǔ)音增強(qiáng)通過(guò)DNN的方法進(jìn)行增強(qiáng),語(yǔ)音信號(hào)是有一個(gè)諧波結(jié)構(gòu)的,通過(guò)加入噪聲這個(gè)諧波結(jié)構(gòu)會(huì)被破壞掉,語(yǔ)音增強(qiáng)的主要目的就是抬高波峰,降低波谷,這個(gè)訓(xùn)練對(duì)DNN來(lái)說(shuō)是比較容易的。但是也有實(shí)驗(yàn)研究表明,基于DNN的語(yǔ)音增強(qiáng)對(duì)濁音段效果會(huì)比較好,但對(duì)輕音段效果并不是很好,語(yǔ)音的濁音段有顯著諧波結(jié)構(gòu),因此要有目的去訓(xùn)練這個(gè)模型。
混響抑制
聲音在房間傳輸過(guò)程中經(jīng)過(guò)墻壁或者其他障礙物的反射后到達(dá)麥克風(fēng),從而生成混響語(yǔ)音,混響的語(yǔ)音會(huì)受到房間大小、聲源麥克風(fēng)的位置、室內(nèi)障礙物等因素的影響,大多數(shù)的房間內(nèi)混響時(shí)間大概在200--1000毫秒范圍內(nèi),如果混響時(shí)間過(guò)短,聲音會(huì)發(fā)干,枯燥無(wú)味,不具備清晰感,混響時(shí)間過(guò)長(zhǎng)會(huì)使聲音含混不清,需要合適的聲音才能圓潤(rùn)動(dòng)聽(tīng)。
前端處理涉及的內(nèi)容比較多,除了前面提到的還包括多說(shuō)話人分離、說(shuō)話人移動(dòng)過(guò)程中的聲音采集、不同的麥克風(fēng)陣列結(jié)構(gòu)、各種噪聲和房間模型如何更好的建模等。
音識(shí)別技術(shù)的研究進(jìn)展
有了前端處理以后,反饋回來(lái)的信息會(huì)加到訓(xùn)練語(yǔ)音識(shí)別模型,語(yǔ)音識(shí)別主要是建立一個(gè)聲學(xué)參數(shù)到發(fā)音單元的映射模型或者叫判別模型,現(xiàn)在的方法從傳統(tǒng)的GMM-HMM模型到DNN-HMM混合模型,再到最新的端到端的CTC相關(guān)的。語(yǔ)音信號(hào)經(jīng)過(guò)特征提取得到聲學(xué)特征,再通過(guò)聲學(xué)特征訓(xùn)練得到聲學(xué)模型,聲學(xué)模型結(jié)合語(yǔ)言模型以及發(fā)音辭典構(gòu)建聲碼器以后,最終識(shí)別出文本。
GMM用來(lái)對(duì)每個(gè)狀態(tài)進(jìn)行建模,HMM描述每個(gè)狀態(tài)之間的轉(zhuǎn)移概率,這樣就構(gòu)建了一個(gè)音素或三因子的HMM模型建模單元,GMM訓(xùn)練速度相對(duì)較快,而且GMM聲學(xué)模型可以做得比較小,可以移植到嵌入式平臺(tái)上,其缺點(diǎn)是GMM沒(méi)有利用真的上下文信息,同時(shí)GMM不能學(xué)習(xí)深層的非線性特征變換,建模能力有限。
隨著深度神經(jīng)網(wǎng)絡(luò)的興起,深度神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了語(yǔ)音識(shí)別里面聲學(xué)建模,主要是替換了GMM-HMM模型里的GMM模型,上端仍然是HMM模型加狀態(tài)轉(zhuǎn)移,在GMM模型里面可能有500至1萬(wàn)個(gè)狀態(tài),這個(gè)狀態(tài)可以通過(guò)DNN模型預(yù)測(cè)出每個(gè)的概率,輸出的就是一個(gè)三因子,我們兩者結(jié)合起來(lái)構(gòu)建基于DNN-HMM的聲學(xué)模型。
DNN能利用的上下文系統(tǒng)在輸入端進(jìn)行擴(kuò)幀,同時(shí)又非線性變換可以學(xué)習(xí)到,但DNN不能利用歷史信息捕捉當(dāng)前的任務(wù),因?yàn)閿U(kuò)幀是有限的,不可能無(wú)限擴(kuò)下去,所以他輸入的歷史信息還是有限的。因此,自然而然的有了基于RNN的混合聲學(xué)模型,將DNN模塊替換成RNN模塊,RNN能夠有效的對(duì)歷史信息進(jìn)行建模,并且能夠?qū)⒏嗟臍v史信息保存下來(lái),可于將來(lái)的預(yù)測(cè)。但是在RNN訓(xùn)練過(guò)程中會(huì)存在梯度消失和梯度膨脹的問(wèn)題,梯度膨脹可以在訓(xùn)練過(guò)程中加一些約束來(lái)實(shí)現(xiàn),當(dāng)梯度超過(guò)一定值以后設(shè)定一個(gè)固定值,但是梯度消失很難去把握,因此有很多方法解決這種問(wèn)題,比較簡(jiǎn)單的一個(gè)方法是將里面的RNN單元變成長(zhǎng)短時(shí)記憶模型LSTM,這樣長(zhǎng)短時(shí)記憶模型能夠?qū)⒂洃浵?wèn)題給很好的解決,但這樣會(huì)使計(jì)算量顯著增加,這也是在構(gòu)建聲學(xué)模型中需要考慮的問(wèn)題。
CNN用于聲學(xué)模型的建模有一個(gè)比較老的方法,在DNN的前端加兩層的CNN變換,這樣只對(duì)參數(shù)做了一定的非線性變換,變化完以后輸入DNN和LSTM里面,但是隨著非常深的CNN在圖象識(shí)別里面成功應(yīng)用,這些也被運(yùn)用到了聲學(xué)模型中,比如說(shuō)谷歌、微軟、IBM均在2016年發(fā)表成果證明非常深的CNN模型已經(jīng)超越其他深度神經(jīng)網(wǎng)絡(luò)的模型,其詞錯(cuò)率是最低的。
CTC本身是一個(gè)訓(xùn)練準(zhǔn)則并不算聲學(xué)模型,在DNN輸出中,每個(gè)phone他占用的幀數(shù)可能有十幀二十幀。因?yàn)樗皇且粋€(gè)尖峰,但CTC會(huì)把它變成一個(gè)尖峰,CTC可以將每一幀變成一個(gè)senones或者對(duì)應(yīng)一個(gè)因數(shù),但每個(gè)因數(shù)只需幾幀就可以了,在解碼的時(shí)候可以把一些blank幀給去掉,這樣可以顯著的增加解碼速度。減少解碼幀有兩種方法,一種是通過(guò)減幀、跳幀的方法,另一種在解碼過(guò)程中有一個(gè)beam,特別是遇到beam的時(shí)候把并值減少,我們的實(shí)驗(yàn)結(jié)果跳幀會(huì)比較好。
在NLP中應(yīng)用較多的Attention端對(duì)端的聲學(xué)模型能夠從RNN歷史信息中挑選出比較重要的信息對(duì)詞學(xué)進(jìn)行建模,目前的準(zhǔn)確率比較低,這應(yīng)該是一種趨勢(shì),至少在NLP中證明了它是比較成功的。
在聲學(xué)模型中還有TDNN和chain模型,在聲學(xué)模型中幀及運(yùn)算過(guò)程中會(huì)有一些重疊,它有效的去除了信息冗余,嵌入模型也是一個(gè)訓(xùn)練準(zhǔn)則,采用單狀態(tài)模型,融入了MMI區(qū)分信息鏈準(zhǔn)則,在訓(xùn)練過(guò)程中可以實(shí)現(xiàn)跳幀,這也加快了解碼速度??偨Y(jié)起來(lái)現(xiàn)在的語(yǔ)音識(shí)別模型更新特別快,最重要的核心內(nèi)容就是數(shù)據(jù),如果數(shù)據(jù)量足夠大的話,做出一個(gè)好的結(jié)果還是比較容易的,而且我們現(xiàn)在語(yǔ)音識(shí)別核心模塊主要是在一些解碼模塊上調(diào)優(yōu)上,這相當(dāng)于是一種藝術(shù)。
語(yǔ)音合成技術(shù)的研究進(jìn)展
語(yǔ)音合成是建立文本參數(shù)到聲學(xué)參數(shù)的影射模型,目前的方法有拼接合成、參數(shù)合成還有端對(duì)端的語(yǔ)音合成。
基于HMM統(tǒng)計(jì)參數(shù)的語(yǔ)音合成是在訓(xùn)練過(guò)程中建立文本參數(shù),如韻律參數(shù)、普參數(shù)和基頻參數(shù)的映射模型,通過(guò)決策數(shù)聚類的方法對(duì)每一個(gè)上下文相關(guān)的文本特征構(gòu)建GMM模型,訓(xùn)練其GMM模型,在合成時(shí)對(duì)輸入文本預(yù)測(cè)出它的GMM以后,通過(guò)參數(shù)生成算法,生成語(yǔ)音參數(shù)然后再輸出語(yǔ)音。在這個(gè)過(guò)程中,有三個(gè)地方會(huì)產(chǎn)生語(yǔ)音音質(zhì)的下降,第一是決策樹(shù)的聚類,第二是聲碼器,第三是參數(shù)生成算法,針對(duì)這三個(gè)問(wèn)題,我們接下來(lái)看看各位研究者提出的解決方法。
針對(duì)決策樹(shù)聚類的問(wèn)題,我們可以將里面的HMM決策樹(shù)據(jù)類變成一個(gè)DNN模型,文本參數(shù)到語(yǔ)音參數(shù)的一個(gè)映射可以很容易通過(guò)DNN來(lái)實(shí)現(xiàn),而且在實(shí)驗(yàn)效果會(huì)比決策樹(shù)好一點(diǎn),但是并沒(méi)有達(dá)到我們理想中的那種很驚艷的一些結(jié)果。
除了DNN,RNN也用到了統(tǒng)計(jì)參數(shù)語(yǔ)音合成中,而且RNN里面單元采用LSTM模型,我們可以把參數(shù)生成算法這個(gè)模塊從統(tǒng)計(jì)參數(shù)語(yǔ)音合成中去掉,這樣在基于LSTM-RNN中直接預(yù)測(cè)出語(yǔ)音參數(shù),通過(guò)聲碼器就可以合成語(yǔ)音,跟RNN-LSTM預(yù)測(cè)出一階二階統(tǒng)計(jì)量以后,采用參數(shù)生成算法,生成語(yǔ)音參數(shù)合成語(yǔ)音的話效果差不多,所以RNN-LSTM可以把里面的參數(shù)生成算法給去掉。
最近幾年大家在這方面聲碼器問(wèn)題上做了很多工作,比如WaveNet其實(shí)也屬于聲碼器的模型,建立一個(gè)現(xiàn)今預(yù)測(cè)的模型,通過(guò)前面采樣點(diǎn)預(yù)測(cè)出后面的采樣點(diǎn),但是存在幾個(gè)問(wèn)題:比如剛開(kāi)始速度比較慢,這個(gè)問(wèn)題后期被很多公司都解決了,而且它并不是一個(gè)傳統(tǒng)的vocoder,需要文本參數(shù)作為它的輸入。它有好處是在輸入過(guò)程中,可以很容易的在后端控制說(shuō)話人的特征,比如不同說(shuō)話人情感特征這些屬于外部特征我們都可以進(jìn)行很好的加入。
還有一個(gè)比較成功的是百度的Deep Voice,它將里面的很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn),而且做到了極致,這樣我們?cè)谧詈笸ㄟ^(guò)類似WaveNet的合成器來(lái)合成,效果也是比較理想的。
下面兩個(gè)端對(duì)端的語(yǔ)音合成:
第一個(gè)是Char2Wav,這個(gè)模型是直接對(duì)輸入的文本他進(jìn)行編碼,采用的模型。對(duì)輸入的直接對(duì)輸入的叫字母進(jìn)行編碼,然后生成中間的一個(gè)編碼信息放到解碼器里進(jìn)行最后的合成,合成采用SimpleRNN的合成器來(lái)合成語(yǔ)音,效果也是比較理想的,而且是純粹的End-To-End的一個(gè)語(yǔ)音合成模型。
再一個(gè)是谷歌提出的端對(duì)端的語(yǔ)音合成系統(tǒng),它跟Char2Wav比較類似,輸入的也是Embeddings,合成更加直接比RNN更好。
語(yǔ)音合成前期工作主要放在前端文本分析上,因?yàn)槲覀冊(cè)诼?tīng)感上可能更關(guān)注,但是如果有一些很好的End-to-End的模型出來(lái)以后,文本分析的工作并不是很重要,我們也可以在后端中加入一些文本分析的結(jié)果進(jìn)行預(yù)測(cè),這即是一種嘗試,也是一種很好的辦法?,F(xiàn)有的合成器的音質(zhì)不再首先考慮我們采用哪種聲碼器,我們采用直接生成的方法在實(shí)域上直接進(jìn)行合成。
語(yǔ)音合成更重要的是一些音庫(kù),我們不能忽略音庫(kù)在語(yǔ)音合成中所占據(jù)的位置,以及它的重要性。目前,極限元智能科技語(yǔ)音合成定制化支持錄音人選型、錄音采集、語(yǔ)料標(biāo)注,還能實(shí)現(xiàn)模型迭代訓(xùn)練、合成引擎優(yōu)化,支持在線、離線模式,適用多種平臺(tái)
說(shuō)話人識(shí)別也就是聲紋識(shí)別,簡(jiǎn)單介紹一下現(xiàn)有的I-vector的系統(tǒng)以及如何將DNN應(yīng)用到對(duì)應(yīng)的I-vector系統(tǒng),同時(shí)我們也跟蹤了最近end to end的一種方法?;贗vector的系統(tǒng),通過(guò)UBM模型來(lái)訓(xùn)練數(shù)據(jù),然后訓(xùn)練得到混合高斯模型,通過(guò)統(tǒng)計(jì)量的提取,比如零階一階二階我們來(lái)訓(xùn)練它的差異空間T,從而提取出它的Ivector,最后考慮到不同的補(bǔ)償方式進(jìn)行信道補(bǔ)償,使性能更加完善,同時(shí)我們?cè)诤铣啥?、最后識(shí)別端也可以考慮不同系統(tǒng)的融合提高最終的準(zhǔn)確率。
將DNN用到說(shuō)話人識(shí)別,主要是針對(duì)Ivector的系統(tǒng),UBM訓(xùn)練是一個(gè)無(wú)監(jiān)督的訓(xùn)練方式。不考慮音速相關(guān)的信息,因此就不考慮每個(gè)人說(shuō)話音速在聲學(xué)空間上法人不同,我們可以將這部分信息運(yùn)用到說(shuō)話人識(shí)別中,將前面提到的Ivector需要提到的臨界統(tǒng)計(jì)量,通過(guò)DNN模型的輸出把臨界統(tǒng)計(jì)量來(lái)進(jìn)行替換,在訓(xùn)練Ivector的過(guò)程中,考慮了每個(gè)人音速,發(fā)音音速相關(guān)的不同特征,這樣會(huì)更好的對(duì)說(shuō)話人進(jìn)行識(shí)別。
DNN還有一種應(yīng)用形式,采用bottleneck特征替換掉原來(lái)的MFCC,PLP相關(guān)的特征,這也是從音速區(qū)分性,每個(gè)人發(fā)音音速不一樣來(lái)考慮的。
百度前段時(shí)間提到的一個(gè)Deep Speaker,這部分最主要的優(yōu)點(diǎn)是采用了Triple Loss這種方法,能很好的用于訓(xùn)練中。原來(lái)如果要訓(xùn)練一個(gè)說(shuō)話人可能是輸出是一個(gè)one-hot,但是speaker的訓(xùn)練語(yǔ)并不是很多,所以訓(xùn)練效果并不是很好,如果我們采用這種訓(xùn)練誤差的,可以構(gòu)建很多對(duì)訓(xùn)練參數(shù)來(lái)進(jìn)行訓(xùn)練,這樣模型會(huì)更加棒。
以一個(gè)簡(jiǎn)單的智能客服平臺(tái)技術(shù)原理說(shuō)明它采用了基于狀態(tài)轉(zhuǎn)移圖的結(jié)構(gòu)來(lái)控制對(duì)話的進(jìn)行,在這個(gè)狀態(tài)轉(zhuǎn)移圖中,表示了所有對(duì)話片斷與用戶意圖之間的關(guān)系,系統(tǒng)根據(jù)用戶的意圖和當(dāng)前知識(shí)庫(kù)中的對(duì)話片斷轉(zhuǎn)到下一個(gè)對(duì)話片斷,并根據(jù)每個(gè)狀態(tài)的定義對(duì)用戶做出應(yīng)答,整個(gè)對(duì)話的過(guò)程是在狀態(tài)轉(zhuǎn)移中實(shí)現(xiàn)的。
智能客服平臺(tái)訓(xùn)練階段主要針對(duì)本身已有的系統(tǒng)進(jìn)行簡(jiǎn)單的數(shù),包括兩個(gè)虛擬人,在運(yùn)行過(guò)程中對(duì)虛擬人的提問(wèn),通過(guò)關(guān)鍵詞抽取對(duì)關(guān)鍵詞進(jìn)行匹配,然后找到對(duì)應(yīng)的它的狀態(tài)相關(guān)的信息,得到最優(yōu)問(wèn)題解答再進(jìn)行返回。
POMDP是一個(gè)六元組,包括狀態(tài)集合、觀察集合、行動(dòng)集合、回報(bào)函數(shù)、轉(zhuǎn)移函數(shù)和觀測(cè)函數(shù),根據(jù)用戶輸入語(yǔ)句來(lái)得到意圖分類,然后根據(jù)意圖分類得到觀測(cè)值,再通過(guò)對(duì)立面POMDP里面的訓(xùn)練分布進(jìn)行更新,訓(xùn)練分布與POMDP結(jié)合得到動(dòng)作,分析各個(gè)子動(dòng)作得到反饋后再接收新的數(shù)據(jù)。比如我要去上海,它會(huì)問(wèn)你從哪里出發(fā),用什么交通工具,對(duì)應(yīng)一些信息,比如說(shuō)查天氣,因?yàn)椴樘鞖獾臅r(shí)候你需要反饋到是上海的天氣還是北京的天氣,這些都會(huì)根據(jù)上面的語(yǔ)句進(jìn)行提問(wèn)。
除了前面提到語(yǔ)音作為主要接口的一種對(duì)話形式,我們也會(huì)考慮一些多模態(tài)相關(guān)的信息,比如對(duì)于用戶和機(jī)器人,當(dāng)中有一個(gè)人機(jī)交換屬于人機(jī)協(xié)同,但是需要處理的信息會(huì)比較多,比如機(jī)器人會(huì)根據(jù)用戶輸出個(gè)性化聲音,同時(shí)融合多元情感融合的處理,機(jī)器人會(huì)根據(jù)你輸入的信息進(jìn)行自主學(xué)習(xí)以及智能生長(zhǎng),這些都是將來(lái)人機(jī)交互這塊需要考慮的問(wèn)題。
基于交互學(xué)習(xí)的知識(shí)問(wèn)答和智能生長(zhǎng),目前最主要基于短時(shí)工作記憶,未來(lái)主要工作可能轉(zhuǎn)換到長(zhǎng)時(shí)記憶的轉(zhuǎn)換,同時(shí)我們也能對(duì)新知識(shí)進(jìn)行快速的學(xué)習(xí)和更新。
我們考慮的信息除了聽(tīng)覺(jué)信息還有視覺(jué)信息,通過(guò)多模態(tài)融合的方法,我們也會(huì)研究在腦部這些腦區(qū)功能的一些主要關(guān)注點(diǎn),這些都會(huì)成為將來(lái)的研究點(diǎn)。對(duì)話平臺(tái)有了前面的多模態(tài)的信息輸入,我們希望把這些都融合起來(lái)做成一個(gè)多模態(tài)融合的一個(gè)對(duì)話系統(tǒng)。
語(yǔ)音作為互聯(lián)網(wǎng)的重要入口,功能得到了大家越來(lái)越多的重視,當(dāng)然語(yǔ)音產(chǎn)業(yè)也需要更多的人才去發(fā)展,目前對(duì)話系統(tǒng)的功能在體驗(yàn)上有些不理想,這也是行業(yè)從業(yè)者需要考慮的問(wèn)題,同時(shí)我們?cè)趯?lái)會(huì)研究采用多模態(tài)智能生長(zhǎng)等相關(guān)交互技術(shù),促進(jìn)人機(jī)交互的發(fā)展。
相關(guān)文章:
一文讀懂智能語(yǔ)音前端處理中的關(guān)鍵問(wèn)題
專訪阿里 iDST 語(yǔ)音組總監(jiān)鄢志杰:智能語(yǔ)音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。