智能語(yǔ)音，能聽(tīng)會(huì)說(shuō)能糾錯(cuò)才是真智能

本文作者：朱恒偉

2015-05-24 11:11

導(dǎo)語(yǔ)：先看一分鐘視頻【來(lái)源：東方衛(wèi)視】：2014年，奧斯卡最佳原創(chuàng)劇本獎(jiǎng)?lì)C給了一部人工智能影片——《Her》，講述的是男主角與電腦語(yǔ)音助手之間的浪漫愛(ài)情。風(fēng)靡全球的科幻動(dòng)畫(huà)片《超能陸戰(zhàn)隊(duì)》，萌萌的“大白”機(jī)器人的溝通毫無(wú)障礙，既詼諧又溫情。而最近，兩部接連上映的好萊

先看一分鐘視頻【來(lái)源：東方衛(wèi)視】：

2014年，奧斯卡最佳原創(chuàng)劇本獎(jiǎng)?lì)C給了一部人工智能影片——《Her》，講述的是男主角與電腦語(yǔ)音助手之間的浪漫愛(ài)情。風(fēng)靡全球的科幻動(dòng)畫(huà)片《超能陸戰(zhàn)隊(duì)》，萌萌的“大白”機(jī)器人的溝通毫無(wú)障礙，既詼諧又溫情。而最近，兩部接連上映的好萊塢科幻大片《超能查派》與《復(fù)仇者聯(lián)盟2》，核心角色都是高科技的人工智能生命體……

隨著科技發(fā)展，曾是科幻小說(shuō)與影視作品中常見(jiàn)元素的人工智能，也逐漸走入我們的真實(shí)生活。而當(dāng)我們談?wù)摗叭斯ぶ悄堋钡臅r(shí)候，必定離不開(kāi)談及語(yǔ)音交互。人類(lèi)的交互是自由而任性的，傳統(tǒng)的，而人類(lèi)語(yǔ)言如此多元，情感又恨豐富，木訥的“一根筋”式的語(yǔ)音交互識(shí)別，根本已經(jīng)完全不能滿(mǎn)足自由的人機(jī)溝通的需求。

近日，在上海交大舉辦的中德雙邊研討會(huì)上，思必馳-上海交大智能語(yǔ)音實(shí)驗(yàn)室發(fā)布了認(rèn)知型人機(jī)對(duì)話(huà)系統(tǒng)技術(shù)，打破人與設(shè)備之間的溝通屏障。該技術(shù)已進(jìn)入應(yīng)用開(kāi)發(fā)階段，有望于年底植入車(chē)載、家庭影院等領(lǐng)域。

突破技術(shù)瓶頸 “自適應(yīng)語(yǔ)音識(shí)別”打造更好的智慧型人機(jī)交互

智能語(yǔ)音實(shí)驗(yàn)室的負(fù)責(zé)人俞凱介紹，傳統(tǒng)語(yǔ)音識(shí)別是解決特定環(huán)境下的語(yǔ)音到文字轉(zhuǎn)換，這是模擬耳朵的感知功能；而更關(guān)鍵的是解決完整的口語(yǔ)人機(jī)交互問(wèn)題，這是模擬人腦的全套認(rèn)知功能。認(rèn)知型的智能語(yǔ)音技術(shù)是更高層面的人工智能，它融入了自適應(yīng)、理解糾錯(cuò)、智能反饋的認(rèn)知技術(shù)。這會(huì)使得機(jī)器可以適應(yīng)更多的環(huán)境和口音，具有進(jìn)化調(diào)整的能力，從“能聽(tīng)會(huì)說(shuō)”變成“會(huì)聽(tīng)能做”：即聽(tīng)得懂說(shuō)的，懂得聽(tīng)什么，聽(tīng)不清楚了能問(wèn)，搞錯(cuò)了能糾正，最終能成功完成用戶(hù)的任務(wù)。

智能語(yǔ)音，能聽(tīng)會(huì)說(shuō)能糾錯(cuò)才是真智能

思必馳-上海交大智能語(yǔ)音實(shí)驗(yàn)室研發(fā)的語(yǔ)音識(shí)別自適應(yīng)技術(shù)，采用了軟硬件結(jié)合的抗噪技術(shù)、結(jié)構(gòu)化深度學(xué)習(xí)技術(shù)、環(huán)境和說(shuō)話(huà)人的自動(dòng)檢測(cè)及模型自適應(yīng)調(diào)整技術(shù)，可以隨著說(shuō)話(huà)人口音和噪聲環(huán)境的變化，自動(dòng)選擇最合適的模型進(jìn)行識(shí)別，顯著提升準(zhǔn)確率。

人性化語(yǔ)音交互，告別單一語(yǔ)音識(shí)別時(shí)代

就像人類(lèi)在聽(tīng)不清的時(shí)候也可以進(jìn)行理解和對(duì)話(huà)一樣，新型的人性化智能語(yǔ)音交互技術(shù)就包括了“深度理解”，以及“自動(dòng)糾錯(cuò)”的技術(shù)。

“深度理解”深度理解是把機(jī)器的識(shí)別狀態(tài)（比如識(shí)別結(jié)果的可靠度、環(huán)境嘈雜程度等）、用戶(hù)的個(gè)人特點(diǎn)（比如性別、方言地區(qū)、說(shuō)話(huà)快慢等），和說(shuō)話(huà)的情境（比如談話(huà)的領(lǐng)域，常識(shí)，前面談話(huà)的歷史等）等因素從大數(shù)據(jù)中提取出來(lái)，根據(jù)這些“情境”對(duì)識(shí)別結(jié)果再進(jìn)行二次計(jì)算，使得語(yǔ)義理解的準(zhǔn)確度大大提高。

在有歧義和錯(cuò)誤的的情況下，機(jī)器仍然可以通過(guò)多人人機(jī)對(duì)話(huà)。讓機(jī)器識(shí)別和理解人的自然語(yǔ)言中的關(guān)鍵意圖和屬性，進(jìn)而進(jìn)行處理。前一段時(shí)間火爆的網(wǎng)絡(luò)視頻“糾正哥”，畫(huà)面中說(shuō)著山東方言的男士對(duì)著安吉星說(shuō)出一長(zhǎng)串電話(huà)號(hào)碼，不巧有一兩位識(shí)別錯(cuò)誤，于是頻繁打斷，不停糾正卻是對(duì)牛彈琴。俞凱說(shuō)，“糾正哥”無(wú)法交互的核心難點(diǎn)是對(duì)話(huà)過(guò)程中的“打斷”和“糾正”。在汽車(chē)噪聲較大的時(shí)候，偶爾有一兩個(gè)數(shù)字的識(shí)別錯(cuò)誤是很正常的事情，這種錯(cuò)誤很難通過(guò)情境直接消除。但是通過(guò)邏輯關(guān)聯(lián)和智能對(duì)話(huà)，則可能幫助“糾正哥”把電話(huà)很快撥出去。

智能語(yǔ)音，能聽(tīng)會(huì)說(shuō)能糾錯(cuò)才是真智能

真正的人機(jī)智能交互是追求機(jī)器能夠“聽(tīng)話(huà)”，成為真正的“語(yǔ)音機(jī)器人”,有進(jìn)化和適應(yīng)的能力，用的越多越聽(tīng)話(huà)。語(yǔ)音輸入不再局限于呆板簡(jiǎn)單的句式限制，語(yǔ)音控制也不需要按照機(jī)器的設(shè)定去命令，在復(fù)雜環(huán)境和噪音影響下，在自由的說(shuō)話(huà)方式（例如打斷）下，依然能夠保證優(yōu)異依然能夠保證良好而穩(wěn)定的語(yǔ)音識(shí)別和語(yǔ)義分析精度。

語(yǔ)音交互的未來(lái)應(yīng)當(dāng)是面向用戶(hù)，人性化的智能交互，而非過(guò)去模塊化的交互。拋棄過(guò)去單一的語(yǔ)音交互，把識(shí)別、語(yǔ)義理解和人機(jī)對(duì)話(huà)連在一起，幫助用戶(hù)完成任務(wù)，這將是一個(gè)嶄新的、劃時(shí)代的變革。

學(xué)術(shù)與業(yè)界的智匯交互

思必馳-上海交大智能語(yǔ)音實(shí)驗(yàn)室成立于2012年，由思必馳信息科技有限公司與上海交大聯(lián)合成立，實(shí)驗(yàn)室負(fù)責(zé)人是畢業(yè)于著名的劍橋大學(xué)的語(yǔ)音博士俞凱，他是上海市“東方學(xué)者”特聘教授，同時(shí)也是國(guó)內(nèi)學(xué)術(shù)界“青年”里唯一一位來(lái)自智能語(yǔ)音技術(shù)行業(yè)領(lǐng)域的語(yǔ)音專(zhuān)家。他所搭建的大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)曾經(jīng)多次獲得美國(guó)國(guó)家標(biāo)準(zhǔn)局（NIST）和美國(guó)國(guó)防部?jī)?nèi)部評(píng)測(cè)的冠軍，也是國(guó)際上最早從事端到端的統(tǒng)計(jì)對(duì)話(huà)系統(tǒng)研究的研究者之一。

在真實(shí)工程系統(tǒng)上，上海交大與思必馳信息技術(shù)有限公司合作，率先發(fā)布了人性化的智能語(yǔ)音交互技術(shù)平臺(tái)：對(duì)話(huà)工場(chǎng)。并在此平臺(tái)下，以產(chǎn)學(xué)研一體化的模式，正在快速完成人性化的智能語(yǔ)音交互技術(shù)從學(xué)術(shù)研究到商業(yè)運(yùn)作的轉(zhuǎn)變，進(jìn)入民用市場(chǎng)，打造以用戶(hù)為中心的“語(yǔ)音機(jī)器人”，引領(lǐng)人機(jī)口語(yǔ)真正的交互的“人工智能”潮流。據(jù)悉，該系統(tǒng)將于下半年正式運(yùn)用到智能車(chē)載、家居領(lǐng)域。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章