專訪訊飛王士進(jìn)：從底層AI技術(shù)解析，智能音箱是個(gè)偽命題嗎？

本文作者：周翔

編輯：劉芳平

2017-05-20 11:00

導(dǎo)語(yǔ)：看完這篇文章后，你會(huì)了解到，在AI領(lǐng)域，科大訊飛到底做了些什么？他們對(duì)整個(gè)行業(yè)又有著怎樣的看法？

2010年10月28日，訊飛語(yǔ)音輸入法發(fā)布，當(dāng)時(shí)，還沒(méi)有微信。6年之后，著名“相聲演員”羅永浩在錘子M1的發(fā)布會(huì)上展示了這款輸入法，這次，訊飛以一種意想不到的方式刷爆了朋友圈。

雖然訊飛在2014年的時(shí)候推出“超腦計(jì)劃”，開(kāi)始全面布局AI的各個(gè)領(lǐng)域。但是，這家成立于1999年、市值超400億的公司如今在很多人看來(lái)，依然只是一家做“語(yǔ)音輸入法”的公司。

科大訊飛在AI領(lǐng)域有哪些布局？
怎樣看待語(yǔ)音助手？
如何繼續(xù)提高語(yǔ)音識(shí)別的準(zhǔn)確率？
智能音箱是個(gè)偽命題嗎？會(huì)成為智能家居的中心嗎？
如何評(píng)價(jià)亞馬遜的Echo Show？
機(jī)器轉(zhuǎn)錄為何依然難用？
技術(shù)與BAT相比如何？
......

帶著這些疑問(wèn)，雷鋒網(wǎng)采訪了科大訊飛研究院副院長(zhǎng)王士進(jìn)。在看完這篇文章后，你會(huì)了解到，在AI領(lǐng)域，科大訊飛到底做了些什么？他們對(duì)整個(gè)行業(yè)又有著怎樣的看法？

專訪訊飛王士進(jìn)：從底層AI技術(shù)解析，智能音箱是個(gè)偽命題嗎？

王士進(jìn)：博士，科大訊飛北京研究院院長(zhǎng)，兼科大訊飛研究院副院長(zhǎng)。2003年本科畢業(yè)于中國(guó)科技大學(xué)，2008年博士畢業(yè)于中科院自動(dòng)化所，長(zhǎng)期從事語(yǔ)音、語(yǔ)言、人工智能方向研究，主持的語(yǔ)音評(píng)測(cè)技術(shù)國(guó)內(nèi)首次應(yīng)用大規(guī)模英語(yǔ)口語(yǔ)考試，主持的機(jī)器翻譯曾兩次獲國(guó)際比賽第一名。作為主要負(fù)責(zé)人參加了863計(jì)劃重點(diǎn)項(xiàng)目、工信部電子信息產(chǎn)業(yè)發(fā)展基金項(xiàng)目等項(xiàng)目，在相關(guān)國(guó)際會(huì)議和期刊上有多篇學(xué)術(shù)論文，擁有十幾項(xiàng)專利和軟件著作權(quán)。

雷鋒網(wǎng)對(duì)采訪全文做了不改變?cè)獾膭h減：

一、語(yǔ)音識(shí)別和自然語(yǔ)言處理

語(yǔ)音識(shí)別

雷鋒網(wǎng)：科大訊飛在語(yǔ)音識(shí)別方面有什么進(jìn)展？

王士進(jìn)：語(yǔ)音合成方面，我們從去年年底開(kāi)始發(fā)力，利用深度學(xué)習(xí)的方法實(shí)現(xiàn)了新一代的合成系統(tǒng)。現(xiàn)在，只需要目標(biāo)用戶半個(gè)小時(shí)到一個(gè)小時(shí)左右的錄音，就可以合成這個(gè)人的聲音，并且自然度非常高。

語(yǔ)音識(shí)別方面，訊飛正面向IOT領(lǐng)域積極拓展。在IOT時(shí)代，面向復(fù)雜場(chǎng)景的語(yǔ)音識(shí)別是一個(gè)非常重要的點(diǎn)。我們?cè)诔掷m(xù)優(yōu)化車(chē)載環(huán)境、家居環(huán)境里面語(yǔ)音識(shí)別效果。

同時(shí)，“訊飛聽(tīng)見(jiàn)”系統(tǒng)里面向?qū)崟r(shí)會(huì)議和演講同傳的效果也有了更進(jìn)一步的升級(jí)。第一個(gè)就是轉(zhuǎn)寫(xiě)的準(zhǔn)確率在持續(xù)提升，第二個(gè)，我們會(huì)結(jié)合訊飛口語(yǔ)翻譯的技術(shù)，實(shí)現(xiàn)會(huì)場(chǎng)演講的多語(yǔ)種同傳。

雷鋒網(wǎng)：訊飛語(yǔ)音識(shí)別的準(zhǔn)確率已經(jīng)做到什么程度了？

王士進(jìn)：語(yǔ)音識(shí)別準(zhǔn)確率跟場(chǎng)景和任務(wù)的關(guān)系非常大。如果說(shuō)具體的數(shù)字，其實(shí)可能并不太客觀，比如在手機(jī)APP的場(chǎng)景里面，我們可以實(shí)現(xiàn)97%的準(zhǔn)確率。像會(huì)議速錄這種場(chǎng)景，我們也能達(dá)到95%的準(zhǔn)確率。

雷鋒網(wǎng)：如何再繼續(xù)提升？

王士進(jìn)：要解決這個(gè)問(wèn)題，我覺(jué)得可能取決于以下幾點(diǎn)：

第一點(diǎn)，從語(yǔ)音模型建模的角度來(lái)說(shuō)，怎么使得模型更精確？一方面是數(shù)據(jù)，一方面是模型算法。所以我們還在持續(xù)迭代中，原來(lái)我們只使用有監(jiān)督的數(shù)據(jù)，相當(dāng)于是人工標(biāo)注的數(shù)據(jù)，這塊數(shù)據(jù)始終是有限的，現(xiàn)在我們?cè)诳紤]怎么使用大量無(wú)監(jiān)督的數(shù)據(jù)去輔助有監(jiān)督的數(shù)據(jù)，使得這種模型更加精確。

第二點(diǎn)，從語(yǔ)言和語(yǔ)義出發(fā)。比如有一些識(shí)別錯(cuò)誤，我們?nèi)艘谎劬椭肋@個(gè)地方是錯(cuò)的，錯(cuò)在什么地方。所以我們現(xiàn)在希望把自然語(yǔ)言處理技術(shù)和領(lǐng)域知識(shí)相結(jié)合。比如說(shuō)，如果提前知道這是一個(gè)教育相關(guān)的會(huì)議，那么怎樣結(jié)合跟教育領(lǐng)域相關(guān)的知識(shí)，使得語(yǔ)音識(shí)別的一些錯(cuò)誤可以通過(guò)知識(shí)和模型進(jìn)行修正。

自然語(yǔ)言處理

雷鋒網(wǎng)：自然語(yǔ)言處理（NLP）這一塊呢？

王士進(jìn)：NLP方面，訊飛從2014年開(kāi)始提出“訊飛超腦計(jì)劃”，同時(shí)我們?cè)?015年承擔(dān)科技部863的高考類人答題項(xiàng)目。在NLP這塊，我們主要在做包括語(yǔ)言理解、知識(shí)表達(dá)、聯(lián)想推理、以及自主學(xué)習(xí)方面的相關(guān)工作。

在NLP里面，其中一個(gè)工作是關(guān)于知識(shí)的構(gòu)建和表示，我們參加了NIST KBP的比賽并獲得了第一名，第二個(gè)工作是現(xiàn)在業(yè)界認(rèn)為比較難的常識(shí)表示，我們提出了深度聯(lián)想模型，并參加了第一屆winograd比賽，獲得了第一名。

第三個(gè)工作：知識(shí)圖譜構(gòu)建以后，如何為精準(zhǔn)的問(wèn)答去做幫助？我們最近在做一個(gè)非常重要的課題，叫機(jī)器閱讀理解，給定一篇或者幾篇文章，對(duì)于這里面的任何一個(gè)問(wèn)題，機(jī)器要能夠給出精準(zhǔn)的問(wèn)答。

以上是我們?cè)谧匀徽Z(yǔ)言技術(shù)上面做的一些工作。

雷鋒網(wǎng)：自然語(yǔ)言處理這塊，您覺(jué)得它主要的難點(diǎn)是什么？

王士進(jìn)：自然語(yǔ)言最大的處理難點(diǎn)就是來(lái)自于它的歧義，怎么去消除歧義，在于如何引入知識(shí)和表示知識(shí)，這塊是我們正在積極探索的。

雷鋒網(wǎng)：會(huì)采用哪些最新的技術(shù)去解決這些問(wèn)題？

王士進(jìn)：技術(shù)的話主要是以下幾點(diǎn)：

第一點(diǎn)就是語(yǔ)言的深度語(yǔ)義表示。以前我們?cè)谧匀徽Z(yǔ)言處理時(shí)經(jīng)常用到詞表，通過(guò)詞表去區(qū)分不同的詞和語(yǔ)義。原來(lái)離散表示最大的問(wèn)題就在于詞跟詞之間的語(yǔ)義它會(huì)表示不出來(lái)，現(xiàn)在通過(guò)深度學(xué)習(xí)產(chǎn)生的Word Embedding，其實(shí)上就是語(yǔ)義矢量，能更好的表示詞，這是現(xiàn)在NLP中一個(gè)核心的技術(shù)。
在獲得語(yǔ)義矢量之后，可以更精準(zhǔn)的去做知識(shí)的表示、推理等任務(wù)。比如，我們?cè)瓉?lái)的推理其實(shí)更多是符號(hào)層面的一些推理。符號(hào)層面的推理有一個(gè)非常大的問(wèn)題：由于歧義和知識(shí)沒(méi)辦法表達(dá)，所以說(shuō)這種推理總是有限的。但是我們現(xiàn)在用深度語(yǔ)義，使得這個(gè)問(wèn)題有了被解決的可能。語(yǔ)義矢量表示為基礎(chǔ)的自然語(yǔ)言處理框架，使得NLP領(lǐng)域很有可能會(huì)實(shí)現(xiàn)非常大的一個(gè)突破。

語(yǔ)音助手

雷鋒網(wǎng)：科大訊飛的語(yǔ)音助手做的怎么樣？

王士進(jìn)：訊飛在四年前就開(kāi)始布局語(yǔ)音助手，和咪咕數(shù)媒一起推出的咪咕靈犀經(jīng)過(guò)幾年的發(fā)展已經(jīng)在本土語(yǔ)音助手排名第一（注：易觀國(guó)際數(shù)據(jù)），并且訊飛有非常大的一個(gè)團(tuán)隊(duì)在做人機(jī)交互，也就是我們的AIUI系統(tǒng)。我們認(rèn)為這里面需要有幾個(gè)核心功能：

第一個(gè)核心功能跟語(yǔ)音識(shí)別效果相關(guān)。我們?cè)谥悄芗揖拥沫h(huán)境里，在車(chē)載的環(huán)境里，在其他很多的場(chǎng)景里都在持續(xù)優(yōu)化語(yǔ)音識(shí)別的能力。

第二個(gè)就是語(yǔ)義糾錯(cuò)和語(yǔ)義理解功能。語(yǔ)音識(shí)別變成文字這只是第一步，第二步是怎樣結(jié)合知識(shí)、常識(shí)，怎樣結(jié)合上下文，去對(duì)用戶的內(nèi)容作出更精確的理解，并對(duì)錯(cuò)誤進(jìn)行糾正。

但是這里目前有一個(gè)悖論，因?yàn)閺挠脩舻慕嵌葋?lái)說(shuō)，他們希望的是一個(gè)無(wú)所不能的助手，但是從現(xiàn)代技術(shù)的角度來(lái)看，我們?cè)谝恍┐怪钡念I(lǐng)域和場(chǎng)景才能做到實(shí)用。

第三個(gè)就是多輪對(duì)話。多輪對(duì)話其實(shí)更多地也是結(jié)合上下文和垂直場(chǎng)景，以此在垂直場(chǎng)景里面打造完全一個(gè)可以更智能的助手。

雷鋒網(wǎng)：做語(yǔ)音助手的難點(diǎn)在哪兒？怎樣看待其他的語(yǔ)音助手？

王士進(jìn)：首先語(yǔ)音助手從提出理念到現(xiàn)在，其實(shí)已經(jīng)經(jīng)過(guò)了幾代。

最早第一代是以功能性為主，比如說(shuō)撥打電話，發(fā)短信，類似這樣的一些基礎(chǔ)功能。大家發(fā)現(xiàn)，這里面可能還會(huì)有一些問(wèn)題，它并不是人用手機(jī)的剛需，因?yàn)闊o(wú)論是電話也好，短信也好，基本上用觸控的方式已經(jīng)很方便了，特別是蘋(píng)果手機(jī)出來(lái)了以后，所以說(shuō)它不是一個(gè)剛需。

再者，當(dāng)時(shí)那個(gè)年代，語(yǔ)音交互并不是一個(gè)普遍被接受的模式，我們很少看到有人用，因?yàn)榇蠹铱傆X(jué)得語(yǔ)音是一個(gè)相對(duì)比較私密的事情，所以很少有人在公共場(chǎng)合下面去用語(yǔ)音跟機(jī)器做交互。

第二代，包括訊飛在內(nèi)，很多語(yǔ)音助手都引入了閑聊，后續(xù)的微軟小冰等采取的其實(shí)也是這樣的策略，使得很多人愿意去調(diào)戲語(yǔ)音助手，這個(gè)概念也火了一段時(shí)間。雖然里面也有一些簡(jiǎn)單的知識(shí)問(wèn)答，但更多的是以閑聊為主。

現(xiàn)在則是第三代，經(jīng)過(guò)前兩輪的思考以后，用戶對(duì)語(yǔ)音助手有什么樣的期望呢？我們認(rèn)為，在語(yǔ)音識(shí)別、視覺(jué)識(shí)別準(zhǔn)確率已經(jīng)這么高的情況下，現(xiàn)在的語(yǔ)音助手可以以任務(wù)為中心，協(xié)助人在一些垂直場(chǎng)景里面，去做一些更真實(shí)的應(yīng)用。

我們AIUI系統(tǒng)的多輪對(duì)話，其實(shí)也是想圍繞任務(wù)為中心，通過(guò)這種多輪的人機(jī)交互的形式，無(wú)論是人還是機(jī)器發(fā)起，滿足用戶的一些真實(shí)需求。

雷鋒網(wǎng)：以任務(wù)為中心的，像一個(gè)個(gè)APP那樣？

王士進(jìn)：對(duì)，類似于一個(gè)APP的功能。亞馬遜的Echo為什么這么火？因?yàn)閬嗰R遜把垂直領(lǐng)域擴(kuò)展的功能開(kāi)放出來(lái)了，APP開(kāi)發(fā)商、服務(wù)廠家能夠定制自己的服務(wù)，使得亞馬遜這個(gè)龐大的平臺(tái)可以承載越來(lái)越多的功能，所以我覺(jué)得這是大家都非常認(rèn)可的最核心的一點(diǎn)。

雷鋒網(wǎng)：訊飛在車(chē)載語(yǔ)音助手方面的進(jìn)展如何呢？難點(diǎn)在哪？

王士進(jìn)：車(chē)載這塊訊飛進(jìn)入的更早，因?yàn)檐?chē)載離產(chǎn)業(yè)更近一點(diǎn)，這種交互方式也更剛需一點(diǎn)。

車(chē)載方面，訊飛主要側(cè)重兩點(diǎn)：

第一點(diǎn)，識(shí)別效果，在車(chē)載情況下，怎么把語(yǔ)音識(shí)別做好。車(chē)載噪聲太大，包括風(fēng)噪、胎噪等，對(duì)識(shí)別會(huì)造成很大的影響。
第二點(diǎn)，怎樣在車(chē)載的幾個(gè)垂直場(chǎng)景下把交互做到好用？包括導(dǎo)航、音樂(lè)等幾個(gè)主要的功能。其實(shí)，更多的還是面向車(chē)載里面的幾個(gè)主要應(yīng)用場(chǎng)景做優(yōu)化。

智能音箱

雷鋒網(wǎng)：有人認(rèn)為智能音箱在中國(guó)其實(shí)是個(gè)偽命題，您覺(jué)得它的前景如何？

王士進(jìn)：我認(rèn)為帶引號(hào)的智能音箱一定是剛需，什么意思呢？將來(lái)智能家居一定會(huì)有一個(gè)中控來(lái)解決這個(gè)問(wèn)題，但是不是音箱，是不是不帶屏幕的音箱？這個(gè)還不好說(shuō)。現(xiàn)在業(yè)內(nèi)也并沒(méi)有一致的意見(jiàn)，如果有一致意見(jiàn)的話，也就不會(huì)有各種形態(tài)的類似產(chǎn)品推出來(lái)了。

雷鋒網(wǎng)：智能音箱會(huì)成為智能家居的中心嗎？

王士進(jìn)：其實(shí)這個(gè)事情大家都不太好判斷，大家首先覺(jué)得將來(lái)家居一定會(huì)有一個(gè)中控系統(tǒng)對(duì)吧？這個(gè)中控系統(tǒng)可能有幾種類型。

一種就是現(xiàn)在大家所說(shuō)的以音箱為中心，至少現(xiàn)在很多廠家都已經(jīng)在做這一方面的東西了。還有一種可能是以彩電為中心，它也有一個(gè)好處，除了語(yǔ)音交互，它還有視覺(jué)的交互。也有人認(rèn)為，家庭智能網(wǎng)關(guān)是交互的中心，因?yàn)榧依锼杏布ヂ?lián)可能都要通過(guò)一個(gè)網(wǎng)關(guān)。

但我覺(jué)得這個(gè)可能更多是讓用戶和市場(chǎng)進(jìn)行選擇，不管是哪種類型的設(shè)備，大家都覺(jué)得使用便捷的人機(jī)交互做承載是一個(gè)趨勢(shì)。

雷鋒網(wǎng)：亞馬遜的Alexa Skills是一個(gè)趨勢(shì)嗎？訊飛未來(lái)會(huì)不會(huì)做自己的技能商店？

王士進(jìn)：Alexa的技能商店從長(zhǎng)遠(yuǎn)來(lái)看是一個(gè)趨勢(shì)，訊飛現(xiàn)在通過(guò)訊飛開(kāi)放云，把我們的能力開(kāi)放出來(lái)，通過(guò)眾多的合作伙伴去構(gòu)建這種技能商店。

在智能家居場(chǎng)景中，可能大家都在各個(gè)垂直領(lǐng)域去做各種類型的嘗試，因?yàn)楝F(xiàn)在的技術(shù)沒(méi)辦法做成通用的服務(wù)。通過(guò)一段時(shí)間技術(shù)和資源的沉淀之后，我們可以提供更通用的服務(wù)，構(gòu)建一個(gè)更好的生態(tài)。

雷鋒網(wǎng)：帶觸控屏的Echo Show會(huì)是未來(lái)的一個(gè)趨勢(shì)呢？其他廠商會(huì)跟隨嗎？

王士進(jìn)：其實(shí)我覺(jué)得這個(gè)也并不一定。從屏幕趨勢(shì)來(lái)講，我認(rèn)為有兩個(gè)趨勢(shì)，

第一個(gè)趨勢(shì)就是所有的設(shè)備可以把屏投到家電的大屏上去，而不一定要在Echo上面做一個(gè)多大的屏幕，家里存在很多有屏設(shè)備。
第二，在無(wú)屏的場(chǎng)景，我們也可以通過(guò)VR/AR等技術(shù)來(lái)展示內(nèi)容。

機(jī)器轉(zhuǎn)錄

雷鋒網(wǎng)：機(jī)器轉(zhuǎn)錄跟人工轉(zhuǎn)錄的差別還是很大的，為什么會(huì)出現(xiàn)這樣的情況？它的難點(diǎn)在哪兒？如何解決？

王士進(jìn)：語(yǔ)音識(shí)別有傳統(tǒng)的兩個(gè)分類，一個(gè)是聽(tīng)寫(xiě)，一個(gè)是轉(zhuǎn)寫(xiě)。

聽(tīng)寫(xiě)很簡(jiǎn)單，因?yàn)椋?tīng)寫(xiě)的時(shí)候）我知道是在跟機(jī)器溝通，所以無(wú)論是講話的語(yǔ)速，講話的流暢程度，還是語(yǔ)言表述方式，我都會(huì)去配合機(jī)器?，F(xiàn)在大家號(hào)稱語(yǔ)音識(shí)別的準(zhǔn)確率在95%以上的，基本上都是在這種場(chǎng)景下，因?yàn)槿藭?huì)去配合機(jī)器。

但現(xiàn)實(shí)中其實(shí)更多的是正常交流這種場(chǎng)景，這里面會(huì)有哪些比較大的問(wèn)題呢？首先，噪聲是比較大的問(wèn)題。其次，一些方言的夾雜，甚至多語(yǔ)種的夾雜，比如很多人在講中文的時(shí)候會(huì)講英文，這也一個(gè)問(wèn)題。

除此之外，還有不流利的現(xiàn)象存在。一個(gè)相當(dāng)于讀新聞，一個(gè)是口語(yǔ)交流，兩者不太一樣。其實(shí)我們?nèi)烁酥g交流，有些東西要用到語(yǔ)意和上下文的信息，才能夠使理解更加準(zhǔn)確。

由于這幾種類型問(wèn)題的存在，使得機(jī)器在轉(zhuǎn)寫(xiě)的時(shí)候，效果跟聽(tīng)寫(xiě)會(huì)有一些比較大的差距，而且最早的時(shí)候差距是非常大的。所以說(shuō)大家可以看到，其實(shí)語(yǔ)音識(shí)別最早在聽(tīng)寫(xiě)里邊應(yīng)用的比較好。但是在轉(zhuǎn)寫(xiě)里面，之前一直沒(méi)有廠家敢做這方面的嘗試，這塊我們訊飛也是在2015年的時(shí)候，大幅提升了這個(gè)技術(shù)的水平。

那會(huì)兒我們把識(shí)別率能夠做到接近90%左右，90%基本上大家就能看。但是，90%距離我們真正最后轉(zhuǎn)寫(xiě)，還有10%。10%感覺(jué)好象比較少，但其實(shí)仍然有很大的影響。

現(xiàn)在這種使用人機(jī)輔助的場(chǎng)景，已經(jīng)比之前的那個(gè)好很多了，我們現(xiàn)在能做到95%左右的水平，可以讓人更高效地錄入信息。

雷鋒網(wǎng)：機(jī)器轉(zhuǎn)錄未來(lái)能夠完全取代速記員嗎？

王士進(jìn)：從長(zhǎng)期來(lái)看，無(wú)論是語(yǔ)音識(shí)別也好，機(jī)器識(shí)別也好，它都是概率體系。概率體系下，它要完全取代人，從目前來(lái)看，這里面可能是有些困難問(wèn)題的。

我們跟行業(yè)結(jié)合，也做了各種各樣的東西，我們希望它跟人可以形成一個(gè)有效的人機(jī)協(xié)同，使得人可以更高效的完成某項(xiàng)工作。

機(jī)器翻譯

雷鋒網(wǎng)：訊飛的機(jī)器翻譯和谷歌翻譯相比如何？

王士進(jìn)：訊飛主要是著重把自己的機(jī)器翻譯的能力跟語(yǔ)音識(shí)別的能力綁定的比較深，所以我們主要是側(cè)重于口語(yǔ)翻譯，包括我們?nèi)粘＝涣鳌⒊鰢?guó)旅游的場(chǎng)景，還有會(huì)議轉(zhuǎn)錄的場(chǎng)景。在這些場(chǎng)景下，我們的效果比谷歌要好很多。谷歌最擅長(zhǎng)的是把一種語(yǔ)言的能力擴(kuò)展成非常多的語(yǔ)言能力上面去。

訊飛翻譯支持的語(yǔ)言其實(shí)并不太多，所以我們要做一個(gè)語(yǔ)言翻譯，就會(huì)想在一個(gè)語(yǔ)言上把它做好。所以在同樣的數(shù)據(jù)下，理論上我們的效果一定會(huì)比谷歌強(qiáng)。

雷鋒網(wǎng)：機(jī)器翻譯準(zhǔn)確率提升的難點(diǎn)在哪兒？未來(lái)有可能完全取代人工翻譯嗎？

王士進(jìn)：翻譯涉及到語(yǔ)言和語(yǔ)義，難度比識(shí)別會(huì)更大一點(diǎn)，比如翻譯一個(gè)句子，不同的上下文可能使得整個(gè)句子的表述都不太一樣。

從這個(gè)翻譯技術(shù)上來(lái)講，雖然說(shuō)大家用了很多神經(jīng)網(wǎng)絡(luò)相關(guān)的技術(shù)，但其實(shí)語(yǔ)義理解的并不是那么深刻的。現(xiàn)在主流的是end-to-end技術(shù)，它本身就是一個(gè)黑箱技術(shù)，通過(guò)大量數(shù)據(jù)的學(xué)習(xí)實(shí)現(xiàn)翻譯的能力。

從精度上來(lái)看是有一些提升，在大部分場(chǎng)景里面，可能已經(jīng)滿足了大部分用戶的需求，比如你要去國(guó)外做一些簡(jiǎn)單的溝通，只要是非商務(wù)的，用現(xiàn)在口譯軟件，基本也能解決問(wèn)題了。但是怎樣做更精準(zhǔn)的回答，怎樣做到雅，目前來(lái)說(shuō)，技術(shù)上還存在一些困難的。

雷鋒網(wǎng)：未來(lái)有什么提升的辦法？

王士進(jìn)：還在探索的階段，比如有些人在研究通過(guò)深度學(xué)習(xí)構(gòu)建更精準(zhǔn)的語(yǔ)義表示，有些人研究更準(zhǔn)確的翻譯模型，還有人研究深度學(xué)習(xí)模型跟傳統(tǒng)知識(shí)模型的結(jié)合等。

機(jī)器口語(yǔ)評(píng)分

雷鋒網(wǎng)：對(duì)英語(yǔ)口語(yǔ)評(píng)分的產(chǎn)品做的怎么樣了？

王士進(jìn)：訊飛的口語(yǔ)評(píng)測(cè)已經(jīng)產(chǎn)品化了。我們最早是從2009年開(kāi)始研究口語(yǔ)評(píng)測(cè)，像朗讀、或者讀單詞，讀句子、讀篇章這種類型的封閉式體型，是比較好評(píng)的。最關(guān)鍵就是看音準(zhǔn)好不好？有沒(méi)有讀？然后從這個(gè)封閉式題型擴(kuò)展到開(kāi)放式題型，設(shè)立很多自然語(yǔ)言相關(guān)的技術(shù)，使用這些技術(shù)機(jī)器去做主觀題型的自動(dòng)評(píng)分。

我們現(xiàn)在口語(yǔ)的自動(dòng)評(píng)分技術(shù)，在廣東省的高考、江蘇的中考以及全國(guó)多個(gè)省市地區(qū)的英語(yǔ)口語(yǔ)考試都有應(yīng)用。

雷鋒網(wǎng)：怎樣實(shí)現(xiàn)對(duì)英語(yǔ)口語(yǔ)考試進(jìn)行評(píng)分？

王士進(jìn)：這個(gè)分封閉式題型和開(kāi)放式題型。對(duì)于封閉式題型，機(jī)器主要提取口語(yǔ)的幾個(gè)主要特征，包括完整度、發(fā)音準(zhǔn)確度、流利度、韻律等，然后使用學(xué)習(xí)到的參數(shù)去進(jìn)行評(píng)分。對(duì)于開(kāi)放式題型（主觀題），除了剛提到的那些特征，機(jī)器還要去學(xué)習(xí)評(píng)分專家的語(yǔ)義知識(shí)。機(jī)器會(huì)要求專家一起先確定一下評(píng)分標(biāo)準(zhǔn)，同時(shí)按照這個(gè)標(biāo)準(zhǔn)可能要試評(píng)標(biāo)桿卷，然后機(jī)器就從這里面去學(xué)習(xí)人是怎么評(píng)分的。

我們知道不同的考試評(píng)分標(biāo)準(zhǔn)是不太一樣的。機(jī)器會(huì)自動(dòng)學(xué)習(xí)優(yōu)秀老師對(duì)這些標(biāo)桿卷的評(píng)分，從而形成評(píng)分的標(biāo)準(zhǔn)模型，然后拿這個(gè)評(píng)分模型對(duì)剩下的試卷進(jìn)行評(píng)分。

雷鋒網(wǎng)：判斷用戶的發(fā)音是不是標(biāo)準(zhǔn)，給出發(fā)音建議，訊飛用了什么技術(shù)？

王士進(jìn)：關(guān)于語(yǔ)音是否標(biāo)準(zhǔn)，訊飛在最早做漢語(yǔ)水平等級(jí)測(cè)試的時(shí)候就已經(jīng)開(kāi)始研究，這個(gè)技術(shù)叫CALL（注：Computer-assisted language learning，計(jì)算機(jī)輔助口語(yǔ)學(xué)習(xí) ，核心是發(fā)音評(píng)測(cè)技術(shù)），訊飛在漢語(yǔ)和英語(yǔ)的評(píng)分上做了很多研究工作，包括判斷發(fā)音是否準(zhǔn)確、是否流利、韻律是否準(zhǔn)確等。

二、計(jì)算機(jī)視覺(jué)

雷鋒網(wǎng)：訊飛從什么時(shí)候開(kāi)始做計(jì)算機(jī)視覺(jué)的，為什么會(huì)做計(jì)算機(jī)視覺(jué)？

王士進(jìn)：應(yīng)該是從2010年左右開(kāi)始做的?，F(xiàn)在在深度學(xué)習(xí)發(fā)展起來(lái)后，語(yǔ)音所要用到的底層的技術(shù)和圖像所要用到的底層技術(shù)，可以說(shuō)是非常接近的。為了完善訊飛整個(gè)感知智能系統(tǒng)，同時(shí)也因?yàn)闃I(yè)務(wù)的需求，訊飛開(kāi)始做機(jī)器視覺(jué)，主要研究?jī)?nèi)容包括人臉識(shí)別和醫(yī)學(xué)圖像處理。

雷鋒網(wǎng)：語(yǔ)音和視覺(jué)，得哪個(gè)更有前景一些？?jī)烧呶磥?lái)能否結(jié)合起來(lái)？

王士進(jìn)：首先從前景來(lái)說(shuō)，兩個(gè)的市場(chǎng)都特別大。從結(jié)合上來(lái)說(shuō)，可結(jié)合的地方很多，比如說(shuō)我們所謂的智能安防里面，怎么去結(jié)合人臉識(shí)別和語(yǔ)音識(shí)別共同去做各種類型的檢測(cè)。身份認(rèn)證方面，也有基于人臉和聲紋的共同的身份認(rèn)證。

雷鋒網(wǎng)：訊飛在醫(yī)療領(lǐng)域有做了哪些工作？

王士進(jìn)：訊飛在智能醫(yī)療這塊主要有三條路：

第一條路就是通過(guò)智能語(yǔ)音方便醫(yī)生實(shí)現(xiàn)電子病例的錄入；
第二條路就是基于視覺(jué)的輔助讀片；
第三個(gè)是基于醫(yī)療認(rèn)知協(xié)助醫(yī)生做輔助診療，有點(diǎn)像IBM的沃森。

此外，我們還做了醫(yī)考機(jī)器人，會(huì)閱讀大量醫(yī)學(xué)的知識(shí)，包括醫(yī)生診療的方案，以及大量的醫(yī)學(xué)書(shū)籍，從而形成一個(gè)相當(dāng)于是醫(yī)療認(rèn)知的大腦，這樣就可以針對(duì)病情自動(dòng)形成一些治療的方案。

雷鋒網(wǎng)：在醫(yī)療領(lǐng)域遇到了哪些困難？

王士進(jìn)：目前做智慧醫(yī)療，最大的問(wèn)題可能來(lái)自于數(shù)據(jù)，也就是電子病例。第一，醫(yī)療數(shù)據(jù)更隱私，怎么合理、合法地采集和獲取到這些數(shù)據(jù)，目前來(lái)說(shuō)還是有困難的。第二，醫(yī)療數(shù)據(jù)像一個(gè)個(gè)孤島，沒(méi)有連接起來(lái)，其實(shí)這也跟隱私有關(guān)系，不同的醫(yī)院之間，可能會(huì)存在信息孤島，一般不會(huì)打通。

三、未來(lái)突破和應(yīng)用

雷鋒網(wǎng)：跟谷歌、亞馬遜、BAT等巨頭相比，訊飛的人工智能技術(shù)如何？

王士進(jìn)：總體來(lái)看，各公司都是圍繞自己優(yōu)勢(shì)的業(yè)務(wù)領(lǐng)域布局人工智能，我覺(jué)得訊飛相比于谷歌等巨頭：

第一點(diǎn)，訊飛其實(shí)在很多相關(guān)的業(yè)務(wù)廠家里面，相對(duì)做的更深一些；
第二點(diǎn)，因?yàn)橛嶏w在行業(yè)里面扎的比較深，而且更懂行業(yè)，所以訊飛能夠把這個(gè)技術(shù)組合用好，為行業(yè)提供完整的一個(gè)解決方案。

比如一些互聯(lián)網(wǎng)公司，它們可能更多的是提供一些通用的基礎(chǔ)的產(chǎn)品和技術(shù)，類似于搭積木，有可能用上這個(gè)積木以后，在行業(yè)也有不錯(cuò)的效果，但是訊飛專注做相關(guān)場(chǎng)景，所以我們是希望在每個(gè)應(yīng)用場(chǎng)景里面，能夠把效果做到極致。

雷鋒網(wǎng)：最近有沒(méi)有用到什么最新的技術(shù)或者算法？

王士進(jìn)：目前比較新的一些，我覺(jué)得可能是以下幾點(diǎn)：

第一點(diǎn)實(shí)際上是對(duì)一些傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型（包括RNN、CNN）的持續(xù)優(yōu)化。
第二點(diǎn)就是無(wú)監(jiān)督的學(xué)習(xí)，包括剛才提到的GAN相關(guān)的東西，以及基于GAN各種擴(kuò)展的算法，這個(gè)其實(shí)用的還是蠻多的。

雷鋒網(wǎng)：未來(lái)還有哪些突破的點(diǎn)？

王士進(jìn)：我個(gè)人覺(jué)得是兩點(diǎn)：

第一點(diǎn)，到了IOT時(shí)代以后，這種交互場(chǎng)景一定是更復(fù)雜的，在這種復(fù)雜情況下，怎樣做到更好的語(yǔ)音識(shí)別？我們認(rèn)為，未來(lái)需要軟硬件結(jié)合的整體解決方案。如果只通過(guò)軟件的話，它的很多的信號(hào)疊加以后，噪聲就已經(jīng)形成了，就沒(méi)辦法了。如果通過(guò)這種硬件，比如說(shuō)麥克風(fēng)陣列或者其他一些方法的話，就可以在信號(hào)層面可以做更多的一些處理，有可能會(huì)使語(yǔ)音識(shí)別效果更好。
第二點(diǎn)，因?yàn)楝F(xiàn)在自然語(yǔ)言處理技術(shù)，本身也在突飛猛進(jìn)，怎樣使用更多自然語(yǔ)言的技術(shù)去協(xié)助做好語(yǔ)言理解，這個(gè)應(yīng)該也是一個(gè)突破點(diǎn)。比如我們一個(gè)個(gè)領(lǐng)域，或者一個(gè)個(gè)垂直場(chǎng)景，逐個(gè)突破，從而慢慢形成知識(shí)的積累，使得機(jī)器未來(lái)有可能與更多的、更通用的場(chǎng)景做結(jié)合。

同時(shí)，怎樣圍繞不同行業(yè)的特點(diǎn)去形成一個(gè)整體解決方案，并且能夠解決真正的問(wèn)題，我覺(jué)得這也是下一個(gè)階段要做的一個(gè)重點(diǎn)。

雷鋒網(wǎng)：未來(lái)人工智能有哪些落地場(chǎng)景？

王士進(jìn)：從行業(yè)和產(chǎn)品結(jié)合來(lái)說(shuō)，我們認(rèn)為人工智能，其實(shí)有兩大落地的場(chǎng)景：

第一個(gè)就是使用語(yǔ)音技術(shù)和自然語(yǔ)言的技術(shù)，使得我們?nèi)藱C(jī)的溝通更便捷，可以實(shí)現(xiàn)接近人與人之間的溝通效果?，F(xiàn)在的智能家居、車(chē)載、手機(jī)交互都是這類場(chǎng)景。
第二個(gè)就是使用將語(yǔ)音技術(shù)、圖像技術(shù)、自然語(yǔ)言的技術(shù)組合起來(lái)，跟行業(yè)進(jìn)行深度的結(jié)合，學(xué)習(xí)行業(yè)領(lǐng)域的專家知識(shí)，來(lái)解決行業(yè)里面一些經(jīng)典的問(wèn)題。

比如說(shuō)教育領(lǐng)域，就可以采用認(rèn)知智能技術(shù)，使得它可以學(xué)習(xí)優(yōu)秀老師的評(píng)分經(jīng)驗(yàn)，可以對(duì)主觀題進(jìn)行自動(dòng)評(píng)價(jià)，可以對(duì)它口語(yǔ)的內(nèi)容進(jìn)行自動(dòng)評(píng)價(jià)。同時(shí)，我們能夠采集學(xué)生的過(guò)程化數(shù)據(jù)，能夠知道這個(gè)學(xué)生精準(zhǔn)的畫(huà)像，然后就可以向他精準(zhǔn)推薦自適應(yīng)學(xué)習(xí)素材。

比如說(shuō)，在司法領(lǐng)域里面，我們?cè)诟罡叻ㄔ汉献?，通過(guò)自然語(yǔ)言處理技術(shù)做輔助量刑。智慧醫(yī)療這塊，我們也在使用智能語(yǔ)音、智能圖像、還有認(rèn)知技術(shù)，輔助醫(yī)生來(lái)做病情診斷。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。