阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

本文作者：老王

2017-01-05 20:15

導(dǎo)語：阿里云 AI 專家陳一寧給語音識別產(chǎn)品和行業(yè)潑了三盆冷水。

雷鋒網(wǎng)按：近日，阿里云人工智能專家陳一寧在 2016 云棲大會惠州峰會中給語音識別和語音交互領(lǐng)域潑了三盆冷水，陳一寧的觀點(diǎn)如下：

眾多公司對外宣稱其語音識別率多高多高，但嚴(yán)格意義上講這只能叫做在“在××數(shù)據(jù)集上的識別率”。而且語音識別和交互應(yīng)緊緊與應(yīng)用場景相結(jié)合，而在具體的相應(yīng)場景中，識別率往往會受到很大的影響。
現(xiàn)在智能語音交互硬件產(chǎn)品往往存在外觀差、語音交互不智能等問題。
相關(guān)創(chuàng)業(yè)公司商業(yè)模式不清晰，做出偽需求產(chǎn)品、產(chǎn)品解決問題的能力有限。有 To VC 的嫌疑。

隨后，陳一寧從計(jì)算方案、聲學(xué)模型和產(chǎn)品落地三大方向解讀語音識別技術(shù)和語音交互的項(xiàng)目解決方案，由雷鋒網(wǎng)根據(jù)陳一寧演講進(jìn)行編輯。

2016 年各家公司均公布自家的語音識別率已達(dá)到 97%，除此之外，智能硬件也層出不窮。其次，做聊天集成的公司，去年從只有幾家、十幾家，到今年已經(jīng)達(dá)到上百家。然而市場上各個(gè)公司的質(zhì)量卻良莠不齊。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

給語音市場潑盆冷水

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

從三個(gè)方向潑冷水：

識別率真有數(shù)字所寫的那么準(zhǔn)嗎？
語音交互硬件產(chǎn)品外觀差、語音交互不智能。
To VC 式的創(chuàng)業(yè)方式：商業(yè)模式不清晰，偽需求產(chǎn)品、產(chǎn)品能解決的問題有限等。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

語音識別率這塊著重提及一下。識別率一般是這么定義的，100% 錯(cuò)誤率比較好理解。而錯(cuò)誤率分三種，替代、刪除和插入。錯(cuò)誤這個(gè)詞如果把他識別成錯(cuò)誤率了，實(shí)際上沒有替代錯(cuò)誤。這里有一個(gè)插入錯(cuò)誤，這個(gè)地方會有一個(gè)特點(diǎn)，實(shí)際上錯(cuò)誤率是可以小于 1 或者小于 0 的。這里強(qiáng)調(diào)一點(diǎn)，識別率的全稱一般是在某某數(shù)據(jù)級上測了一次，統(tǒng)計(jì)之后有了識別率。我可以負(fù)責(zé)任的說，任給我一個(gè)語音識別系統(tǒng)，我都可以找一個(gè)測試集讓他的識別率是負(fù)的，都不用說這個(gè)識別率是 0。

任給一個(gè)語音識別系統(tǒng)我都可以做到，大家都可以很容易試，很多時(shí)候錯(cuò)的比對的都多。我們更多是要看還有哪些問題是不能解決的，應(yīng)該扎扎實(shí)實(shí)的去看，哪個(gè)任務(wù)上我們的識別率做到什么程度了，那這個(gè)任務(wù)上我們到底還有什么空間可以改進(jìn)。

實(shí)際上語音識別是一個(gè)強(qiáng)場景化的技術(shù)，而脫離場景談識別率，那就是耍流氓。因?yàn)楦鞣N各樣的情況，都會嚴(yán)重影響識別率的變化。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

嚴(yán)重影響識別率的第一個(gè)因素是環(huán)境和設(shè)備。如錄音設(shè)備是什么？距離有多遠(yuǎn)？環(huán)境是安靜的還是嘈雜的？大家在看演示的時(shí)候，我是跟大家說“噓…，大家現(xiàn)在小聲一點(diǎn)，我開始做演示了”，還是說這個(gè)環(huán)境是發(fā)生在一個(gè)嘈雜的咖啡館里面，比如在咖啡館里做一個(gè)采訪，可能在飯館里頭，這個(gè)識別率是會有天差地別。

第二個(gè)影響因素是友好度。這其中包括口音、說話的方式、吐字不清以及語種、方言等等。另外所識別內(nèi)容所處的領(lǐng)域也非常關(guān)鍵，如科技領(lǐng)域和醫(yī)療領(lǐng)域之間是有很大區(qū)別的，因?yàn)檫@兩個(gè)領(lǐng)域上專業(yè)名詞有非常大的差別。

阿里云 ET 語音識別系統(tǒng)

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

這些問題都在提示我們要找哪些人去做，怎么去解決，而不是說我們拿出一些識別率的數(shù)字來說話。傳統(tǒng)意義上有兩種解決方式：一種是歸一化方式，另外一種是增加 Variance 的方式。以噪聲為例，比如我們把噪聲去掉；第二種是說既然要解決有噪聲情況下的語音識別問題，我們就要刻意制造一些噪聲到數(shù)據(jù)里面，讓模型去“接觸”所有的噪聲。就跟人類一樣，學(xué)過就知道，沒學(xué)就不知道。通過這樣的方式解決問題。雷鋒網(wǎng)

阿里巴巴 CTO 王堅(jiān)博士這樣總結(jié)：阿里云語音技術(shù)的突破，在于我們充分利用了云計(jì)算和大數(shù)據(jù)平臺的能力，在不到兩年的時(shí)間，完成了通常需要 20 年或者更長時(shí)間積累的工作，構(gòu)建出強(qiáng)大的基于模型、數(shù)據(jù)和計(jì)算能力的學(xué)習(xí)系統(tǒng)。

接下來，我會分三個(gè)事情分別講一下解決問題的技術(shù)方案。

一、計(jì)算方案

先談?wù)動(dòng)?jì)算。計(jì)算通常分為兩部分：離線計(jì)算和在線計(jì)算。

離線計(jì)算

離線計(jì)算在深度學(xué)習(xí)領(lǐng)域里通常使用 GPU 較多，阿里利用基于 GPU 多機(jī)多卡的一種中間件，使得任何單機(jī)的深度學(xué)習(xí)模型，通過非常小的修改就可以自動(dòng)做到在一個(gè)多機(jī)多卡集群上去跑。

從下圖可以了解到，這里有分布式存儲，有 GPU 集群，上面的所有東西均是通過 Max Compute 平臺來做 CPU 集群混合管理，上面包含各種通訊、控制、數(shù)據(jù)分發(fā)、輔助組件，這套組件可以使得運(yùn)算速度變得非?？?，非常靈活。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

GPU 和 CPU 各有優(yōu)缺點(diǎn)，GPU 計(jì)算能力更強(qiáng)，而 CPU 更靈活、數(shù)據(jù)存儲更好。我們通過交換機(jī)把他們完整的聯(lián)合在一起，用 Max Compute 做混合管理，使得數(shù)據(jù)可以在 GPU 和 CPU 之間任意流動(dòng)，讓數(shù)據(jù)流變得很通暢?，F(xiàn)在業(yè)界的常見情況是，通過深度學(xué)習(xí)算法本身讓速度變快，但現(xiàn)實(shí)是一個(gè)系統(tǒng)項(xiàng)目不能只靠深度學(xué)習(xí)，因?yàn)樯舷掠我磺袞|西都有可能導(dǎo)致整個(gè)流程變慢，深度學(xué)習(xí)并不能解決所有問題。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

而通過 CPU 和 GPU 混合管理，就可以避免這些情況的發(fā)生。

在線計(jì)算

剛我們提到，脫離領(lǐng)域、脫離場景談在線計(jì)算本身就是耍流氓。實(shí)際上因?yàn)槲覀兊募軜?gòu)，可以對每一個(gè)租戶提供自己的模型，然后在每個(gè)租戶之上，我們還可對這些租戶的每個(gè)用戶提供模型。

舉一個(gè)例子，這里的領(lǐng)域模型可以指的是類似法院的模型、醫(yī)療的模型、金融的模型等等。租戶的模型可能是說不同的法院模型。再往上的話，每審一個(gè)案子都可以有不同的設(shè)計(jì)，案子里到底原告是誰？被告是誰？這樣的信息都可以加到模型里，使得這個(gè)識別率變得非常準(zhǔn)確，否則這些人名是不可能事先被知道的。這種框架使得環(huán)境變得非常的好。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

數(shù)據(jù)

阿里云的數(shù)據(jù)主要為電話數(shù)據(jù)、App 數(shù)據(jù)、電商數(shù)據(jù)和搜索數(shù)據(jù)。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

電話數(shù)據(jù)即大量客戶打電話進(jìn)來，我們收集的這些語音數(shù)據(jù)。其次阿里擁有眾多 App，App 的語音交互也會產(chǎn)生語音數(shù)據(jù)。電商就不用提了，阿里有自己全網(wǎng)搜索。所有這些數(shù)據(jù)合在一起，構(gòu)成阿里云很大的數(shù)據(jù)池。這些數(shù)據(jù)池通過各種“脫敏”，去掉一些真正跟用戶相關(guān)的信息，然后就進(jìn)入我們的整個(gè)訓(xùn)練流里，使得我們最終的社會識別率變得非常的好。

二、聲學(xué)模型

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

在模型層面，阿里云做了一些獨(dú)特的工作。這個(gè)是比較常見的（英文 13：10）的混合的聲頻模型，實(shí)際上是阿里云第一個(gè)把這個(gè)技術(shù)投入到真實(shí)的生產(chǎn)環(huán)境中去。大家知道技術(shù)從寫出來到做出來是有很大的差異。第二個(gè)事情是很多技術(shù)我們在解碼器上面做很多的工作。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

上圖中，左邊是每個(gè)子的單元，這個(gè)地方有意思的是，大家看到最左邊有一個(gè)叫遺忘，每個(gè)東西是人神經(jīng)網(wǎng)絡(luò)記憶的單元，這個(gè)網(wǎng)絡(luò)不僅能學(xué)會記憶，也能學(xué)會遺忘。如果永遠(yuǎn)不遺忘的話，網(wǎng)絡(luò)會不斷記錄所有內(nèi)容，最終逐步膨脹，直到網(wǎng)絡(luò)爆炸掉。我們添加遺忘功能就是讓它在該遺忘的時(shí)候遺忘，不該遺忘的時(shí)候不遺忘。與此同時(shí)，大家看到右邊閉合的地方是雙向的，它知道收的話，從前往后是有關(guān)系的，那從后往前也是有聯(lián)系的。所以說，雙向的網(wǎng)絡(luò)可以使得識別率會有進(jìn)一步的提升。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

當(dāng)然，雙向既有優(yōu)點(diǎn)也有缺點(diǎn)。因?yàn)樽R別的時(shí)候是單向的，如果成為雙向的話，需要拿到后面的信息。實(shí)際上不可能在這一時(shí)刻拿到后面的信息，那此時(shí)就需要做一個(gè)延時(shí)，然后后面再識別回來。該技術(shù)通過一些數(shù)據(jù)的推導(dǎo)，證明說后面實(shí)際不用那么長，只需一小段，就可以達(dá)到與前面一樣好的效果，讓延時(shí)變得非?？煽?，而非直到結(jié)束才能得到一個(gè)很好的結(jié)果。

下圖是比較傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型，右邊是混合的，先有三層的BLSTM的模型，再錄了兩層 DN 模型，從而達(dá)到一個(gè)非常好的效果。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

高速解碼器

剛才講的實(shí)際上是一個(gè)離線的過程，學(xué)術(shù)界和工業(yè)界最大的差異不在于離線的的訓(xùn)練，因?yàn)殡x線的訓(xùn)練，即便有時(shí)候跑得慢一點(diǎn)也能跑得出來。但是在線就不一樣了，在線如果跑得慢的話，就無法投入工業(yè)生產(chǎn)，會有很大延時(shí)。就像我們在大會上做語音識別轉(zhuǎn)寫如果有延時(shí)，講完一句話后十秒鐘才出來就沒法看了。所以這個(gè)地方最重要的是能夠做一個(gè)在線解碼，解碼器實(shí)際上就是說把實(shí)時(shí)的聲音進(jìn)來，并能實(shí)時(shí)轉(zhuǎn)出去。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

實(shí)際上業(yè)界有很多的想法，即到底用 CPU 做、GPU 做還是用 FPGA 去做？其實(shí)這個(gè)地方要做到通用性和效率的平衡。通用性可以使得整個(gè)體系的靈活性和效率達(dá)到最優(yōu)。我們在 FPGA 上做一些非常個(gè)性化的東西，有時(shí)候似乎有一些好處，但是實(shí)際上它帶來的問題會使通用性變差，最終在部署上會帶來更多問題。所以我們最終在解碼上選擇了最通用性的方式，采用了 CPU 的方案，同時(shí)我們與英特爾有過很多合作，在 CPU 上得到極大的提速。

下面這個(gè)技術(shù)是我們最近研發(fā)出來的 Low-Frame-Rate 的技術(shù)，這項(xiàng)技術(shù)實(shí)際上是個(gè)很有意思的想法。最傳統(tǒng)的語音識別會把一秒鐘切為一百幀，每一幀去做解碼的過程。現(xiàn)在 Low-Frame-Rate 技術(shù)并不是這樣去做，因?yàn)槿祟惵犅曇粢矝]必要聽得那么細(xì)才能知道語音是什么。因此我們把幀數(shù)的跨度變成三倍，通過三倍的跳楨，使得整個(gè)速度變成原來三倍。這樣 Low-Frame-Rate 的 TM 模型可以使得我們在單臺 CPU 的機(jī)器上達(dá)到上百線的處理能力。

三、應(yīng)用場景和產(chǎn)品落地

智能硬件

其實(shí)阿里云在智能硬件這塊，更多的是跟云 OS 或者跟一些合作伙伴來做。

其實(shí)阿里云更多提供底層技術(shù)，在消費(fèi)級產(chǎn)品實(shí)際落地方面則會跟上面業(yè)務(wù)方做合作。軟銀 Pepper 機(jī)器人跟阿里云合作做了一些工作，利用語音技術(shù)可以做到遠(yuǎn)程喚醒和交互。但是它的交互除了眨眼、轉(zhuǎn)動(dòng)，轉(zhuǎn)頭、走路外，很多交互表現(xiàn)在它胸口的屏幕上。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

智能硬件需要想到一些剛需的場景切入，包括對機(jī)器人、車機(jī)、音箱等等。在國內(nèi)，對智能音箱的需求不是很高，但是車機(jī)方向確是一塊越來越有價(jià)值的市場。

問答平臺

后來阿里云也進(jìn)行了 Bot 實(shí)踐，阿里云做了自己的 Bot ET 問答平臺。該問答平臺會我們提供給合作伙伴，讓他們?yōu)橛脩羧ソ⒆约旱膯柎饳C(jī)器人。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

除了一個(gè)問答機(jī)器人本身以外，我們這個(gè)系統(tǒng)可以讓用戶去根據(jù)用戶場景去設(shè)定他的自己的對話管理，并且可以把各種知識庫、問答對、表格等等知識庫輸入到系統(tǒng)里面去。同時(shí)閉環(huán)的流程可以通過用戶反饋，對數(shù)據(jù)進(jìn)行糾正。因?yàn)橹R庫大了一定會出現(xiàn)各種各樣的問題，而人在沒有輔助的情況下基本上不大可能一遍寫對。

阿里云AI專家陳一寧：別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋

為了解決這一問題，阿里做了很多解決沖突的工具去查找問題。數(shù)據(jù)回流時(shí)系統(tǒng)就可知道到底在問什么，通過各種各樣的方式，包括自定義可使得真正做得比較好用的機(jī)器人。但是這件事情上，阿里云有一個(gè)確定的點(diǎn)，其做這件事情不是為了代替，而是希望把有限的人力投入到幾個(gè)真正最難解決的問題上去把一些機(jī)械的事情，通過機(jī)器去把他干掉。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。