阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

本文作者：亞萌

2016-11-16 17:09

導(dǎo)語：微軟亞洲研究院院友會上，阿里云iDST初敏博士介紹了阿里云語音技術(shù)應(yīng)用場景及在應(yīng)用中碰到的困難。

11 月 14 日，微軟亞洲研究院迎來了18周年的紀(jì)念日，并宣布成立微軟亞洲研究院院友會。來自阿里巴巴的初敏博士為大家?guī)砹嗣麨椤墩Z音交互-物聯(lián)網(wǎng)時代的入口》的演講，她認(rèn)為語音交互成為風(fēng)口的主要原因是數(shù)據(jù)驅(qū)動和廣泛的硬件端接口的布局，阿里云 ET 在雙十一的字幕表現(xiàn)并不理想，主要是因?yàn)楝F(xiàn)場環(huán)境十分復(fù)雜，而自然語言理解是后續(xù)做好語音交互的關(guān)鍵所在。

(初敏博士)

以下為初敏博士演講摘錄。

我最好的年齡和時間就是在 MSRA 里度過的。其實(shí)在 MSRA 最后兩年沒有再做語音，因?yàn)楫?dāng)時的感覺就是世界發(fā)生了天翻地覆的變化，但是跟語音沒關(guān)系，所以后來就轉(zhuǎn)向做大數(shù)據(jù)之類的事情。

后來到了阿里也幾乎沒有做語音，一直到了 2014 年底，阿里才開始要做語音。所以做的時間并不長，但這次有一個大的不一樣的感覺：誒，這次好像真的是到風(fēng)口上了?，F(xiàn)在的數(shù)據(jù)、計算能力跟之前非常不一樣，有很多的語音的需要和應(yīng)用場景。

我今天不會太多地講技術(shù)，會主要講一些應(yīng)用場景及在應(yīng)用中碰到的困難。

為什么語音火起來了：數(shù)據(jù)驅(qū)動和廣泛的接口

今天為什么人工智能、深度學(xué)習(xí)這一塊能火起來，主要是因?yàn)榻裉煊小皵?shù)據(jù)驅(qū)動”：數(shù)據(jù)和計算能力的增強(qiáng)，使得我們可以在很多方面做得精細(xì)。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

另外就是，入口在變化。今天手機(jī)已經(jīng)幾乎能夠處理 PC 做的事情，另外家里的汽車、音箱、電視等設(shè)備，也成為新的入口。我們在不同設(shè)備之間切換，語音會成為這些設(shè)備最好的交互方式，因?yàn)樗亲罘奖愕?、最自然的交互方式?/span>

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

語音的概念在改變，傳統(tǒng)講語音，指的就是語音合成、語音識別等。如今的語音，一定是一個泛概念，一定包含著后續(xù)的自然語言處理。如果一句話被你識別出來做出文字內(nèi)容，但你理解不了這些文字包含的內(nèi)容，其實(shí)后續(xù)很多事情都是做不了的。

語音交互有兩個層面可以做，一個是在操作系統(tǒng)底層做，可以跨設(shè)備使用；另外就只是一個 API，任何一個 App 都可以調(diào)用。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

阿里云 ET 在雙十一：字幕并不理想

我們阿里這邊，最近的展示阿里云 ET，它其實(shí)是代表了各種人工智能技術(shù)的集合。而人類能與阿里云 ET 真正互動起來，其實(shí)是靠語音。

前兩天雙十一晚會有一個變魔術(shù)的節(jié)目，其實(shí)是非常困難的，因?yàn)樗侵辈?。我們做下來最大的體驗(yàn)就是：真的想用，還是很不容易的。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

現(xiàn)場一堆問題，我們要對接 10 多個團(tuán)隊(duì)，音頻信號團(tuán)隊(duì)、視頻信號團(tuán)隊(duì)、導(dǎo)演彩排等，我們到最后一次彩排都是出問題的。

我們當(dāng)時也打了字幕，我個人認(rèn)為當(dāng)天的字幕并不理想，因?yàn)槿粘叹o張，主持人語速很快，這就是很大的挑戰(zhàn)。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

雙十一當(dāng)晚，我們在媒體中心的活動上也打了字幕，這個字幕效果就好很多。我們后來統(tǒng)計這一場的錯誤率大概 3% 左右，其實(shí)就是因?yàn)檫@一場的環(huán)境簡單。

所以我們到今天也還在思考：這個真的能用了嗎？如何把這樣一個看似很成熟的技術(shù)，能在各種真實(shí)的場景中應(yīng)用起來，這還是一個系統(tǒng)工程的事情。

打字幕這個功能，我們目前真正在用的場景就是法院，快速形成庭審的速記稿。這在浙江的高等法院已經(jīng)部署了，這個反應(yīng)是比較好的。以前法官為了要讓書記員記下來，他是要控制節(jié)奏的，而且速記員在記得過程中也要篩減內(nèi)容。在庭審的幾場演示中，基本都可以做到 95-96% 的準(zhǔn)確率，這就很能用了，而且稿子都是法官原汁原味講出來的。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

最大的挑戰(zhàn)：端語音信號處理

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

有了云的平臺架構(gòu)的基礎(chǔ)之后，任何一個端接進(jìn)來，最主要的挑戰(zhàn)都是端上語音信號的采集和處理。

我們語音的一個應(yīng)用就是：個人助理。我們在 YunOS 操作系統(tǒng)上做了個人助理，另外還包括汽車?yán)锏摹Ｆ嚴(yán)镞€是要解決降噪的問題，我們最近做的事情就是，開著車窗、播著音樂，如何在這樣的環(huán)境下讓系統(tǒng)可以喚醒地很好。因?yàn)槲覀儨y試的汽車上只有一個麥克風(fēng)，主駕駛和副駕駛上的人說話是不一樣的，一個人抬著頭和低著頭說話是不一樣的，所以在接入的時候會有很多很多這樣細(xì)節(jié)的問題。

另外還有應(yīng)用的直達(dá)。以支付寶為例，這個 App 里有很多小的功能，你想找一個事情是很痛苦的。我們做了一個稱為“Open Dialogue”的小架構(gòu)，業(yè)務(wù)方在這個基礎(chǔ)之上自己去開發(fā)一些簡單的理解。比如用戶對著手機(jī)說“我要給某某轉(zhuǎn)賬多少錢”，那么就會直接加載出這么一個轉(zhuǎn)賬的界面。這樣用戶就不用在各種界面里選，我覺得這將是語音給我們帶來的最大價值：在有太多選擇的時候，用說話就能觸達(dá)到我要的那個點(diǎn)。

但要做到這一點(diǎn)，背后的技術(shù)就不僅僅是識別，而是你如何快速地接入任何一個場景。因?yàn)槟銚Q一個 App，你說的話就是不一樣的，語義理解上要覆蓋的 Domain 是不一樣的。這里的挑戰(zhàn)就是你要怎樣建立一個可擴(kuò)展的的架構(gòu)，讓任何一個新的業(yè)務(wù)、新的 Domain 來快速地接入。

我們還有一個嘗試領(lǐng)域就是客服。中國目前的客服很多都是打電話，然后按很多數(shù)字選項(xiàng)才能接入到你想要的客服選項(xiàng)。這當(dāng)中其實(shí)有很多數(shù)據(jù)是可以沉淀下來的，沉淀下來之后就可以進(jìn)行學(xué)習(xí)。

在客服系統(tǒng)中分為幾個部分，一個部分就是語音識別，把語音轉(zhuǎn)為文字，另一個就是問題的分類，分類到兩個地方，一個是機(jī)器人自助的服務(wù)（常規(guī)的、簡潔的資詢類問題），一個是人工服務(wù)，來解決更復(fù)雜的問題。

阿里集團(tuán)的客服，基本上走的是這個路子：90% 的客服請求，基本都是機(jī)器處理掉的。

這個過程中，電話被文字化，數(shù)據(jù)會不斷地沉淀下來，有很多價值待發(fā)掘。一個就是質(zhì)檢客服質(zhì)量，這其實(shí)是一個剛需，還有就是用來發(fā)掘用戶喜歡什么樣的產(chǎn)品。

我們?nèi)缃窈茈y做到一個通用的模型，來適應(yīng)不同的場景。數(shù)據(jù)先驗(yàn)的分布，跟你所定義的場景有關(guān)。讓一個模型快速適應(yīng)不同的場景，這是現(xiàn)在最大的挑戰(zhàn)。

做好語音的瓶頸: 自然語言理解

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

不同的應(yīng)用場景，需要技術(shù)手段是不一樣的。比如我們最常見的，問個天氣、酒店、航班等信息，他是很結(jié)構(gòu)化的 Domain，針對特定的 Domain 做，是很容易的。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會

但用戶不會遵循 Domain 說話，他會跳來跳去，那難點(diǎn)就是，上下文當(dāng)中哪些信息該繼承，哪些信息不該繼承。

另外，在客服的過程中，如何把用戶的幾萬條語義計算出來，認(rèn)為它們是相同的，這也是難點(diǎn)。傳統(tǒng)是用搜索的方法來做，但搜索只是擊中了幾個關(guān)鍵詞，有時經(jīng)常會答非所問。

所以我們覺得人機(jī)交互往后最大的瓶頸可能就是在這個地方，就是自然語言處理是否能做的更好。

我們今天的團(tuán)隊(duì)任務(wù)很集中，只做了語言的交互，并沒有做數(shù)據(jù)本身，因?yàn)樽鰯?shù)據(jù)這個工程實(shí)在是太大了。所以要把很多的數(shù)據(jù)服務(wù)接進(jìn)來，但是有時這些數(shù)據(jù)與語音接入的時候，并不是很友好，這是一個需要改進(jìn)的地方。

阿里云初敏：語音目前表現(xiàn)理不理想，最大挑戰(zhàn)在端信號處理 | 微軟亞洲研究院院友會