2
本文作者: 亞萌 | 2016-11-16 17:09 | 專題:微軟亞洲研究院院友會 |
11 月 14 日,微軟亞洲研究院迎來了18周年的紀念日,并宣布成立微軟亞洲研究院院友會。來自阿里巴巴的初敏博士為大家?guī)砹嗣麨椤墩Z音交互-物聯(lián)網(wǎng)時代的入口》的演講,她認為語音交互成為風口的主要原因是數(shù)據(jù)驅動和廣泛的硬件端接口的布局,阿里云 ET 在雙十一的字幕表現(xiàn)并不理想,主要是因為現(xiàn)場環(huán)境十分復雜,而自然語言理解是后續(xù)做好語音交互的關鍵所在。
(初敏博士)
以下為初敏博士演講摘錄。
我最好的年齡和時間就是在 MSRA 里度過的。其實在 MSRA 最后兩年沒有再做語音,因為當時的感覺就是世界發(fā)生了天翻地覆的變化,但是跟語音沒關系,所以后來就轉向做大數(shù)據(jù)之類的事情。
后來到了阿里也幾乎沒有做語音,一直到了 2014 年底,阿里才開始要做語音。所以做的時間并不長,但這次有一個大的不一樣的感覺:誒,這次好像真的是到風口上了?,F(xiàn)在的數(shù)據(jù)、計算能力跟之前非常不一樣,有很多的語音的需要和應用場景。
我今天不會太多地講技術,會主要講一些應用場景及在應用中碰到的困難。
今天為什么人工智能、深度學習這一塊能火起來,主要是因為今天有“數(shù)據(jù)驅動”:數(shù)據(jù)和計算能力的增強,使得我們可以在很多方面做得精細。
另外就是,入口在變化。今天手機已經(jīng)幾乎能夠處理 PC 做的事情,另外家里的汽車、音箱、電視等設備,也成為新的入口。我們在不同設備之間切換,語音會成為這些設備最好的交互方式,因為它是最方便的、最自然的交互方式。
語音的概念在改變,傳統(tǒng)講語音,指的就是語音合成、語音識別等。如今的語音,一定是一個泛概念,一定包含著后續(xù)的自然語言處理。如果一句話被你識別出來做出文字內容,但你理解不了這些文字包含的內容,其實后續(xù)很多事情都是做不了的。
語音交互有兩個層面可以做,一個是在操作系統(tǒng)底層做,可以跨設備使用;另外就只是一個 API,任何一個 App 都可以調用。
我們阿里這邊,最近的展示阿里云 ET,它其實是代表了各種人工智能技術的集合。而人類能與阿里云 ET 真正互動起來,其實是靠語音。
前兩天雙十一晚會有一個變魔術的節(jié)目,其實是非常困難的,因為它是直播。我們做下來最大的體驗就是:真的想用,還是很不容易的。
現(xiàn)場一堆問題,我們要對接 10 多個團隊,音頻信號團隊、視頻信號團隊、導演彩排等,我們到最后一次彩排都是出問題的。
我們當時也打了字幕,我個人認為當天的字幕并不理想,因為日程緊張,主持人語速很快,這就是很大的挑戰(zhàn)。
雙十一當晚,我們在媒體中心的活動上也打了字幕,這個字幕效果就好很多。我們后來統(tǒng)計這一場的錯誤率大概 3% 左右,其實就是因為這一場的環(huán)境簡單。
所以我們到今天也還在思考:這個真的能用了嗎?如何把這樣一個看似很成熟的技術,能在各種真實的場景中應用起來,這還是一個系統(tǒng)工程的事情。
打字幕這個功能,我們目前真正在用的場景就是法院,快速形成庭審的速記稿。這在浙江的高等法院已經(jīng)部署了,這個反應是比較好的。以前法官為了要讓書記員記下來,他是要控制節(jié)奏的,而且速記員在記得過程中也要篩減內容。在庭審的幾場演示中,基本都可以做到 95-96% 的準確率,這就很能用了,而且稿子都是法官原汁原味講出來的。
有了云的平臺架構的基礎之后,任何一個端接進來,最主要的挑戰(zhàn)都是端上語音信號的采集和處理。
我們語音的一個應用就是:個人助理。我們在 YunOS 操作系統(tǒng)上做了個人助理,另外還包括汽車里的。汽車里還是要解決降噪的問題,我們最近做的事情就是,開著車窗、播著音樂,如何在這樣的環(huán)境下讓系統(tǒng)可以喚醒地很好。因為我們測試的汽車上只有一個麥克風,主駕駛和副駕駛上的人說話是不一樣的,一個人抬著頭和低著頭說話是不一樣的,所以在接入的時候會有很多很多這樣細節(jié)的問題。
另外還有應用的直達。以支付寶為例,這個 App 里有很多小的功能,你想找一個事情是很痛苦的。我們做了一個稱為“Open Dialogue”的小架構,業(yè)務方在這個基礎之上自己去開發(fā)一些簡單的理解。比如用戶對著手機說“我要給某某轉賬多少錢”,那么就會直接加載出這么一個轉賬的界面。這樣用戶就不用在各種界面里選,我覺得這將是語音給我們帶來的最大價值:在有太多選擇的時候,用說話就能觸達到我要的那個點。
但要做到這一點,背后的技術就不僅僅是識別,而是你如何快速地接入任何一個場景。因為你換一個 App,你說的話就是不一樣的,語義理解上要覆蓋的 Domain 是不一樣的。這里的挑戰(zhàn)就是你要怎樣建立一個可擴展的的架構,讓任何一個新的業(yè)務、新的 Domain 來快速地接入。
我們還有一個嘗試領域就是客服。中國目前的客服很多都是打電話,然后按很多數(shù)字選項才能接入到你想要的客服選項。這當中其實有很多數(shù)據(jù)是可以沉淀下來的,沉淀下來之后就可以進行學習。
在客服系統(tǒng)中分為幾個部分,一個部分就是語音識別,把語音轉為文字,另一個就是問題的分類,分類到兩個地方,一個是機器人自助的服務(常規(guī)的、簡潔的資詢類問題),一個是人工服務,來解決更復雜的問題。
阿里集團的客服,基本上走的是這個路子:90% 的客服請求,基本都是機器處理掉的。
這個過程中,電話被文字化,數(shù)據(jù)會不斷地沉淀下來,有很多價值待發(fā)掘。一個就是質檢客服質量,這其實是一個剛需,還有就是用來發(fā)掘用戶喜歡什么樣的產(chǎn)品。
我們如今很難做到一個通用的模型,來適應不同的場景。數(shù)據(jù)先驗的分布,跟你所定義的場景有關。讓一個模型快速適應不同的場景,這是現(xiàn)在最大的挑戰(zhàn)。
不同的應用場景,需要技術手段是不一樣的。比如我們最常見的,問個天氣、酒店、航班等信息,他是很結構化的 Domain,針對特定的 Domain 做,是很容易的。
但用戶不會遵循 Domain 說話,他會跳來跳去,那難點就是,上下文當中哪些信息該繼承,哪些信息不該繼承。
另外,在客服的過程中,如何把用戶的幾萬條語義計算出來,認為它們是相同的,這也是難點。傳統(tǒng)是用搜索的方法來做,但搜索只是擊中了幾個關鍵詞,有時經(jīng)常會答非所問。
所以我們覺得人機交互往后最大的瓶頸可能就是在這個地方,就是自然語言處理是否能做的更好。
我們今天的團隊任務很集中,只做了語言的交互,并沒有做數(shù)據(jù)本身,因為做數(shù)據(jù)這個工程實在是太大了。所以要把很多的數(shù)據(jù)服務接進來,但是有時這些數(shù)據(jù)與語音接入的時候,并不是很友好,這是一個需要改進的地方。
所以這一盤,如果要做通的話,是一個非常大的范圍,也不是一個兩個團隊自己能做完的,要靠生態(tài)來完成。
延伸閱讀:
徐一華首揭真相:中國做工業(yè)機器人的沒有哪家是賺錢的 | 微軟亞洲研究院院友會
凌海濱:未來AR要實現(xiàn)非平面的識別和跟蹤 | 微軟亞洲研究院院友會
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。