2
本文作者: 陳孝良 | 2016-12-05 12:17 |
雷鋒網(wǎng)按:本文作者陳孝良,工學(xué)博士,聲智科技創(chuàng)始人。雷鋒網(wǎng)獨(dú)家文章。
11月30號,亞馬遜的AWS發(fā)布了三項(xiàng)人工智能技術(shù)服務(wù):Amazon Rekognition,Amazon Polly和Amazon Lex。其中,除了Amazon Rekognition屬于圖像識別技術(shù),其他兩項(xiàng)服務(wù)都是語音交互的鏈條。Amazon Polly 利用機(jī)器學(xué)習(xí)技術(shù),能夠快速實(shí)現(xiàn)從文本到語音的轉(zhuǎn)換。Amazon Lex 就是亞馬遜的人工智能助手 Alexa 的內(nèi)核,而 Alexa 已經(jīng)被應(yīng)用于亞馬遜的 Echo 系列智能音箱。
根據(jù)AWS服務(wù)網(wǎng)頁的示例展示和實(shí)際調(diào)用,Polly 的發(fā)音與人聲已經(jīng)非常相像,很多時候已經(jīng)很難分辨機(jī)器與人聲的界限。不僅如此,Polly 還能夠按照語境對同形異義詞的發(fā)音進(jìn)行區(qū)分,比如說,在 “I live in Seattle” 和 “Live from New York” 這兩個不同的語境下,單詞 “Live” 的發(fā)音是不同的,而 Polly 在發(fā)音過程中就能夠很好把握它們之間的區(qū)別。Amazon Polly 共擁有 47 種男性或女性的發(fā)音,支持 24 種語言,遺憾的是目前還不支持漢語。
相對Amazon的節(jié)奏,Google似乎慢了許多,早在9月初,Google的DeepMind實(shí)驗(yàn)室公布了其在語音合成領(lǐng)域的最新成果WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻質(zhì)量優(yōu)于目前常用的語音合成方法,包括參數(shù)化合成(Parameric TTS)與拼接式合成(Concatenative TTS)。
參數(shù)化語音合成是最常用也是歷史最悠久的方法,就是利用數(shù)學(xué)模型對已知的聲音進(jìn)行排列、組裝成詞語或句子來重新創(chuàng)造聲音數(shù)據(jù)。當(dāng)前機(jī)器人的發(fā)音主要就是采用的這種方法,不過參數(shù)化合成的語音聽起來總是不自然,真的就像機(jī)器發(fā)出的聲音。
另外一種就是拼接式語音合成,先錄制單一說話者的大量語音片段,建立一個大型語料庫,然后簡單地從中進(jìn)行選擇并合成完整的大段音頻、詞語和句子。我們有時會聽到機(jī)器模仿某些明星的聲音,其背后技術(shù)就是這種方法。但是這種方法要求語料庫非常大,而且處理不好就經(jīng)常產(chǎn)生語音毛刺和語調(diào)的詭異變化,并且無法調(diào)整語音的抑揚(yáng)頓挫。
WaveNet則引入了一種全新的思路,區(qū)別于上面兩種方法,這是一種從零開始創(chuàng)造整個音頻波形輸出的技術(shù)。WaveNet利用真實(shí)的人類聲音剪輯和相應(yīng)的語言、語音特征來訓(xùn)練其卷積神經(jīng)網(wǎng)絡(luò),讓其能夠辨別語音和語言的模式。WaveNet的效果是驚人的,其輸出的音頻明顯更接近自然人聲。
WaveNet技術(shù)無疑是計(jì)算機(jī)語音合成領(lǐng)域的一大突破,在業(yè)界也引起了廣泛討論。但是其最大缺點(diǎn)就是計(jì)算量太大,而且還存在很多工程化問題。但是短短3個多月,亞馬遜就已經(jīng)憑借Echo的數(shù)據(jù)和技術(shù)的快速迭代,搶先將類似的技術(shù)應(yīng)用到產(chǎn)品之中,而且正式開放給AWS用戶進(jìn)行使用和測試。
更為重要的是,亞馬遜同步正式開放了Amazon Lex的服務(wù),Lex 能夠幫助用戶建立可以進(jìn)行多重步驟的會話應(yīng)用,開發(fā)者可以通過它來打造自己的聊天機(jī)器人,并將其集成到自己開發(fā)的 Web 網(wǎng)頁應(yīng)用或適用于移動端的 App 中去。它也可以被應(yīng)用于提供信息、增強(qiáng)程序功能,甚至用來控制無人機(jī)、機(jī)器人或玩具等。
這就很有意思了,從下面一張語音交互的技術(shù)鏈條來梳理一下亞馬遜的策略。亞馬遜首先從語音識別公司 Nuance 挖了一批人才,2011年又收購了兩家語音技術(shù)創(chuàng)業(yè)公司 Yap 和 Evi,實(shí)現(xiàn)了語音識別的技術(shù)布局。隨后啟動了適應(yīng)遠(yuǎn)場語音交互Echo產(chǎn)品的研發(fā)工作,并在2015年和2016年成為了最成功的智能硬件產(chǎn)品。Echo產(chǎn)品幫助亞馬遜實(shí)現(xiàn)了以麥克風(fēng)陣列為核心技術(shù)的硬件終端技術(shù)的布局。這兩項(xiàng)技術(shù)的布局積累,幫助亞馬遜快速發(fā)展,其語音助手團(tuán)隊(duì)快速拓展到千人規(guī)模,憑借龐大的數(shù)據(jù)和深厚的人才積累,亞馬遜在智能交互領(lǐng)域持續(xù)發(fā)力,擁有更好體驗(yàn)的TTS和NLP也實(shí)現(xiàn)了快速迭代,奠定了亞馬遜在智能語音交互應(yīng)用領(lǐng)域的領(lǐng)先地位。
事實(shí)上,從今年下半年語音交互市場的突然爆發(fā),幾乎每隔一個多月,語音交互的效果都會出現(xiàn)較大的提升。那么為何語音交互技術(shù)的迭代會如此迅速?可以從下面幾點(diǎn)來窺得一斑:
1、 語音交互技術(shù)鏈條的成熟
深度學(xué)習(xí)帶給了語音識別巨大的進(jìn)步,但是以Siri為代表的手機(jī)語音交互一直不溫不火,直到Echo和車載這類智能設(shè)備的出現(xiàn),語音識別才突破手機(jī)的限制,真正落地到真實(shí)的垂直場景。這個轉(zhuǎn)變不僅僅是場景的轉(zhuǎn)變?nèi)绱撕唵?,?shí)際上這從認(rèn)知和技術(shù)上都是一個巨大的變化。真實(shí)場景的語音識別面向的是真正用戶,因此能否滿足用戶需求就是一個關(guān)鍵問題。當(dāng)前的用戶對于人工智能的要求其實(shí)并不高,而是希望確實(shí)能夠解決一些具體問題,但是顯然通用的語音交互總是伴隨著智慧的概念,根本就無法做到令用戶滿意。因此語音交互的落地首先就要考慮是否能夠先服務(wù)好用戶,這是一個關(guān)鍵的認(rèn)知變化,而且基于這種認(rèn)知,語音交互的免費(fèi)策略似乎就不重要了,用戶更為關(guān)注的是性能而非低價。另外一點(diǎn)就是技術(shù)鏈條的成熟,語音識別從手機(jī)轉(zhuǎn)向垂直場景,需要解決遠(yuǎn)場語音識別和場景語言理解的問題,亞馬遜率先解決了這些問題,國內(nèi)科大訊飛和聲智科技也隨后補(bǔ)齊了這個鏈條。目前來看,智能語音交互的技術(shù)鏈條趨于成熟,已經(jīng)不存在較大的障礙。
2、 真實(shí)場景數(shù)據(jù)規(guī)模的擴(kuò)大
隨著Echo的熱賣,對于場景交互尤為重要的真實(shí)數(shù)據(jù)急劇增加,原先訓(xùn)練可能只有幾千或者幾萬個小時,但是亞馬遜已經(jīng)從已售設(shè)備中獲取了幾千萬的數(shù)據(jù),而當(dāng)前的訓(xùn)練已經(jīng)是十萬級數(shù)據(jù)的規(guī)模,將來百萬級的數(shù)據(jù)訓(xùn)練也會出現(xiàn)。事實(shí)上,這些龐大的數(shù)據(jù)中囊括了用戶時間長度和空間維度的信息,這是手機(jī)時代絕對做不到的,從這些豐富信息之中,即便簡單搜索提升的效果都是驚人的。
3、 云端計(jì)算能力的不斷提高
擁有了龐大的數(shù)據(jù)量,自然就急需要計(jì)算能力的不斷提升,前幾天Intel召開發(fā)布會,雷鋒網(wǎng)現(xiàn)場也做了直播,CPU和GPU的綜合計(jì)算能力再次提升了20多倍,這相當(dāng)于原先需要訓(xùn)練20天的數(shù)據(jù),現(xiàn)在可能不到1天就能完成,這是語音交互產(chǎn)業(yè)鏈條的根本性保證。
4、 深度學(xué)習(xí)人才聚集的效應(yīng)
技術(shù)、數(shù)據(jù)、計(jì)算鏈條的相對完善,核心還需要人才的驅(qū)動,而隨著人工智能的熱潮,不斷有更多相關(guān)人才從科院機(jī)構(gòu)和院校走出來加入這個行業(yè)。創(chuàng)業(yè)公司的競爭是可怕的,這群大牛才華橫溢,卻沒日沒夜的拼搏,其效率提升到其他任何時代可能都難以匹及的程度。
總之,智能語音交互這個鏈條已經(jīng)具備了大規(guī)模普及的基礎(chǔ),等待的只是用戶習(xí)慣的改變,而這種改變正在逐步發(fā)生??深A(yù)見的幾年,語音交互應(yīng)該相對于其他人工智能技術(shù),應(yīng)該是最先落地的一種技術(shù),而且其迭代的速度可能會超過我們的預(yù)期。但是語音交互仍然還有很多問題需要解決,包括終端技術(shù)的低功耗和集成化、語音識別的場景化和一體化,以及語言理解的準(zhǔn)確性和引導(dǎo)性。
未來幾年,智能語音交互的迭代至少還要解決如下幾個問題:
一是如何基于用戶提出的多種多樣的、基于情感的、語意模糊的需求進(jìn)行深刻分析,精確理解用戶的實(shí)際需求;
二是如何將各種結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的知識進(jìn)行組織與梳理,最終以結(jié)構(gòu)化、清晰化的知識形式完整地呈現(xiàn)給用戶;
三是如何猜測用戶可能會有什么未想到、未提出的需求,從而先人一步為用戶提供相關(guān)的擴(kuò)展信息;
四是如何將信息進(jìn)行有效地組織與整理,以條理化、簡潔化、直接化的形式呈現(xiàn)給用戶。
談及最后一個問題,又不得不說下亞馬遜Echo為何要考慮加個7寸屏了,這雖然會使Echo的品類屬性減弱,但是在AR還沒有發(fā)展起來之前,確實(shí)也沒有更好的辦法。畢竟Echo缺少一個使得人機(jī)交互更完整的重要的組件——視覺交互,沒有用戶界面或上下文元素的基于語音交互的系統(tǒng)是不完整。用戶可以通過聊天的方式來播放音樂、定時、控制燈光,獲得新聞頭條,然而當(dāng)用戶在線訂單想比較一下兩種產(chǎn)品的價格,各種性能參數(shù),或者想看一下未來一周天氣預(yù)報的溫度趨勢,用戶目前來說還是需要一塊屏。正是基于這種考慮,聲智科技提供的智能音箱解決方案中,恰好有一個型號也是搭配了7寸顯示屏。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。