丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智能硬件 正文
發(fā)私信給陳孝良
發(fā)送

2

Amazon開放Polly和Lex,為何語(yǔ)音交互技術(shù)的迭代如此之快?| 深度

本文作者: 陳孝良 2016-12-05 12:17
導(dǎo)語(yǔ):亞馬遜AWS開放兩項(xiàng)語(yǔ)音交互技術(shù)服務(wù)并且全面收費(fèi),為何語(yǔ)音交互技術(shù)的迭代如此之快?

雷鋒網(wǎng)按:本文作者陳孝良,工學(xué)博士,聲智科技創(chuàng)始人。雷鋒網(wǎng)獨(dú)家文章。

11月30號(hào),亞馬遜的AWS發(fā)布了三項(xiàng)人工智能技術(shù)服務(wù):Amazon Rekognition,Amazon Polly和Amazon Lex。其中,除了Amazon Rekognition屬于圖像識(shí)別技術(shù),其他兩項(xiàng)服務(wù)都是語(yǔ)音交互的鏈條。Amazon Polly 利用機(jī)器學(xué)習(xí)技術(shù),能夠快速實(shí)現(xiàn)從文本到語(yǔ)音的轉(zhuǎn)換。Amazon Lex 就是亞馬遜的人工智能助手 Alexa 的內(nèi)核,而 Alexa 已經(jīng)被應(yīng)用于亞馬遜的 Echo 系列智能音箱。

根據(jù)AWS服務(wù)網(wǎng)頁(yè)的示例展示和實(shí)際調(diào)用,Polly 的發(fā)音與人聲已經(jīng)非常相像,很多時(shí)候已經(jīng)很難分辨機(jī)器與人聲的界限。不僅如此,Polly 還能夠按照語(yǔ)境對(duì)同形異義詞的發(fā)音進(jìn)行區(qū)分,比如說(shuō),在 “I live in Seattle” 和 “Live from New York” 這兩個(gè)不同的語(yǔ)境下,單詞 “Live” 的發(fā)音是不同的,而 Polly 在發(fā)音過程中就能夠很好把握它們之間的區(qū)別。Amazon Polly 共擁有 47 種男性或女性的發(fā)音,支持 24 種語(yǔ)言,遺憾的是目前還不支持漢語(yǔ)。

Amazon開放Polly和Lex,為何語(yǔ)音交互技術(shù)的迭代如此之快?| 深度

相對(duì)Amazon的節(jié)奏,Google似乎慢了許多,早在9月初,Google的DeepMind實(shí)驗(yàn)室公布了其在語(yǔ)音合成領(lǐng)域的最新成果WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻質(zhì)量?jī)?yōu)于目前常用的語(yǔ)音合成方法,包括參數(shù)化合成(Parameric TTS)與拼接式合成(Concatenative TTS)。

參數(shù)化語(yǔ)音合成是最常用也是歷史最悠久的方法,就是利用數(shù)學(xué)模型對(duì)已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來(lái)重新創(chuàng)造聲音數(shù)據(jù)。當(dāng)前機(jī)器人的發(fā)音主要就是采用的這種方法,不過參數(shù)化合成的語(yǔ)音聽起來(lái)總是不自然,真的就像機(jī)器發(fā)出的聲音。

另外一種就是拼接式語(yǔ)音合成,先錄制單一說(shuō)話者的大量語(yǔ)音片段,建立一個(gè)大型語(yǔ)料庫(kù),然后簡(jiǎn)單地從中進(jìn)行選擇并合成完整的大段音頻、詞語(yǔ)和句子。我們有時(shí)會(huì)聽到機(jī)器模仿某些明星的聲音,其背后技術(shù)就是這種方法。但是這種方法要求語(yǔ)料庫(kù)非常大,而且處理不好就經(jīng)常產(chǎn)生語(yǔ)音毛刺和語(yǔ)調(diào)的詭異變化,并且無(wú)法調(diào)整語(yǔ)音的抑揚(yáng)頓挫。

WaveNet則引入了一種全新的思路,區(qū)別于上面兩種方法,這是一種從零開始創(chuàng)造整個(gè)音頻波形輸出的技術(shù)。WaveNet利用真實(shí)的人類聲音剪輯和相應(yīng)的語(yǔ)言、語(yǔ)音特征來(lái)訓(xùn)練其卷積神經(jīng)網(wǎng)絡(luò),讓其能夠辨別語(yǔ)音和語(yǔ)言的模式。WaveNet的效果是驚人的,其輸出的音頻明顯更接近自然人聲。

WaveNet技術(shù)無(wú)疑是計(jì)算機(jī)語(yǔ)音合成領(lǐng)域的一大突破,在業(yè)界也引起了廣泛討論。但是其最大缺點(diǎn)就是計(jì)算量太大,而且還存在很多工程化問題。但是短短3個(gè)多月,亞馬遜就已經(jīng)憑借Echo的數(shù)據(jù)和技術(shù)的快速迭代,搶先將類似的技術(shù)應(yīng)用到產(chǎn)品之中,而且正式開放給AWS用戶進(jìn)行使用和測(cè)試。

更為重要的是,亞馬遜同步正式開放了Amazon Lex的服務(wù),Lex 能夠幫助用戶建立可以進(jìn)行多重步驟的會(huì)話應(yīng)用,開發(fā)者可以通過它來(lái)打造自己的聊天機(jī)器人,并將其集成到自己開發(fā)的 Web 網(wǎng)頁(yè)應(yīng)用或適用于移動(dòng)端的 App 中去。它也可以被應(yīng)用于提供信息、增強(qiáng)程序功能,甚至用來(lái)控制無(wú)人機(jī)、機(jī)器人或玩具等。

這就很有意思了,從下面一張語(yǔ)音交互的技術(shù)鏈條來(lái)梳理一下亞馬遜的策略。亞馬遜首先從語(yǔ)音識(shí)別公司 Nuance 挖了一批人才,2011年又收購(gòu)了兩家語(yǔ)音技術(shù)創(chuàng)業(yè)公司 Yap 和 Evi,實(shí)現(xiàn)了語(yǔ)音識(shí)別的技術(shù)布局。隨后啟動(dòng)了適應(yīng)遠(yuǎn)場(chǎng)語(yǔ)音交互Echo產(chǎn)品的研發(fā)工作,并在2015年和2016年成為了最成功的智能硬件產(chǎn)品。Echo產(chǎn)品幫助亞馬遜實(shí)現(xiàn)了以麥克風(fēng)陣列為核心技術(shù)的硬件終端技術(shù)的布局。這兩項(xiàng)技術(shù)的布局積累,幫助亞馬遜快速發(fā)展,其語(yǔ)音助手團(tuán)隊(duì)快速拓展到千人規(guī)模,憑借龐大的數(shù)據(jù)和深厚的人才積累,亞馬遜在智能交互領(lǐng)域持續(xù)發(fā)力,擁有更好體驗(yàn)的TTS和NLP也實(shí)現(xiàn)了快速迭代,奠定了亞馬遜在智能語(yǔ)音交互應(yīng)用領(lǐng)域的領(lǐng)先地位。

Amazon開放Polly和Lex,為何語(yǔ)音交互技術(shù)的迭代如此之快?| 深度

事實(shí)上,從今年下半年語(yǔ)音交互市場(chǎng)的突然爆發(fā),幾乎每隔一個(gè)多月,語(yǔ)音交互的效果都會(huì)出現(xiàn)較大的提升。那么為何語(yǔ)音交互技術(shù)的迭代會(huì)如此迅速?可以從下面幾點(diǎn)來(lái)窺得一斑:

1、  語(yǔ)音交互技術(shù)鏈條的成熟

深度學(xué)習(xí)帶給了語(yǔ)音識(shí)別巨大的進(jìn)步,但是以Siri為代表的手機(jī)語(yǔ)音交互一直不溫不火,直到Echo和車載這類智能設(shè)備的出現(xiàn),語(yǔ)音識(shí)別才突破手機(jī)的限制,真正落地到真實(shí)的垂直場(chǎng)景。這個(gè)轉(zhuǎn)變不僅僅是場(chǎng)景的轉(zhuǎn)變?nèi)绱撕?jiǎn)單,實(shí)際上這從認(rèn)知和技術(shù)上都是一個(gè)巨大的變化。真實(shí)場(chǎng)景的語(yǔ)音識(shí)別面向的是真正用戶,因此能否滿足用戶需求就是一個(gè)關(guān)鍵問題。當(dāng)前的用戶對(duì)于人工智能的要求其實(shí)并不高,而是希望確實(shí)能夠解決一些具體問題,但是顯然通用的語(yǔ)音交互總是伴隨著智慧的概念,根本就無(wú)法做到令用戶滿意。因此語(yǔ)音交互的落地首先就要考慮是否能夠先服務(wù)好用戶,這是一個(gè)關(guān)鍵的認(rèn)知變化,而且基于這種認(rèn)知,語(yǔ)音交互的免費(fèi)策略似乎就不重要了,用戶更為關(guān)注的是性能而非低價(jià)。另外一點(diǎn)就是技術(shù)鏈條的成熟,語(yǔ)音識(shí)別從手機(jī)轉(zhuǎn)向垂直場(chǎng)景,需要解決遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別和場(chǎng)景語(yǔ)言理解的問題,亞馬遜率先解決了這些問題,國(guó)內(nèi)科大訊飛和聲智科技也隨后補(bǔ)齊了這個(gè)鏈條。目前來(lái)看,智能語(yǔ)音交互的技術(shù)鏈條趨于成熟,已經(jīng)不存在較大的障礙。

2、  真實(shí)場(chǎng)景數(shù)據(jù)規(guī)模的擴(kuò)大

隨著Echo的熱賣,對(duì)于場(chǎng)景交互尤為重要的真實(shí)數(shù)據(jù)急劇增加,原先訓(xùn)練可能只有幾千或者幾萬(wàn)個(gè)小時(shí),但是亞馬遜已經(jīng)從已售設(shè)備中獲取了幾千萬(wàn)的數(shù)據(jù),而當(dāng)前的訓(xùn)練已經(jīng)是十萬(wàn)級(jí)數(shù)據(jù)的規(guī)模,將來(lái)百萬(wàn)級(jí)的數(shù)據(jù)訓(xùn)練也會(huì)出現(xiàn)。事實(shí)上,這些龐大的數(shù)據(jù)中囊括了用戶時(shí)間長(zhǎng)度和空間維度的信息,這是手機(jī)時(shí)代絕對(duì)做不到的,從這些豐富信息之中,即便簡(jiǎn)單搜索提升的效果都是驚人的。

3、  云端計(jì)算能力的不斷提高

擁有了龐大的數(shù)據(jù)量,自然就急需要計(jì)算能力的不斷提升,前幾天Intel召開發(fā)布會(huì),雷鋒網(wǎng)現(xiàn)場(chǎng)也做了直播,CPU和GPU的綜合計(jì)算能力再次提升了20多倍,這相當(dāng)于原先需要訓(xùn)練20天的數(shù)據(jù),現(xiàn)在可能不到1天就能完成,這是語(yǔ)音交互產(chǎn)業(yè)鏈條的根本性保證。

4、  深度學(xué)習(xí)人才聚集的效應(yīng)

技術(shù)、數(shù)據(jù)、計(jì)算鏈條的相對(duì)完善,核心還需要人才的驅(qū)動(dòng),而隨著人工智能的熱潮,不斷有更多相關(guān)人才從科院機(jī)構(gòu)和院校走出來(lái)加入這個(gè)行業(yè)。創(chuàng)業(yè)公司的競(jìng)爭(zhēng)是可怕的,這群大牛才華橫溢,卻沒日沒夜的拼搏,其效率提升到其他任何時(shí)代可能都難以匹及的程度。

總之,智能語(yǔ)音交互這個(gè)鏈條已經(jīng)具備了大規(guī)模普及的基礎(chǔ),等待的只是用戶習(xí)慣的改變,而這種改變正在逐步發(fā)生??深A(yù)見的幾年,語(yǔ)音交互應(yīng)該相對(duì)于其他人工智能技術(shù),應(yīng)該是最先落地的一種技術(shù),而且其迭代的速度可能會(huì)超過我們的預(yù)期。但是語(yǔ)音交互仍然還有很多問題需要解決,包括終端技術(shù)的低功耗和集成化、語(yǔ)音識(shí)別的場(chǎng)景化和一體化,以及語(yǔ)言理解的準(zhǔn)確性和引導(dǎo)性。

未來(lái)幾年,智能語(yǔ)音交互的迭代至少還要解決如下幾個(gè)問題:

  • 一是如何基于用戶提出的多種多樣的、基于情感的、語(yǔ)意模糊的需求進(jìn)行深刻分析,精確理解用戶的實(shí)際需求;

  • 二是如何將各種結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的知識(shí)進(jìn)行組織與梳理,最終以結(jié)構(gòu)化、清晰化的知識(shí)形式完整地呈現(xiàn)給用戶;

  • 三是如何猜測(cè)用戶可能會(huì)有什么未想到、未提出的需求,從而先人一步為用戶提供相關(guān)的擴(kuò)展信息;

  • 四是如何將信息進(jìn)行有效地組織與整理,以條理化、簡(jiǎn)潔化、直接化的形式呈現(xiàn)給用戶。

談及最后一個(gè)問題,又不得不說(shuō)下亞馬遜Echo為何要考慮加個(gè)7寸屏了,這雖然會(huì)使Echo的品類屬性減弱,但是在AR還沒有發(fā)展起來(lái)之前,確實(shí)也沒有更好的辦法。畢竟Echo缺少一個(gè)使得人機(jī)交互更完整的重要的組件——視覺交互,沒有用戶界面或上下文元素的基于語(yǔ)音交互的系統(tǒng)是不完整。用戶可以通過聊天的方式來(lái)播放音樂、定時(shí)、控制燈光,獲得新聞?lì)^條,然而當(dāng)用戶在線訂單想比較一下兩種產(chǎn)品的價(jià)格,各種性能參數(shù),或者想看一下未來(lái)一周天氣預(yù)報(bào)的溫度趨勢(shì),用戶目前來(lái)說(shuō)還是需要一塊屏。正是基于這種考慮,聲智科技提供的智能音箱解決方案中,恰好有一個(gè)型號(hào)也是搭配了7寸顯示屏。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專欄作者

聲智科技創(chuàng)始人兼CEO,中科院聲學(xué)所博士
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)