丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉芳平
發(fā)送

1

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細節(jié)要注意?

本文作者: 劉芳平 2017-04-11 08:01
導(dǎo)語:阿里的目標是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容,以智能語音交互的模式,在多端上提供給我們的客戶。

雷鋒網(wǎng)按:在外界看來,阿里 iDST 是一個神秘的部門,大家知道里面聚集了很多技術(shù)大牛,但是對這個部門真正在做的事情,以及其在阿里集團內(nèi)扮演的角色卻不一定清楚。為此,雷鋒網(wǎng)對阿里 iDST 的語音專家鄢志杰博士進行了專訪,帶大家了解有關(guān)阿里 iDST 的事情,以及他們是如何看待當下最火的一些 AI 產(chǎn)品的。

鄢志杰簡介

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細節(jié)要注意?

鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能語音交互團隊總監(jiān)。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業(yè)于中國科學技術(shù)大學訊飛語音實驗室,獲博士學位。研究領(lǐng)域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領(lǐng)域頂級學術(shù)期刊及會議發(fā)表多篇論文,長期擔任語音領(lǐng)域頂級學術(shù)會議及期刊的專家評審,并擁有多項美國及 PCT 專利,目前是 IEEE senior member。

iDST 智能語音交互小組在做哪些事情?

雷鋒網(wǎng):阿里 iDST 部門智能語音交互小組主要負責什么?

鄢志杰:我們這邊是智能語音交互的,包括幾個部分,通常我們講語音進和語音出。語音進就是語音識別,識別成了文字以后,就進入到我們的對話系統(tǒng)里,做這句話的理解。然后通過對話的形式把想要的東西傳給你,方式就是以語音的方式用機器播報出來。

比如明天天氣怎么樣,它理解了這個話,然后通過對話系統(tǒng)從遠端的天氣服務(wù)拿到天氣的數(shù)據(jù),然后播報。

我做狹義的語音相關(guān)的東西比較多,比如語音識別、合成,還有通過語音做一些說話人識別驗證,包括怎么把語音在設(shè)備上落地,等等?,F(xiàn)在我們也把語音技術(shù)在阿里云上對外輸出,這些都是我自己做得比較多的。

雷鋒網(wǎng):最近你們在做什么研究工作,有什么進展或者發(fā)現(xiàn)??

鄢志杰:有兩個方面:

1、自然語音交互平臺。

我們覺得往后,各種智能設(shè)備,電視、機器人等等,在家里或工作場景的智能設(shè)備會越來越多,這些設(shè)備沒有鍵盤和觸摸屏,所以需要比較便捷的方式跟互聯(lián)網(wǎng)連接,它們本身會成為互聯(lián)網(wǎng)的入口,這當中語音肯定是一個比較重要的模態(tài),可以跟它們交互。

交互的目的是什么呢?是取得互聯(lián)網(wǎng)上的各種服務(wù),包括查天氣之類的信息服務(wù),還有比如點個外賣叫個車,是一種有型社會的服務(wù);還有一種是內(nèi)容,好比說我在電視上看某一個電視節(jié)目,誰跟誰主演的電影,這種就是網(wǎng)絡(luò)上的內(nèi)容,包括音樂、視頻。

要達成這點中間當然會要有我們所做的這套東西,就是使得用戶的意圖通過語音進來,轉(zhuǎn)化成對網(wǎng)上各種服務(wù)的需求,然后系統(tǒng)理解了以后帶給用戶。

這就是我們叫作智能語音交互的一個平臺。總結(jié)一下就是,它是連接多端,跟互聯(lián)網(wǎng)上廣泛的服務(wù)對接,作為中間橋梁作用的這么一個東西。

2、所有這些語音能力都會通過阿里云輸出。

鄢志杰:比如說我們有語音識別的能力,我們的合作伙伴就可以拿著這個能力去做具體的語音識別應(yīng)用,例如說我們在客服和司法直播等領(lǐng)域,發(fā)現(xiàn)有很多語音轉(zhuǎn)文字(文字轉(zhuǎn)語音)的需求。

我們最開始做這樣的能力,完全是從阿里內(nèi)部客服中心的需求來出發(fā)的,因為阿里每天淘寶、天貓和支付寶有很多的客服電話。之前在接服務(wù)電話時根本不知道服務(wù)質(zhì)量什么樣,說得不好聽的,小二如果今天心情不好,罵了客戶幾句,根本沒辦法知道,原因是抽檢的錄音需要人工去聽,那個比例是很小的。

同時傳統(tǒng)的客服中心其實有很多需求,(他們)希望知道客戶每天在問什么,什么樣的問題是最近遇到的最嚴重的問題,所有這些之前只是沉睡在那個地方,沒有辦法得到挖掘。我們一開始團隊做的就是客服的任務(wù),把語音轉(zhuǎn)成文字,后續(xù)有很多好玩的東西可以來做,像發(fā)掘用戶的心聲,還有知道小二的服務(wù)質(zhì)量有沒有保證。

很有意思,像這樣的能力建設(shè)出來以后,從阿里的角度講一定是要放到更大的平臺上去幫助別人成功的。我們總是講說阿里主要是個平臺公司,所以說這樣的能力一旦放出去,我們生態(tài)里的合作伙伴就可以在別人的客服當中去搭建這樣一個東西。把語音轉(zhuǎn)成文字,做同樣的事情,甚至有人會開發(fā)出客服機器人,放前臺來自動回復(fù)用戶問題。在司法領(lǐng)域也是一樣,現(xiàn)在有合作伙伴拿著我們的能力放到法院里,代替書記員的作用。包括像直播,識別主播在說什么違規(guī)的東西等等。

總結(jié)一下,第二塊事情就是怎么把我們的能力通過阿里云對外輸出,幫助我們的合作伙伴去做具體的業(yè)務(wù)。

雷鋒網(wǎng):最近有什么突破性的進展和發(fā)現(xiàn)?

鄢志杰:我通常不大愛用突破這個詞,因為這個行業(yè)實在是太浮躁了,芝麻小點的事都會被很多人說成是突破。我覺得我們還是比較低調(diào)跟務(wù)實的。雖然我們各種各樣的技術(shù)其實是非常領(lǐng)先的,不過畢竟我也是從學術(shù)界來的,所以說比較注意這方面的東西,

進展的話,講一個例子,我們一直以來語音識別有一個重要的模型叫聲學模型,就是來模擬a,o,e,b,p,m,f 是怎么發(fā)音的,這個也是提高語音識別準確率的重要手段。我們一直以來是從學術(shù)界吸收最新的成果,同時在工業(yè)界大規(guī)模的問題上把它真正發(fā)揚光大去解決真正的問題。

latendy controlled 的 BLSTM 模型

在 15 年的時候,我們第一個上了 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型,這個東西學術(shù)界研究比較多,但是工業(yè)界第一個上線應(yīng)用的應(yīng)該算是我們。

傳統(tǒng) BLSTM 模型很慢,必須要等到一句話說完了才開始去做解碼,得到結(jié)果,就造成說完這句話后要等很久才能拿到結(jié)果,這當然是壞處,但為什么大家還是那么著迷呢,因為好處是精度特別高,準確程度高。我們做的工作就是能夠把識別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結(jié)束后才能夠進行解碼,達到一個既快又好的效果。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細節(jié)要注意?

BLSTM 進一步提升了 LSTM 類模型的建模能力,圖片來源:薛少飛,iDST 語音專家

Low frame rate latendy controlled 的 BLSTM

后來我也發(fā)現(xiàn)一些同行,例如說 16 年底時同樣的模型他們也逐漸在上,在這之后其實我們一直在延續(xù)這條路發(fā)展,去年有個比較好的工作,是在這個基礎(chǔ)上發(fā)展出叫 Low Frame rate latendy controlled 的 BLSTM。

原來語音識別的幀率大約是 100 幀每秒,每秒鐘要計算100個 frame,運算量不容忽視,所以我們?nèi)ツ暧幸粋€方法叫 Low frame rate,把 100 幀每秒的速率,降到三分之一,相當于同樣是 1 秒鐘的語音,處理起來只需要原來運算量的三分之一了。同時保證了跟以前一樣甚至更好的精度。

我們很快把它送到我們的線上,取得一個比較好的效果,今天我們一臺服務(wù)器,能夠支持比以前更多前發(fā)的線數(shù)。剛才提到我們把這個能力去輸出,輸出對我們的合作伙伴來說成本是非常需要考慮的因素,以阿里這么大的體量,任何一件事情進來以后,客戶一多起來,機器的成本是一個重要的因素,語音識別本身又是一個比較耗成本的東西,對機器要求很高,有一個三倍的提升的話,直接把它變得更加普惠了,大家使用的門檻就大大降低了。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細節(jié)要注意?

3月23日,阿里巴巴公布“NASA”計劃

雷鋒網(wǎng):上次馬云頒布NASA計劃時,我們應(yīng)邀解讀了一篇,后面我們采訪閩萬里博士的時候,他強調(diào)了AI+應(yīng)用結(jié)合的側(cè)重點,這是不是后續(xù)阿里AI相關(guān)的研究部門或者小組,比如iDST 智能語音交互小組會跟應(yīng)用相關(guān)的部門合作會愈加加強的一種趨勢??

鄢志杰:我一直覺得阿里是一家比較講究落地的公司,我們一直跟具體的業(yè)務(wù)落地結(jié)合比較緊密,我覺得 NASA 更多是表明了一種阿里的決心。因為阿里的業(yè)務(wù)實在是太成功了,某種程度上掩蓋了技術(shù)的光芒,因而要去讓大家更多覺得阿里是一家技術(shù)驅(qū)動的公司。

AI 這個東西,外面很喧囂,但我覺得我們沒有任何的改變,我們從來也不會特別地刻意去講AI,我們把所有跟 AI 相關(guān)的技術(shù),從到底能夠?qū)ξ覀兊纳?,對阿里的合作伙伴,對整個社會,帶來什么樣的有益的幫助這個角度去思考。你可以說(我們是)不太吹牛,更多的務(wù)實。

講到業(yè)務(wù)落地,一個好的AI,到底能給我們的業(yè)務(wù)帶來什么樣實實在在的幫助,而不是說只是為了提升我們的股價,或者講一個故事。如果說這些 AI 能夠用到客服中心去接我們客戶的電話,直接用機器解答一些 FAQ,那不僅減少用戶排隊的時間,同時能讓我們小二的人力省下來,真正機器答不了的問題,再轉(zhuǎn)到小二那邊由人工解決,而不是空泛說用機器人全部搞定,這個現(xiàn)在也不現(xiàn)實。

所以有人說什么 AI 取代人,我從來不這么看,我覺得這些東西一定是幫助人的,讓用戶體驗更好,小二這一側(cè)工作強度更低,更少的人可以支持更多的客戶。這個是它發(fā)揮作用的地方,而不是現(xiàn)在就去談取代人。

“既要、又要、還要”

雷鋒網(wǎng): iDST 語音部門的的定義是什么?我看知乎上有說,

是為業(yè)務(wù)或者產(chǎn)品形成迭代支撐的技術(shù)研發(fā)部門;

有明確的業(yè)務(wù)需求推動他的產(chǎn)生;

也有通過技術(shù)部劇推動業(yè)務(wù)進展的期望;

由于直屬王博士這個天然屬性,會在很大程度上用一種科學的方式推進公司技術(shù)驅(qū)動化。

這些說法成立嗎?

鄢志杰:前幾天我去谷歌搜索iDST,打開前幾個搜索結(jié)果看了看。第一我感覺我們蠻低調(diào)的,并沒有一些鋪天蓋地的宣傳報道,搜索出來的信息也極為有限,蠻神秘的。二是感覺很多報道其實我在內(nèi)部看來是完全錯誤的。所以就像您說的,對 iDST 本身會有不同的解讀。

我覺得,這樣挺好的,也沒有什么問題。回到您的問題:iDST 現(xiàn)在到底是干嘛的?阿里有一句土話叫“既要又要還要”,就是說阿里的目標通常是比較多元化的,多元化就意味著你在各個方面都要起很高的目標。

既要

第一個目標就是支持好阿里的業(yè)務(wù)和阿里生態(tài)里的合作伙伴。他們要去做一個業(yè)務(wù),一定對我們的智能交互技術(shù)有他們的想法和需求,例如說我想要有一個聰明的機器人,說什么都能懂,這些核心技術(shù)我們一定要支持好。技術(shù)在輸出時,伙伴要求說你的準確率必須是市面上最好,這些需求我們都要去支撐,這是第一個任務(wù)。

又要

我們不是簡單地說把這些需求滿足好了就 OK,又要說這些技術(shù)是有先進性的,不僅是做到跟市面上最好的一樣好,而且在一些方面有自己的特色跟亮點。

還要

我們現(xiàn)在在支持那么多業(yè)務(wù)的同時,還在寫 paper,在國際的語音頂級會議、雜志上去露臉,贊助學術(shù)界的一些活動,與學術(shù)界建立比較好的關(guān)系。所以說是不能光商業(yè)上做得好,還要技術(shù)上要有說道,甚至在將來能夠起到一些引領(lǐng)的作用。

這個組織因為積聚了不少的博士,團隊來自各大公司的專家挺多的。我們從學校雇最好語音應(yīng)屆博士生,一定是在這兩個方面有好的輸出的,偏廢哪一個都是不行的。好比說光做研究沒有產(chǎn)出,基本上很難講研究有多好;光做產(chǎn)出沒有研究,也許就顧得了當下卻失掉了未來。我們就是一個結(jié)合的部門。

發(fā) paper 是一個副產(chǎn)品,是在持續(xù)想怎么 push 工業(yè)界做大規(guī)模任務(wù)的邊界,這當中會產(chǎn)生一些副產(chǎn)品分享,現(xiàn)在整個語音產(chǎn)業(yè)大家還是比較樂于去分享自己的東西,各大公司都如此。但我們并不是以寫 paper 為目標的。

雷鋒網(wǎng): iDST 招人方面有什么自己的特殊方式?(外界一致所知甚少)

鄢志杰:首先,語音圈是一個特別小的圈,外人很難說立一塊牌子就說我今天要做一個語音團隊,我投入很多。如果是外人的話,很難去做這樣的招聘,所以我們此前的招聘更多還是從圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也掛了大廣告,但很少有人是看了廣告直接就來的。

說實在這個圈子實在太小了,大家互相都認識,更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個團隊的風格,跟他想去做的事情以及做事的方式。然后認同這樣的價值觀的人,就會自然聚攏過來,更多是以這種方式。

阿里招人要求很高,同時我們也不 crazy,不會因為你是所謂的 AI 我們就一擲千金來求人才。因為我們還是覺得這樣的人才靠這個東西不可持續(xù)。所以說可以看到我們團隊的人都是這種性格的,就是踏實做好工作,不太張揚,雖然有機會的時候也不怕去露臉,但總體來說還是不那么吵吵鬧鬧。

舉個例子,當所有人都在號稱自己的語音識別準確率 95%、97%、99% 的時候,我們是也許不多的一股清流。之前我們陳一寧有一個文章采訪他,他旗幟鮮明地喊出了語音識別的準確率脫離場景去談都是耍流氓。

我們講的 95、97、99,是在非常受控的環(huán)境下一個普通話相對比較標準沒有多少口音的人,說一些比較固定的內(nèi)容。在不好的場景下,像我們在這么一個有混響的房間里,大家在激烈地爭論,有的人還有點口音,那么很容易就做到很糟糕,到文字出來看不懂程度。

雷鋒網(wǎng):網(wǎng)上有說你們通過舉辦比賽來獲取人才,這也是一種方式嗎?

鄢志杰:對,阿里首先有一個實習生的項目,內(nèi)部有一些比賽,像我所知道的,像天池大數(shù)據(jù)競賽,都會有這樣的學生來比參加,拿阿里的一些數(shù)據(jù),把一些奇思妙想在這樣的數(shù)據(jù)上去做驗證。

我們也有像阿里星這樣的應(yīng)屆畢業(yè)生計劃,對于個別好的,我們叫 A+ 的學生,面試完了可以直接到我們 Lab 的 Leader 的 level 去面談,很多人成為阿里星。

比賽的話,我想在語音特別是交互這方面很有可能會有類似的事情去做。

雷鋒網(wǎng):網(wǎng)上我們只搜到一條阿里云 iDST 人工智能打敗全球速記亞軍的消息,里面有談到阿里云 iDST 智能語音團隊擁有世界一流的專家團隊,此次年會展示的研發(fā)成果只是冰山一角。能否介紹一下這個專家團隊的實力?

鄢志杰:怎么談這個實力呢,首先講幾個方面吧。

第一個方面,來源比較廣泛,聚齊了此前幾個組的精英力量,包括咱們有微軟來的不少同事,國際上有一個做得最大的語音技術(shù)提供商叫 Nuance,這方面的同事也越來越多了。我們還有來源于百度此前語音部門的同事,有科大訊飛的畢業(yè)生,還有高通語音方面的專家,尤其在麥克風、智能電子信號處理這方面,等等。這些就是來源廣泛。

第二個,博士、海歸的比例很高,這個我們算不算是精英團隊的表現(xiàn)(笑),也許吧,反正自己也不大當回事。

還有我們地域分布也是很廣泛的,北京、杭州、西雅圖,都是語音重鎮(zhèn),所以也更加多元化了。

最后,還有一點就是同學們的背景跟出身也是比較廣泛的,有的人是從學術(shù)界,或是工業(yè)界的研究院出身的,有的人是從工業(yè)界產(chǎn)品部門出身的,工程能力強,不管是做云端的服務(wù)還是設(shè)備端的落地的東西很強。

整體來說我們做到了把所有這堆人攏到一個團隊里。說起來簡單,但在大公司里做起來很難。大公司有的說我是做算法的, 是工程的,產(chǎn)品部門,整個是有藩籬的,一旦有組織界限以后,這件事情就變得隔了。

跨部門,做算法的做算法,做產(chǎn)品的做產(chǎn)品,很難產(chǎn)生正向跟反向的反饋,我們在建立這個團隊之初就極力在避免這樣的事情。包括我們?nèi)齻€辦公地方,從來沒有因地域而分任何事情,比如西雅圖做什么,北京做什么。而是一個項目立起來后,三地的人都有可能會參與。這樣不會使得整體做著做著就分隔了。所以地方也好出身也好,大家的擅長也好,都融為一體,這樣子能夠把反饋閉環(huán)做得比較好。

從技術(shù)到產(chǎn)品,要注意的坑和細節(jié)

雷鋒網(wǎng):從你們這個小組產(chǎn)出的成果,要應(yīng)用到阿里巴巴內(nèi)部某個場景時,一般會遇到哪些問題,如何解決?

鄢志杰:阿里來說,尤其在阿里云來講,基本上內(nèi)外客戶是完全不分的。阿里作為一家大公司內(nèi)部的需求肯定是很旺盛的,當你去滿足內(nèi)部需求時,會發(fā)現(xiàn)這個事情干起來好像很容易,因為內(nèi)部需求實在太多了。挑挑撿撿總有能夠搞定的,總能夠完成一些 KPI,但外部就不同了,外部是一個真正的市場競爭,真正的好技術(shù)一定要得到外部的認可,活下來,并蓬勃生長,才是真正比較健康的輸出。所以說,阿里云始終是不太區(qū)分內(nèi)部外部的,而不是只在內(nèi)部溫室里活下來。

所以,困難我覺得是說一個技術(shù)到一個產(chǎn)品,到一個好的產(chǎn)品,是有巨大的鴻溝的,不見得說有一個好的 paper。好的算法大家也的確認可,但未必能造就一個好的產(chǎn)品,這里面有太多的細節(jié)、坑去打磨。同時,客戶一定有不切實際的需求,我今天巴不得有一個像真人一樣的機器人,但技術(shù)是有它局限性的。

我們做技術(shù)的人,在落地的時候能夠去彌補這方面的東西,我覺得是特別重要的。一個是說技術(shù)的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎么樣去跟合作伙伴達成共識。說這個產(chǎn)品需要這樣那樣的技術(shù),指標是什么,既能夠?qū)崿F(xiàn),又是跳著可以夠著,而不是說完全夠不著的東西。

當然,真正做一個產(chǎn)品,是一個全方位的技術(shù),不是一個技術(shù)點好了就能一招鮮吃遍所有的東西,這是不太可能的。像我們語音來說不管準確率,響應(yīng)速度怎么樣,對一些奇怪的Case,奇怪的問題,當你明知道答不出來時,仍然能夠顯得很智能,而不是說只是一個對不起再試一遍吧,等等。最主要的還是跟合伙伴和客戶去定義技術(shù)能夠?qū)崿F(xiàn)的產(chǎn)品的邊界,能夠從產(chǎn)品的細節(jié)上來講,真正把一項好的技術(shù)落地下去,最終產(chǎn)生一個真正好用的產(chǎn)品,這個是比較大的困難。

雷鋒網(wǎng):具體比如阿里集團客服,中間遇到的問題,以及怎么解決?

鄢志杰:客服對于我們來說關(guān)注的是識別準確率的問題,剛才講的問題都來了,業(yè)務(wù)方提一個指標,可能是個不可能完成的指標,比如95%的準確率。你知道你的技術(shù)上去的時候也許剛剛只有60、70%。

我們怎么通過對他業(yè)務(wù)的理解,知道他的話題,每天在談?wù)撌裁?。怎么找到好用的?shù)據(jù),能夠迅速地提升我們技術(shù)本身在他的場景下的準確率。最后我想我們幾乎已經(jīng)做到接近他想要程度。所以一直去管理預(yù)期,然后不斷通過技術(shù)迭代把準確率做上去。

同時具體的業(yè)務(wù)很多不是一個技術(shù)可以解決的問題,譬如說一些在客服業(yè)務(wù)當中,有一些專業(yè)客服術(shù)語,這個之前我們都是不知道的。怎么通過技術(shù)的方式把這些術(shù)語的識別準確率得到提升。這個本身是一個從實際問題中的提出的一個課題。

比如,大家都知道阿里里有花名,所以每個小二都是有各種各樣的花名的,花名是非常奇怪的,今天如果拿一個通用的語音識別系統(tǒng),這樣的花名是很難識別正確的。就會觸發(fā)一條規(guī)則,小二沒有正確報出自己的名字,這是不對的,因為是識別錯了。比如說,接一個電話,“歡迎致電支付寶,我是志杰,請問有什么可以幫你的”,這是符合規(guī)范,如果識別錯了,就沒有把志杰識別對,這樣小二就很冤枉,被機器摘出來了。這里,就是怎么樣在具體的產(chǎn)品當中,既把別的文字都識別好,同時還特別把花名識別正確。這些都是有很多技術(shù)的東西可以去做的。

雷鋒網(wǎng):咱們是研究跟產(chǎn)品化并行的,你們是如何判定組內(nèi)的研究成果是可以轉(zhuǎn)化到成業(yè)務(wù)推動力的,有沒有一套明晰的機制來判斷?

鄢志杰:好問題。我覺得,有的公司是研發(fā)部門去推,自己先搞出一個好東西,然后去推,再看業(yè)務(wù)部門用不用這個東西。阿里呢,有點相反,業(yè)務(wù)跑得很快,更多是他們在拉,他巴不得你有什么好東西,趕緊的,甚至不成熟的東西,趕緊在我這邊去試去用。

我們作為做技術(shù)的人要有對技術(shù)的一個鑒賞力,跟一個技術(shù)的判斷眼光。您說這個怎么來的,就是牛人有這樣的眼光,經(jīng)驗會幫助,你在這個行業(yè)里這么長的時間,基本上要慢慢建立起這種鑒賞力。就好像我們聽歌,有藝術(shù)家培養(yǎng)藝術(shù)的鑒賞力一樣,這里面有很多其實是偏藝術(shù)的成分。一個技術(shù)到底能不能真的開花結(jié)果,我們撲上這個技術(shù),真的能不能在可見的未來能被業(yè)界廣泛的采用。這個就是靠判斷力,靠人本身的素質(zhì)和經(jīng)驗,我覺得也有點像藝術(shù)。

雷鋒網(wǎng):你們內(nèi)部會寫一個明晰的 PPT,來明確一個判斷流程嗎?

鄢志杰:沒有。不管是工業(yè)界、學術(shù)界,整個這個部門,這條線上創(chuàng)新很多,有的真創(chuàng)新,有的假創(chuàng)新,有的是寫個 paper 出來 claim 一下這個創(chuàng)新。真正哪個是靠譜的,其實各行各業(yè)我想都是這樣子的,真正哪些是靠譜的可以活的更長的技術(shù),沒有一套之規(guī)說我有一套流程可以來 If...else,有一個流程圖來判斷,不是這樣子的。

智能語音交互,阿里的目標是什么?

雷鋒網(wǎng):這兩年亞馬遜的 Alexa 很火,國內(nèi)也有很多公司想做中國版的 Alexa,您覺得國內(nèi)公司想要做成中國的 Alexa 需要什么樣的條件?

鄢志杰:我們自己其實在這上面也有自己的思考。說實在,這件事情的鏈條比較長,就像剛才講的有端,有自然語音交互的技術(shù),有云端的服務(wù),我想大家去觀察這個的話,就是去觀察:

第一,誰布局了最豐富的互聯(lián)網(wǎng)服務(wù),包括電商、支付、O2O、內(nèi)容,誰能把這些服務(wù)早幾年的時候 magically 放到自己的生態(tài)體系里來,那就是一種嗷嗷待哺的狀態(tài)——怎么能把服務(wù)送到客戶那里去。這是第一塊,誰布局了這些服務(wù),而且誰是比較全的。

第二,智能語音交互的技術(shù)本身。誰在早幾年的時候 magically 想到說這個以后會是很重要的東西,開始組建團隊,把核心的技術(shù)建立起來。使得用戶對語音的訴求轉(zhuǎn)化為對服務(wù)的訴求。這個部分好多人都在做,技術(shù)參差不齊,有好的,有一般的,有接入別人的,也有自己投入的,這里就分出好多公司不同的方法來了。

第三,端。大家不要小看這個端,好像山寨音箱都可以做,不那么簡單,是說大家誰在布局一個端上操作系統(tǒng)。然后在這個端上要有一系列的生態(tài)合作伙伴,不光是做一個音箱,需要有電視、智能家居,機器人、汽車,等等,哪怕到一個電飯鍋。

另外,怎么樣構(gòu)建一個能力,甚至是一個商業(yè)模式,使得你的這套東西,很多的端可以迅速來接入,來把一個傳統(tǒng)意義上的端變成一個智能的端。因為不可能做一個阿里牌電飯鍋,那怎么要想這樣的方式使得人家可以輕易接入,然后瞬間具備這么好的語音交互能力,接入那么多的互聯(lián)網(wǎng)服務(wù)。

我覺得從這幾個維度看,基本上就把產(chǎn)業(yè)鏈,或者把整個 pipeline 看全了,那無疑我在暗示說阿里在這些方面都有很好的投入。這個故事是非常的圓滿的。

雷鋒網(wǎng):所以阿里的目標也是做中國版的 Alexa 嗎?

鄢志杰:這個目標是你們起的,我覺得不應(yīng)該是這樣子講(笑)。阿里的目標是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容,以智能語音交互的模式,在多端上提供給我們的客戶。

雷鋒網(wǎng):最近國外有一個人工智能領(lǐng)域的投資人 Bradfort Cross,寫了一篇文章 ,預(yù)測今年的AI創(chuàng)業(yè),其中第一條就是聊天機器人(Chatbots)會遇冷,理由是:

1)人們依然喜歡與真人交流,而聊天機器人則會沿襲非社交媒體平臺那一套,突出個性化但卻缺乏社交屬性,人們依然喜歡與真人交流。

2) 與其他視覺解決方案相比,會面界面在完成任務(wù)上效率并不高。在某些情況下,會話界面確實效率挺高,但在大多數(shù)應(yīng)用場景下它還是無法與其他方式相比擬。

不過,他并不認為這是“AI技術(shù)還不夠好”的原因,而是因為應(yīng)用和交互的設(shè)計還不夠,不過用人工智能做出了很有趣的應(yīng)用,用戶用不用又是另一回事了。

您怎么看他提出的問題呢?

鄢志杰:我是這么看的,第一,我部分同意這個觀點,就比如說現(xiàn)在的手機語音助手,其實分人,并不是那么的流行,有的人愛用,但我覺得比例仍然不是特別高,原因就是它本身有一個屏幕,拿手機用手點點畫畫是很方便的,從這點上我是比較贊同這個觀點的。

不同的觀點,他說其實不是技術(shù),我覺得還是技術(shù)。今天的語音交互 ,你對他的期待還遠遠達不到說能跟真人一樣的響應(yīng)水平,所以這還是一個技術(shù)問題。就好像人跟人交互時,你總不會期望他臉上有個屏幕劃來劃去,不需要 。

這種更自然的方式,現(xiàn)在仍然還是技術(shù)本身,他講到交互的設(shè)計,當然是一個技術(shù)。怎么把交互設(shè)計的更好,使得人愿意用 Chatbots 來對話。本身他的理解程度能怎么樣。語音識別的準確率怎么樣,他講出來的話是不是自然,還是一個像呆萌的機器人。

具體講到視覺這個策略,我倒是覺得會有一些融合的東西出來,應(yīng)該是一個多模態(tài)的東西,不能全憑語音,或者全憑計算機視覺。例如說電視,家里大家都會有一臺電視,假如說有一個設(shè)備能夠隔空跟它交互,我沒有遙控器,那要選臺什么的,當然不會拿個手機來做,這是很怪的事情,現(xiàn)在不也有手機上安裝了電視遙控 app,叫它做一件事情,比如換臺,就能出來。但是你說要用電視屏幕來買 個淘寶的東西,我可能先說“幫我找個吸塵器”,搜一下,再等界面出來后,再用手勢去做翻頁,然后點選。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細節(jié)要注意?

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說