丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉芳平
發(fā)送

1

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

本文作者: 劉芳平 2017-04-11 08:01
導(dǎo)語:阿里的目標(biāo)是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容,以智能語音交互的模式,在多端上提供給我們的客戶。

雷鋒網(wǎng)按:在外界看來,阿里 iDST 是一個(gè)神秘的部門,大家知道里面聚集了很多技術(shù)大牛,但是對(duì)這個(gè)部門真正在做的事情,以及其在阿里集團(tuán)內(nèi)扮演的角色卻不一定清楚。為此,雷鋒網(wǎng)對(duì)阿里 iDST 的語音專家鄢志杰博士進(jìn)行了專訪,帶大家了解有關(guān)阿里 iDST 的事情,以及他們是如何看待當(dāng)下最火的一些 AI 產(chǎn)品的。

鄢志杰簡介

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能語音交互團(tuán)隊(duì)總監(jiān)。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業(yè)于中國科學(xué)技術(shù)大學(xué)訊飛語音實(shí)驗(yàn)室,獲博士學(xué)位。研究領(lǐng)域主要包括語音識(shí)別、語音合成、說話人識(shí)別驗(yàn)證、OCR/ 手寫識(shí)別、機(jī)器學(xué)習(xí)算法等。在語音及文本識(shí)別領(lǐng)域頂級(jí)學(xué)術(shù)期刊及會(huì)議發(fā)表多篇論文,長期擔(dān)任語音領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議及期刊的專家評(píng)審,并擁有多項(xiàng)美國及 PCT 專利,目前是 IEEE senior member。

iDST 智能語音交互小組在做哪些事情?

雷鋒網(wǎng):阿里 iDST 部門智能語音交互小組主要負(fù)責(zé)什么?

鄢志杰:我們這邊是智能語音交互的,包括幾個(gè)部分,通常我們講語音進(jìn)和語音出。語音進(jìn)就是語音識(shí)別,識(shí)別成了文字以后,就進(jìn)入到我們的對(duì)話系統(tǒng)里,做這句話的理解。然后通過對(duì)話的形式把想要的東西傳給你,方式就是以語音的方式用機(jī)器播報(bào)出來。

比如明天天氣怎么樣,它理解了這個(gè)話,然后通過對(duì)話系統(tǒng)從遠(yuǎn)端的天氣服務(wù)拿到天氣的數(shù)據(jù),然后播報(bào)。

我做狹義的語音相關(guān)的東西比較多,比如語音識(shí)別、合成,還有通過語音做一些說話人識(shí)別驗(yàn)證,包括怎么把語音在設(shè)備上落地,等等。現(xiàn)在我們也把語音技術(shù)在阿里云上對(duì)外輸出,這些都是我自己做得比較多的。

雷鋒網(wǎng):最近你們?cè)谧鍪裁囱芯抗ぷ?,有什么進(jìn)展或者發(fā)現(xiàn)??

鄢志杰:有兩個(gè)方面:

1、自然語音交互平臺(tái)。

我們覺得往后,各種智能設(shè)備,電視、機(jī)器人等等,在家里或工作場(chǎng)景的智能設(shè)備會(huì)越來越多,這些設(shè)備沒有鍵盤和觸摸屏,所以需要比較便捷的方式跟互聯(lián)網(wǎng)連接,它們本身會(huì)成為互聯(lián)網(wǎng)的入口,這當(dāng)中語音肯定是一個(gè)比較重要的模態(tài),可以跟它們交互。

交互的目的是什么呢?是取得互聯(lián)網(wǎng)上的各種服務(wù),包括查天氣之類的信息服務(wù),還有比如點(diǎn)個(gè)外賣叫個(gè)車,是一種有型社會(huì)的服務(wù);還有一種是內(nèi)容,好比說我在電視上看某一個(gè)電視節(jié)目,誰跟誰主演的電影,這種就是網(wǎng)絡(luò)上的內(nèi)容,包括音樂、視頻。

要達(dá)成這點(diǎn)中間當(dāng)然會(huì)要有我們所做的這套東西,就是使得用戶的意圖通過語音進(jìn)來,轉(zhuǎn)化成對(duì)網(wǎng)上各種服務(wù)的需求,然后系統(tǒng)理解了以后帶給用戶。

這就是我們叫作智能語音交互的一個(gè)平臺(tái)。總結(jié)一下就是,它是連接多端,跟互聯(lián)網(wǎng)上廣泛的服務(wù)對(duì)接,作為中間橋梁作用的這么一個(gè)東西。

2、所有這些語音能力都會(huì)通過阿里云輸出。

鄢志杰:比如說我們有語音識(shí)別的能力,我們的合作伙伴就可以拿著這個(gè)能力去做具體的語音識(shí)別應(yīng)用,例如說我們?cè)诳头退痉ㄖ辈サ阮I(lǐng)域,發(fā)現(xiàn)有很多語音轉(zhuǎn)文字(文字轉(zhuǎn)語音)的需求。

我們最開始做這樣的能力,完全是從阿里內(nèi)部客服中心的需求來出發(fā)的,因?yàn)榘⒗锩刻焯詫殹⑻熵埡椭Ц秾氂泻芏嗟目头娫挕V霸诮臃?wù)電話時(shí)根本不知道服務(wù)質(zhì)量什么樣,說得不好聽的,小二如果今天心情不好,罵了客戶幾句,根本沒辦法知道,原因是抽檢的錄音需要人工去聽,那個(gè)比例是很小的。

同時(shí)傳統(tǒng)的客服中心其實(shí)有很多需求,(他們)希望知道客戶每天在問什么,什么樣的問題是最近遇到的最嚴(yán)重的問題,所有這些之前只是沉睡在那個(gè)地方,沒有辦法得到挖掘。我們一開始團(tuán)隊(duì)做的就是客服的任務(wù),把語音轉(zhuǎn)成文字,后續(xù)有很多好玩的東西可以來做,像發(fā)掘用戶的心聲,還有知道小二的服務(wù)質(zhì)量有沒有保證。

很有意思,像這樣的能力建設(shè)出來以后,從阿里的角度講一定是要放到更大的平臺(tái)上去幫助別人成功的。我們總是講說阿里主要是個(gè)平臺(tái)公司,所以說這樣的能力一旦放出去,我們生態(tài)里的合作伙伴就可以在別人的客服當(dāng)中去搭建這樣一個(gè)東西。把語音轉(zhuǎn)成文字,做同樣的事情,甚至有人會(huì)開發(fā)出客服機(jī)器人,放前臺(tái)來自動(dòng)回復(fù)用戶問題。在司法領(lǐng)域也是一樣,現(xiàn)在有合作伙伴拿著我們的能力放到法院里,代替書記員的作用。包括像直播,識(shí)別主播在說什么違規(guī)的東西等等。

總結(jié)一下,第二塊事情就是怎么把我們的能力通過阿里云對(duì)外輸出,幫助我們的合作伙伴去做具體的業(yè)務(wù)。

雷鋒網(wǎng):最近有什么突破性的進(jìn)展和發(fā)現(xiàn)?

鄢志杰:我通常不大愛用突破這個(gè)詞,因?yàn)檫@個(gè)行業(yè)實(shí)在是太浮躁了,芝麻小點(diǎn)的事都會(huì)被很多人說成是突破。我覺得我們還是比較低調(diào)跟務(wù)實(shí)的。雖然我們各種各樣的技術(shù)其實(shí)是非常領(lǐng)先的,不過畢竟我也是從學(xué)術(shù)界來的,所以說比較注意這方面的東西,

進(jìn)展的話,講一個(gè)例子,我們一直以來語音識(shí)別有一個(gè)重要的模型叫聲學(xué)模型,就是來模擬a,o,e,b,p,m,f 是怎么發(fā)音的,這個(gè)也是提高語音識(shí)別準(zhǔn)確率的重要手段。我們一直以來是從學(xué)術(shù)界吸收最新的成果,同時(shí)在工業(yè)界大規(guī)模的問題上把它真正發(fā)揚(yáng)光大去解決真正的問題。

latendy controlled 的 BLSTM 模型

在 15 年的時(shí)候,我們第一個(gè)上了 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型,這個(gè)東西學(xué)術(shù)界研究比較多,但是工業(yè)界第一個(gè)上線應(yīng)用的應(yīng)該算是我們。

傳統(tǒng) BLSTM 模型很慢,必須要等到一句話說完了才開始去做解碼,得到結(jié)果,就造成說完這句話后要等很久才能拿到結(jié)果,這當(dāng)然是壞處,但為什么大家還是那么著迷呢,因?yàn)楹锰幨蔷忍貏e高,準(zhǔn)確程度高。我們做的工作就是能夠把識(shí)別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結(jié)束后才能夠進(jìn)行解碼,達(dá)到一個(gè)既快又好的效果。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

BLSTM 進(jìn)一步提升了 LSTM 類模型的建模能力,圖片來源:薛少飛,iDST 語音專家

Low frame rate latendy controlled 的 BLSTM

后來我也發(fā)現(xiàn)一些同行,例如說 16 年底時(shí)同樣的模型他們也逐漸在上,在這之后其實(shí)我們一直在延續(xù)這條路發(fā)展,去年有個(gè)比較好的工作,是在這個(gè)基礎(chǔ)上發(fā)展出叫 Low Frame rate latendy controlled 的 BLSTM。

原來語音識(shí)別的幀率大約是 100 幀每秒,每秒鐘要計(jì)算100個(gè) frame,運(yùn)算量不容忽視,所以我們?nèi)ツ暧幸粋€(gè)方法叫 Low frame rate,把 100 幀每秒的速率,降到三分之一,相當(dāng)于同樣是 1 秒鐘的語音,處理起來只需要原來運(yùn)算量的三分之一了。同時(shí)保證了跟以前一樣甚至更好的精度。

我們很快把它送到我們的線上,取得一個(gè)比較好的效果,今天我們一臺(tái)服務(wù)器,能夠支持比以前更多前發(fā)的線數(shù)。剛才提到我們把這個(gè)能力去輸出,輸出對(duì)我們的合作伙伴來說成本是非常需要考慮的因素,以阿里這么大的體量,任何一件事情進(jìn)來以后,客戶一多起來,機(jī)器的成本是一個(gè)重要的因素,語音識(shí)別本身又是一個(gè)比較耗成本的東西,對(duì)機(jī)器要求很高,有一個(gè)三倍的提升的話,直接把它變得更加普惠了,大家使用的門檻就大大降低了。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

3月23日,阿里巴巴公布“NASA”計(jì)劃

雷鋒網(wǎng):上次馬云頒布NASA計(jì)劃時(shí),我們應(yīng)邀解讀了一篇,后面我們采訪閩萬里博士的時(shí)候,他強(qiáng)調(diào)了AI+應(yīng)用結(jié)合的側(cè)重點(diǎn),這是不是后續(xù)阿里AI相關(guān)的研究部門或者小組,比如iDST 智能語音交互小組會(huì)跟應(yīng)用相關(guān)的部門合作會(huì)愈加加強(qiáng)的一種趨勢(shì)??

鄢志杰:我一直覺得阿里是一家比較講究落地的公司,我們一直跟具體的業(yè)務(wù)落地結(jié)合比較緊密,我覺得 NASA 更多是表明了一種阿里的決心。因?yàn)榘⒗锏臉I(yè)務(wù)實(shí)在是太成功了,某種程度上掩蓋了技術(shù)的光芒,因而要去讓大家更多覺得阿里是一家技術(shù)驅(qū)動(dòng)的公司。

AI 這個(gè)東西,外面很喧囂,但我覺得我們沒有任何的改變,我們從來也不會(huì)特別地刻意去講AI,我們把所有跟 AI 相關(guān)的技術(shù),從到底能夠?qū)ξ覀兊纳?,?duì)阿里的合作伙伴,對(duì)整個(gè)社會(huì),帶來什么樣的有益的幫助這個(gè)角度去思考。你可以說(我們是)不太吹牛,更多的務(wù)實(shí)。

講到業(yè)務(wù)落地,一個(gè)好的AI,到底能給我們的業(yè)務(wù)帶來什么樣實(shí)實(shí)在在的幫助,而不是說只是為了提升我們的股價(jià),或者講一個(gè)故事。如果說這些 AI 能夠用到客服中心去接我們客戶的電話,直接用機(jī)器解答一些 FAQ,那不僅減少用戶排隊(duì)的時(shí)間,同時(shí)能讓我們小二的人力省下來,真正機(jī)器答不了的問題,再轉(zhuǎn)到小二那邊由人工解決,而不是空泛說用機(jī)器人全部搞定,這個(gè)現(xiàn)在也不現(xiàn)實(shí)。

所以有人說什么 AI 取代人,我從來不這么看,我覺得這些東西一定是幫助人的,讓用戶體驗(yàn)更好,小二這一側(cè)工作強(qiáng)度更低,更少的人可以支持更多的客戶。這個(gè)是它發(fā)揮作用的地方,而不是現(xiàn)在就去談取代人。

“既要、又要、還要”

雷鋒網(wǎng): iDST 語音部門的的定義是什么?我看知乎上有說,

是為業(yè)務(wù)或者產(chǎn)品形成迭代支撐的技術(shù)研發(fā)部門;

有明確的業(yè)務(wù)需求推動(dòng)他的產(chǎn)生;

也有通過技術(shù)部劇推動(dòng)業(yè)務(wù)進(jìn)展的期望;

由于直屬王博士這個(gè)天然屬性,會(huì)在很大程度上用一種科學(xué)的方式推進(jìn)公司技術(shù)驅(qū)動(dòng)化。

這些說法成立嗎?

鄢志杰:前幾天我去谷歌搜索iDST,打開前幾個(gè)搜索結(jié)果看了看。第一我感覺我們蠻低調(diào)的,并沒有一些鋪天蓋地的宣傳報(bào)道,搜索出來的信息也極為有限,蠻神秘的。二是感覺很多報(bào)道其實(shí)我在內(nèi)部看來是完全錯(cuò)誤的。所以就像您說的,對(duì) iDST 本身會(huì)有不同的解讀。

我覺得,這樣挺好的,也沒有什么問題?;氐侥膯栴}:iDST 現(xiàn)在到底是干嘛的?阿里有一句土話叫“既要又要還要”,就是說阿里的目標(biāo)通常是比較多元化的,多元化就意味著你在各個(gè)方面都要起很高的目標(biāo)。

既要

第一個(gè)目標(biāo)就是支持好阿里的業(yè)務(wù)和阿里生態(tài)里的合作伙伴。他們要去做一個(gè)業(yè)務(wù),一定對(duì)我們的智能交互技術(shù)有他們的想法和需求,例如說我想要有一個(gè)聰明的機(jī)器人,說什么都能懂,這些核心技術(shù)我們一定要支持好。技術(shù)在輸出時(shí),伙伴要求說你的準(zhǔn)確率必須是市面上最好,這些需求我們都要去支撐,這是第一個(gè)任務(wù)。

又要

我們不是簡單地說把這些需求滿足好了就 OK,又要說這些技術(shù)是有先進(jìn)性的,不僅是做到跟市面上最好的一樣好,而且在一些方面有自己的特色跟亮點(diǎn)。

還要

我們現(xiàn)在在支持那么多業(yè)務(wù)的同時(shí),還在寫 paper,在國際的語音頂級(jí)會(huì)議、雜志上去露臉,贊助學(xué)術(shù)界的一些活動(dòng),與學(xué)術(shù)界建立比較好的關(guān)系。所以說是不能光商業(yè)上做得好,還要技術(shù)上要有說道,甚至在將來能夠起到一些引領(lǐng)的作用。

這個(gè)組織因?yàn)榉e聚了不少的博士,團(tuán)隊(duì)來自各大公司的專家挺多的。我們從學(xué)校雇最好語音應(yīng)屆博士生,一定是在這兩個(gè)方面有好的輸出的,偏廢哪一個(gè)都是不行的。好比說光做研究沒有產(chǎn)出,基本上很難講研究有多好;光做產(chǎn)出沒有研究,也許就顧得了當(dāng)下卻失掉了未來。我們就是一個(gè)結(jié)合的部門。

發(fā) paper 是一個(gè)副產(chǎn)品,是在持續(xù)想怎么 push 工業(yè)界做大規(guī)模任務(wù)的邊界,這當(dāng)中會(huì)產(chǎn)生一些副產(chǎn)品分享,現(xiàn)在整個(gè)語音產(chǎn)業(yè)大家還是比較樂于去分享自己的東西,各大公司都如此。但我們并不是以寫 paper 為目標(biāo)的。

雷鋒網(wǎng): iDST 招人方面有什么自己的特殊方式?(外界一致所知甚少)

鄢志杰:首先,語音圈是一個(gè)特別小的圈,外人很難說立一塊牌子就說我今天要做一個(gè)語音團(tuán)隊(duì),我投入很多。如果是外人的話,很難去做這樣的招聘,所以我們此前的招聘更多還是從圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也掛了大廣告,但很少有人是看了廣告直接就來的。

說實(shí)在這個(gè)圈子實(shí)在太小了,大家互相都認(rèn)識(shí),更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個(gè)團(tuán)隊(duì)的風(fēng)格,跟他想去做的事情以及做事的方式。然后認(rèn)同這樣的價(jià)值觀的人,就會(huì)自然聚攏過來,更多是以這種方式。

阿里招人要求很高,同時(shí)我們也不 crazy,不會(huì)因?yàn)槟闶撬^的 AI 我們就一擲千金來求人才。因?yàn)槲覀冞€是覺得這樣的人才靠這個(gè)東西不可持續(xù)。所以說可以看到我們團(tuán)隊(duì)的人都是這種性格的,就是踏實(shí)做好工作,不太張揚(yáng),雖然有機(jī)會(huì)的時(shí)候也不怕去露臉,但總體來說還是不那么吵吵鬧鬧。

舉個(gè)例子,當(dāng)所有人都在號(hào)稱自己的語音識(shí)別準(zhǔn)確率 95%、97%、99% 的時(shí)候,我們是也許不多的一股清流。之前我們陳一寧有一個(gè)文章采訪他,他旗幟鮮明地喊出了語音識(shí)別的準(zhǔn)確率脫離場(chǎng)景去談都是耍流氓。

我們講的 95、97、99,是在非常受控的環(huán)境下一個(gè)普通話相對(duì)比較標(biāo)準(zhǔn)沒有多少口音的人,說一些比較固定的內(nèi)容。在不好的場(chǎng)景下,像我們?cè)谶@么一個(gè)有混響的房間里,大家在激烈地爭(zhēng)論,有的人還有點(diǎn)口音,那么很容易就做到很糟糕,到文字出來看不懂程度。

雷鋒網(wǎng):網(wǎng)上有說你們通過舉辦比賽來獲取人才,這也是一種方式嗎?

鄢志杰:對(duì),阿里首先有一個(gè)實(shí)習(xí)生的項(xiàng)目,內(nèi)部有一些比賽,像我所知道的,像天池大數(shù)據(jù)競(jìng)賽,都會(huì)有這樣的學(xué)生來比參加,拿阿里的一些數(shù)據(jù),把一些奇思妙想在這樣的數(shù)據(jù)上去做驗(yàn)證。

我們也有像阿里星這樣的應(yīng)屆畢業(yè)生計(jì)劃,對(duì)于個(gè)別好的,我們叫 A+ 的學(xué)生,面試完了可以直接到我們 Lab 的 Leader 的 level 去面談,很多人成為阿里星。

比賽的話,我想在語音特別是交互這方面很有可能會(huì)有類似的事情去做。

雷鋒網(wǎng):網(wǎng)上我們只搜到一條阿里云 iDST 人工智能打敗全球速記亞軍的消息,里面有談到阿里云 iDST 智能語音團(tuán)隊(duì)擁有世界一流的專家團(tuán)隊(duì),此次年會(huì)展示的研發(fā)成果只是冰山一角。能否介紹一下這個(gè)專家團(tuán)隊(duì)的實(shí)力?

鄢志杰:怎么談這個(gè)實(shí)力呢,首先講幾個(gè)方面吧。

第一個(gè)方面,來源比較廣泛,聚齊了此前幾個(gè)組的精英力量,包括咱們有微軟來的不少同事,國際上有一個(gè)做得最大的語音技術(shù)提供商叫 Nuance,這方面的同事也越來越多了。我們還有來源于百度此前語音部門的同事,有科大訊飛的畢業(yè)生,還有高通語音方面的專家,尤其在麥克風(fēng)、智能電子信號(hào)處理這方面,等等。這些就是來源廣泛。

第二個(gè),博士、海歸的比例很高,這個(gè)我們算不算是精英團(tuán)隊(duì)的表現(xiàn)(笑),也許吧,反正自己也不大當(dāng)回事。

還有我們地域分布也是很廣泛的,北京、杭州、西雅圖,都是語音重鎮(zhèn),所以也更加多元化了。

最后,還有一點(diǎn)就是同學(xué)們的背景跟出身也是比較廣泛的,有的人是從學(xué)術(shù)界,或是工業(yè)界的研究院出身的,有的人是從工業(yè)界產(chǎn)品部門出身的,工程能力強(qiáng),不管是做云端的服務(wù)還是設(shè)備端的落地的東西很強(qiáng)。

整體來說我們做到了把所有這堆人攏到一個(gè)團(tuán)隊(duì)里。說起來簡單,但在大公司里做起來很難。大公司有的說我是做算法的, 是工程的,產(chǎn)品部門,整個(gè)是有藩籬的,一旦有組織界限以后,這件事情就變得隔了。

跨部門,做算法的做算法,做產(chǎn)品的做產(chǎn)品,很難產(chǎn)生正向跟反向的反饋,我們?cè)诮⑦@個(gè)團(tuán)隊(duì)之初就極力在避免這樣的事情。包括我們?nèi)齻€(gè)辦公地方,從來沒有因地域而分任何事情,比如西雅圖做什么,北京做什么。而是一個(gè)項(xiàng)目立起來后,三地的人都有可能會(huì)參與。這樣不會(huì)使得整體做著做著就分隔了。所以地方也好出身也好,大家的擅長也好,都融為一體,這樣子能夠把反饋閉環(huán)做得比較好。

從技術(shù)到產(chǎn)品,要注意的坑和細(xì)節(jié)

雷鋒網(wǎng):從你們這個(gè)小組產(chǎn)出的成果,要應(yīng)用到阿里巴巴內(nèi)部某個(gè)場(chǎng)景時(shí),一般會(huì)遇到哪些問題,如何解決?

鄢志杰:阿里來說,尤其在阿里云來講,基本上內(nèi)外客戶是完全不分的。阿里作為一家大公司內(nèi)部的需求肯定是很旺盛的,當(dāng)你去滿足內(nèi)部需求時(shí),會(huì)發(fā)現(xiàn)這個(gè)事情干起來好像很容易,因?yàn)閮?nèi)部需求實(shí)在太多了。挑挑撿撿總有能夠搞定的,總能夠完成一些 KPI,但外部就不同了,外部是一個(gè)真正的市場(chǎng)競(jìng)爭(zhēng),真正的好技術(shù)一定要得到外部的認(rèn)可,活下來,并蓬勃生長,才是真正比較健康的輸出。所以說,阿里云始終是不太區(qū)分內(nèi)部外部的,而不是只在內(nèi)部溫室里活下來。

所以,困難我覺得是說一個(gè)技術(shù)到一個(gè)產(chǎn)品,到一個(gè)好的產(chǎn)品,是有巨大的鴻溝的,不見得說有一個(gè)好的 paper。好的算法大家也的確認(rèn)可,但未必能造就一個(gè)好的產(chǎn)品,這里面有太多的細(xì)節(jié)、坑去打磨。同時(shí),客戶一定有不切實(shí)際的需求,我今天巴不得有一個(gè)像真人一樣的機(jī)器人,但技術(shù)是有它局限性的。

我們做技術(shù)的人,在落地的時(shí)候能夠去彌補(bǔ)這方面的東西,我覺得是特別重要的。一個(gè)是說技術(shù)的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎么樣去跟合作伙伴達(dá)成共識(shí)。說這個(gè)產(chǎn)品需要這樣那樣的技術(shù),指標(biāo)是什么,既能夠?qū)崿F(xiàn),又是跳著可以夠著,而不是說完全夠不著的東西。

當(dāng)然,真正做一個(gè)產(chǎn)品,是一個(gè)全方位的技術(shù),不是一個(gè)技術(shù)點(diǎn)好了就能一招鮮吃遍所有的東西,這是不太可能的。像我們語音來說不管準(zhǔn)確率,響應(yīng)速度怎么樣,對(duì)一些奇怪的Case,奇怪的問題,當(dāng)你明知道答不出來時(shí),仍然能夠顯得很智能,而不是說只是一個(gè)對(duì)不起再試一遍吧,等等。最主要的還是跟合伙伴和客戶去定義技術(shù)能夠?qū)崿F(xiàn)的產(chǎn)品的邊界,能夠從產(chǎn)品的細(xì)節(jié)上來講,真正把一項(xiàng)好的技術(shù)落地下去,最終產(chǎn)生一個(gè)真正好用的產(chǎn)品,這個(gè)是比較大的困難。

雷鋒網(wǎng):具體比如阿里集團(tuán)客服,中間遇到的問題,以及怎么解決?

鄢志杰:客服對(duì)于我們來說關(guān)注的是識(shí)別準(zhǔn)確率的問題,剛才講的問題都來了,業(yè)務(wù)方提一個(gè)指標(biāo),可能是個(gè)不可能完成的指標(biāo),比如95%的準(zhǔn)確率。你知道你的技術(shù)上去的時(shí)候也許剛剛只有60、70%。

我們?cè)趺赐ㄟ^對(duì)他業(yè)務(wù)的理解,知道他的話題,每天在談?wù)撌裁础T趺凑业胶糜玫臄?shù)據(jù),能夠迅速地提升我們技術(shù)本身在他的場(chǎng)景下的準(zhǔn)確率。最后我想我們幾乎已經(jīng)做到接近他想要程度。所以一直去管理預(yù)期,然后不斷通過技術(shù)迭代把準(zhǔn)確率做上去。

同時(shí)具體的業(yè)務(wù)很多不是一個(gè)技術(shù)可以解決的問題,譬如說一些在客服業(yè)務(wù)當(dāng)中,有一些專業(yè)客服術(shù)語,這個(gè)之前我們都是不知道的。怎么通過技術(shù)的方式把這些術(shù)語的識(shí)別準(zhǔn)確率得到提升。這個(gè)本身是一個(gè)從實(shí)際問題中的提出的一個(gè)課題。

比如,大家都知道阿里里有花名,所以每個(gè)小二都是有各種各樣的花名的,花名是非常奇怪的,今天如果拿一個(gè)通用的語音識(shí)別系統(tǒng),這樣的花名是很難識(shí)別正確的。就會(huì)觸發(fā)一條規(guī)則,小二沒有正確報(bào)出自己的名字,這是不對(duì)的,因?yàn)槭亲R(shí)別錯(cuò)了。比如說,接一個(gè)電話,“歡迎致電支付寶,我是志杰,請(qǐng)問有什么可以幫你的”,這是符合規(guī)范,如果識(shí)別錯(cuò)了,就沒有把志杰識(shí)別對(duì),這樣小二就很冤枉,被機(jī)器摘出來了。這里,就是怎么樣在具體的產(chǎn)品當(dāng)中,既把別的文字都識(shí)別好,同時(shí)還特別把花名識(shí)別正確。這些都是有很多技術(shù)的東西可以去做的。

雷鋒網(wǎng):咱們是研究跟產(chǎn)品化并行的,你們是如何判定組內(nèi)的研究成果是可以轉(zhuǎn)化到成業(yè)務(wù)推動(dòng)力的,有沒有一套明晰的機(jī)制來判斷?

鄢志杰:好問題。我覺得,有的公司是研發(fā)部門去推,自己先搞出一個(gè)好東西,然后去推,再看業(yè)務(wù)部門用不用這個(gè)東西。阿里呢,有點(diǎn)相反,業(yè)務(wù)跑得很快,更多是他們?cè)诶?,他巴不得你有什么好東西,趕緊的,甚至不成熟的東西,趕緊在我這邊去試去用。

我們作為做技術(shù)的人要有對(duì)技術(shù)的一個(gè)鑒賞力,跟一個(gè)技術(shù)的判斷眼光。您說這個(gè)怎么來的,就是牛人有這樣的眼光,經(jīng)驗(yàn)會(huì)幫助,你在這個(gè)行業(yè)里這么長的時(shí)間,基本上要慢慢建立起這種鑒賞力。就好像我們聽歌,有藝術(shù)家培養(yǎng)藝術(shù)的鑒賞力一樣,這里面有很多其實(shí)是偏藝術(shù)的成分。一個(gè)技術(shù)到底能不能真的開花結(jié)果,我們撲上這個(gè)技術(shù),真的能不能在可見的未來能被業(yè)界廣泛的采用。這個(gè)就是靠判斷力,靠人本身的素質(zhì)和經(jīng)驗(yàn),我覺得也有點(diǎn)像藝術(shù)。

雷鋒網(wǎng):你們內(nèi)部會(huì)寫一個(gè)明晰的 PPT,來明確一個(gè)判斷流程嗎?

鄢志杰:沒有。不管是工業(yè)界、學(xué)術(shù)界,整個(gè)這個(gè)部門,這條線上創(chuàng)新很多,有的真創(chuàng)新,有的假創(chuàng)新,有的是寫個(gè) paper 出來 claim 一下這個(gè)創(chuàng)新。真正哪個(gè)是靠譜的,其實(shí)各行各業(yè)我想都是這樣子的,真正哪些是靠譜的可以活的更長的技術(shù),沒有一套之規(guī)說我有一套流程可以來 If...else,有一個(gè)流程圖來判斷,不是這樣子的。

智能語音交互,阿里的目標(biāo)是什么?

雷鋒網(wǎng):這兩年亞馬遜的 Alexa 很火,國內(nèi)也有很多公司想做中國版的 Alexa,您覺得國內(nèi)公司想要做成中國的 Alexa 需要什么樣的條件?

鄢志杰:我們自己其實(shí)在這上面也有自己的思考。說實(shí)在,這件事情的鏈條比較長,就像剛才講的有端,有自然語音交互的技術(shù),有云端的服務(wù),我想大家去觀察這個(gè)的話,就是去觀察:

第一,誰布局了最豐富的互聯(lián)網(wǎng)服務(wù),包括電商、支付、O2O、內(nèi)容,誰能把這些服務(wù)早幾年的時(shí)候 magically 放到自己的生態(tài)體系里來,那就是一種嗷嗷待哺的狀態(tài)——怎么能把服務(wù)送到客戶那里去。這是第一塊,誰布局了這些服務(wù),而且誰是比較全的。

第二,智能語音交互的技術(shù)本身。誰在早幾年的時(shí)候 magically 想到說這個(gè)以后會(huì)是很重要的東西,開始組建團(tuán)隊(duì),把核心的技術(shù)建立起來。使得用戶對(duì)語音的訴求轉(zhuǎn)化為對(duì)服務(wù)的訴求。這個(gè)部分好多人都在做,技術(shù)參差不齊,有好的,有一般的,有接入別人的,也有自己投入的,這里就分出好多公司不同的方法來了。

第三,端。大家不要小看這個(gè)端,好像山寨音箱都可以做,不那么簡單,是說大家誰在布局一個(gè)端上操作系統(tǒng)。然后在這個(gè)端上要有一系列的生態(tài)合作伙伴,不光是做一個(gè)音箱,需要有電視、智能家居,機(jī)器人、汽車,等等,哪怕到一個(gè)電飯鍋。

另外,怎么樣構(gòu)建一個(gè)能力,甚至是一個(gè)商業(yè)模式,使得你的這套東西,很多的端可以迅速來接入,來把一個(gè)傳統(tǒng)意義上的端變成一個(gè)智能的端。因?yàn)椴豢赡茏鲆粋€(gè)阿里牌電飯鍋,那怎么要想這樣的方式使得人家可以輕易接入,然后瞬間具備這么好的語音交互能力,接入那么多的互聯(lián)網(wǎng)服務(wù)。

我覺得從這幾個(gè)維度看,基本上就把產(chǎn)業(yè)鏈,或者把整個(gè) pipeline 看全了,那無疑我在暗示說阿里在這些方面都有很好的投入。這個(gè)故事是非常的圓滿的。

雷鋒網(wǎng):所以阿里的目標(biāo)也是做中國版的 Alexa 嗎?

鄢志杰:這個(gè)目標(biāo)是你們起的,我覺得不應(yīng)該是這樣子講(笑)。阿里的目標(biāo)是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容,以智能語音交互的模式,在多端上提供給我們的客戶。

雷鋒網(wǎng):最近國外有一個(gè)人工智能領(lǐng)域的投資人 Bradfort Cross,寫了一篇文章 ,預(yù)測(cè)今年的AI創(chuàng)業(yè),其中第一條就是聊天機(jī)器人(Chatbots)會(huì)遇冷,理由是:

1)人們依然喜歡與真人交流,而聊天機(jī)器人則會(huì)沿襲非社交媒體平臺(tái)那一套,突出個(gè)性化但卻缺乏社交屬性,人們依然喜歡與真人交流。

2) 與其他視覺解決方案相比,會(huì)面界面在完成任務(wù)上效率并不高。在某些情況下,會(huì)話界面確實(shí)效率挺高,但在大多數(shù)應(yīng)用場(chǎng)景下它還是無法與其他方式相比擬。

不過,他并不認(rèn)為這是“AI技術(shù)還不夠好”的原因,而是因?yàn)閼?yīng)用和交互的設(shè)計(jì)還不夠,不過用人工智能做出了很有趣的應(yīng)用,用戶用不用又是另一回事了。

您怎么看他提出的問題呢?

鄢志杰:我是這么看的,第一,我部分同意這個(gè)觀點(diǎn),就比如說現(xiàn)在的手機(jī)語音助手,其實(shí)分人,并不是那么的流行,有的人愛用,但我覺得比例仍然不是特別高,原因就是它本身有一個(gè)屏幕,拿手機(jī)用手點(diǎn)點(diǎn)畫畫是很方便的,從這點(diǎn)上我是比較贊同這個(gè)觀點(diǎn)的。

不同的觀點(diǎn),他說其實(shí)不是技術(shù),我覺得還是技術(shù)。今天的語音交互 ,你對(duì)他的期待還遠(yuǎn)遠(yuǎn)達(dá)不到說能跟真人一樣的響應(yīng)水平,所以這還是一個(gè)技術(shù)問題。就好像人跟人交互時(shí),你總不會(huì)期望他臉上有個(gè)屏幕劃來劃去,不需要 。

這種更自然的方式,現(xiàn)在仍然還是技術(shù)本身,他講到交互的設(shè)計(jì),當(dāng)然是一個(gè)技術(shù)。怎么把交互設(shè)計(jì)的更好,使得人愿意用 Chatbots 來對(duì)話。本身他的理解程度能怎么樣。語音識(shí)別的準(zhǔn)確率怎么樣,他講出來的話是不是自然,還是一個(gè)像呆萌的機(jī)器人。

具體講到視覺這個(gè)策略,我倒是覺得會(huì)有一些融合的東西出來,應(yīng)該是一個(gè)多模態(tài)的東西,不能全憑語音,或者全憑計(jì)算機(jī)視覺。例如說電視,家里大家都會(huì)有一臺(tái)電視,假如說有一個(gè)設(shè)備能夠隔空跟它交互,我沒有遙控器,那要選臺(tái)什么的,當(dāng)然不會(huì)拿個(gè)手機(jī)來做,這是很怪的事情,現(xiàn)在不也有手機(jī)上安裝了電視遙控 app,叫它做一件事情,比如換臺(tái),就能出來。但是你說要用電視屏幕來買 個(gè)淘寶的東西,我可能先說“幫我找個(gè)吸塵器”,搜一下,再等界面出來后,再用手勢(shì)去做翻頁,然后點(diǎn)選。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說