專訪阿里 iDST 語音組總監(jiān)鄢志杰：智能語音交互從技術(shù)到產(chǎn)品，有哪些坑和細(xì)節(jié)要注意？

本文作者：劉芳平

2017-04-11 08:01

導(dǎo)語：阿里的目標(biāo)是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容，以智能語音交互的模式，在多端上提供給我們的客戶。

雷鋒網(wǎng)按：在外界看來，阿里 iDST 是一個神秘的部門，大家知道里面聚集了很多技術(shù)大牛，但是對這個部門真正在做的事情，以及其在阿里集團(tuán)內(nèi)扮演的角色卻不一定清楚。為此，雷鋒網(wǎng)對阿里 iDST 的語音專家鄢志杰博士進(jìn)行了專訪，帶大家了解有關(guān)阿里 iDST 的事情，以及他們是如何看待當(dāng)下最火的一些 AI 產(chǎn)品的。

鄢志杰簡介

鄢志杰，阿里巴巴 iDST (Institute of Data Science and Technologies) 智能語音交互團(tuán)隊總監(jiān)。在 2015 年加入阿里巴巴前，就職于微軟亞洲研究院，任語音組主管研究員。畢業(yè)于中國科學(xué)技術(shù)大學(xué)訊飛語音實驗室，獲博士學(xué)位。研究領(lǐng)域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機(jī)器學(xué)習(xí)算法等。在語音及文本識別領(lǐng)域頂級學(xué)術(shù)期刊及會議發(fā)表多篇論文，長期擔(dān)任語音領(lǐng)域頂級學(xué)術(shù)會議及期刊的專家評審，并擁有多項美國及 PCT 專利，目前是 IEEE senior member。

iDST 智能語音交互小組在做哪些事情？

雷鋒網(wǎng)：阿里 iDST 部門智能語音交互小組主要負(fù)責(zé)什么？

鄢志杰：我們這邊是智能語音交互的，包括幾個部分，通常我們講語音進(jìn)和語音出。語音進(jìn)就是語音識別，識別成了文字以后，就進(jìn)入到我們的對話系統(tǒng)里，做這句話的理解。然后通過對話的形式把想要的東西傳給你，方式就是以語音的方式用機(jī)器播報出來。

比如明天天氣怎么樣，它理解了這個話，然后通過對話系統(tǒng)從遠(yuǎn)端的天氣服務(wù)拿到天氣的數(shù)據(jù)，然后播報。

我做狹義的語音相關(guān)的東西比較多，比如語音識別、合成，還有通過語音做一些說話人識別驗證，包括怎么把語音在設(shè)備上落地，等等?，F(xiàn)在我們也把語音技術(shù)在阿里云上對外輸出，這些都是我自己做得比較多的。

雷鋒網(wǎng)：最近你們在做什么研究工作，有什么進(jìn)展或者發(fā)現(xiàn)？?

鄢志杰：有兩個方面：

1、自然語音交互平臺。

我們覺得往后，各種智能設(shè)備，電視、機(jī)器人等等，在家里或工作場景的智能設(shè)備會越來越多，這些設(shè)備沒有鍵盤和觸摸屏，所以需要比較便捷的方式跟互聯(lián)網(wǎng)連接，它們本身會成為互聯(lián)網(wǎng)的入口，這當(dāng)中語音肯定是一個比較重要的模態(tài)，可以跟它們交互。

交互的目的是什么呢？是取得互聯(lián)網(wǎng)上的各種服務(wù)，包括查天氣之類的信息服務(wù)，還有比如點個外賣叫個車，是一種有型社會的服務(wù)；還有一種是內(nèi)容，好比說我在電視上看某一個電視節(jié)目，誰跟誰主演的電影，這種就是網(wǎng)絡(luò)上的內(nèi)容，包括音樂、視頻。

要達(dá)成這點中間當(dāng)然會要有我們所做的這套東西，就是使得用戶的意圖通過語音進(jìn)來，轉(zhuǎn)化成對網(wǎng)上各種服務(wù)的需求，然后系統(tǒng)理解了以后帶給用戶。

這就是我們叫作智能語音交互的一個平臺。總結(jié)一下就是，它是連接多端，跟互聯(lián)網(wǎng)上廣泛的服務(wù)對接，作為中間橋梁作用的這么一個東西。

2、所有這些語音能力都會通過阿里云輸出。

鄢志杰：比如說我們有語音識別的能力，我們的合作伙伴就可以拿著這個能力去做具體的語音識別應(yīng)用，例如說我們在客服和司法直播等領(lǐng)域，發(fā)現(xiàn)有很多語音轉(zhuǎn)文字（文字轉(zhuǎn)語音）的需求。

我們最開始做這樣的能力，完全是從阿里內(nèi)部客服中心的需求來出發(fā)的，因為阿里每天淘寶、天貓和支付寶有很多的客服電話。之前在接服務(wù)電話時根本不知道服務(wù)質(zhì)量什么樣，說得不好聽的，小二如果今天心情不好，罵了客戶幾句，根本沒辦法知道，原因是抽檢的錄音需要人工去聽，那個比例是很小的。

同時傳統(tǒng)的客服中心其實有很多需求，（他們）希望知道客戶每天在問什么，什么樣的問題是最近遇到的最嚴(yán)重的問題，所有這些之前只是沉睡在那個地方，沒有辦法得到挖掘。我們一開始團(tuán)隊做的就是客服的任務(wù)，把語音轉(zhuǎn)成文字，后續(xù)有很多好玩的東西可以來做，像發(fā)掘用戶的心聲，還有知道小二的服務(wù)質(zhì)量有沒有保證。

很有意思，像這樣的能力建設(shè)出來以后，從阿里的角度講一定是要放到更大的平臺上去幫助別人成功的。我們總是講說阿里主要是個平臺公司，所以說這樣的能力一旦放出去，我們生態(tài)里的合作伙伴就可以在別人的客服當(dāng)中去搭建這樣一個東西。把語音轉(zhuǎn)成文字，做同樣的事情，甚至有人會開發(fā)出客服機(jī)器人，放前臺來自動回復(fù)用戶問題。在司法領(lǐng)域也是一樣，現(xiàn)在有合作伙伴拿著我們的能力放到法院里，代替書記員的作用。包括像直播，識別主播在說什么違規(guī)的東西等等。

總結(jié)一下，第二塊事情就是怎么把我們的能力通過阿里云對外輸出，幫助我們的合作伙伴去做具體的業(yè)務(wù)。

雷鋒網(wǎng)：最近有什么突破性的進(jìn)展和發(fā)現(xiàn)？

鄢志杰：我通常不大愛用突破這個詞，因為這個行業(yè)實在是太浮躁了，芝麻小點的事都會被很多人說成是突破。我覺得我們還是比較低調(diào)跟務(wù)實的。雖然我們各種各樣的技術(shù)其實是非常領(lǐng)先的，不過畢竟我也是從學(xué)術(shù)界來的，所以說比較注意這方面的東西，

進(jìn)展的話，講一個例子，我們一直以來語音識別有一個重要的模型叫聲學(xué)模型，就是來模擬a,o,e,b,p,m,f 是怎么發(fā)音的，這個也是提高語音識別準(zhǔn)確率的重要手段。我們一直以來是從學(xué)術(shù)界吸收最新的成果，同時在工業(yè)界大規(guī)模的問題上把它真正發(fā)揚光大去解決真正的問題。

latendy controlled 的 BLSTM 模型

在 15 年的時候，我們第一個上了 latendy controlled 的 BLSTM 模型，叫 LC-BLSTM 模型，這個東西學(xué)術(shù)界研究比較多，但是工業(yè)界第一個上線應(yīng)用的應(yīng)該算是我們。

傳統(tǒng) BLSTM 模型很慢，必須要等到一句話說完了才開始去做解碼，得到結(jié)果，就造成說完這句話后要等很久才能拿到結(jié)果，這當(dāng)然是壞處，但為什么大家還是那么著迷呢，因為好處是精度特別高，準(zhǔn)確程度高。我們做的工作就是能夠把識別的延遲降下來，使得它能夠在邊說話就邊解碼，而不是像以前一樣，要等到這句話結(jié)束后才能夠進(jìn)行解碼，達(dá)到一個既快又好的效果。

專訪阿里 iDST 語音組總監(jiān)鄢志杰：智能語音交互從技術(shù)到產(chǎn)品，有哪些坑和細(xì)節(jié)要注意？

BLSTM 進(jìn)一步提升了 LSTM 類模型的建模能力，圖片來源：薛少飛，iDST 語音專家

Low frame rate latendy controlled 的 BLSTM

后來我也發(fā)現(xiàn)一些同行，例如說 16 年底時同樣的模型他們也逐漸在上，在這之后其實我們一直在延續(xù)這條路發(fā)展，去年有個比較好的工作，是在這個基礎(chǔ)上發(fā)展出叫 Low Frame rate latendy controlled 的 BLSTM。

原來語音識別的幀率大約是 100 幀每秒，每秒鐘要計算100個 frame，運算量不容忽視，所以我們?nèi)ツ暧幸粋€方法叫 Low frame rate，把 100 幀每秒的速率，降到三分之一，相當(dāng)于同樣是 1 秒鐘的語音，處理起來只需要原來運算量的三分之一了。同時保證了跟以前一樣甚至更好的精度。

我們很快把它送到我們的線上，取得一個比較好的效果，今天我們一臺服務(wù)器，能夠支持比以前更多前發(fā)的線數(shù)。剛才提到我們把這個能力去輸出，輸出對我們的合作伙伴來說成本是非常需要考慮的因素，以阿里這么大的體量，任何一件事情進(jìn)來以后，客戶一多起來，機(jī)器的成本是一個重要的因素，語音識別本身又是一個比較耗成本的東西，對機(jī)器要求很高，有一個三倍的提升的話，直接把它變得更加普惠了，大家使用的門檻就大大降低了。

專訪阿里 iDST 語音組總監(jiān)鄢志杰：智能語音交互從技術(shù)到產(chǎn)品，有哪些坑和細(xì)節(jié)要注意？

3月23日，阿里巴巴公布“NASA”計劃

雷鋒網(wǎng)：上次馬云頒布NASA計劃時，我們應(yīng)邀解讀了一篇，后面我們采訪閩萬里博士的時候，他強調(diào)了AI＋應(yīng)用結(jié)合的側(cè)重點，這是不是后續(xù)阿里AI相關(guān)的研究部門或者小組，比如iDST 智能語音交互小組會跟應(yīng)用相關(guān)的部門合作會愈加加強的一種趨勢？?

鄢志杰：我一直覺得阿里是一家比較講究落地的公司，我們一直跟具體的業(yè)務(wù)落地結(jié)合比較緊密，我覺得 NASA 更多是表明了一種阿里的決心。因為阿里的業(yè)務(wù)實在是太成功了，某種程度上掩蓋了技術(shù)的光芒，因而要去讓大家更多覺得阿里是一家技術(shù)驅(qū)動的公司。

AI 這個東西，外面很喧囂，但我覺得我們沒有任何的改變，我們從來也不會特別地刻意去講AI，我們把所有跟 AI 相關(guān)的技術(shù)，從到底能夠?qū)ξ覀兊纳睿瑢Π⒗锏暮献骰锇?，對整個社會，帶來什么樣的有益的幫助這個角度去思考。你可以說（我們是）不太吹牛，更多的務(wù)實。

講到業(yè)務(wù)落地，一個好的AI，到底能給我們的業(yè)務(wù)帶來什么樣實實在在的幫助，而不是說只是為了提升我們的股價，或者講一個故事。如果說這些 AI 能夠用到客服中心去接我們客戶的電話，直接用機(jī)器解答一些 FAQ，那不僅減少用戶排隊的時間，同時能讓我們小二的人力省下來，真正機(jī)器答不了的問題，再轉(zhuǎn)到小二那邊由人工解決，而不是空泛說用機(jī)器人全部搞定，這個現(xiàn)在也不現(xiàn)實。

所以有人說什么 AI 取代人，我從來不這么看，我覺得這些東西一定是幫助人的，讓用戶體驗更好，小二這一側(cè)工作強度更低，更少的人可以支持更多的客戶。這個是它發(fā)揮作用的地方，而不是現(xiàn)在就去談取代人。

“既要、又要、還要”

雷鋒網(wǎng)： iDST 語音部門的的定義是什么？我看知乎上有說，

是為業(yè)務(wù)或者產(chǎn)品形成迭代支撐的技術(shù)研發(fā)部門；

有明確的業(yè)務(wù)需求推動他的產(chǎn)生；

也有通過技術(shù)部劇推動業(yè)務(wù)進(jìn)展的期望；

由于直屬王博士這個天然屬性，會在很大程度上用一種科學(xué)的方式推進(jìn)公司技術(shù)驅(qū)動化。

這些說法成立嗎？

鄢志杰：前幾天我去谷歌搜索iDST，打開前幾個搜索結(jié)果看了看。第一我感覺我們蠻低調(diào)的，并沒有一些鋪天蓋地的宣傳報道，搜索出來的信息也極為有限，蠻神秘的。二是感覺很多報道其實我在內(nèi)部看來是完全錯誤的。所以就像您說的，對 iDST 本身會有不同的解讀。

我覺得，這樣挺好的，也沒有什么問題?；氐侥膯栴}：iDST 現(xiàn)在到底是干嘛的？阿里有一句土話叫“既要又要還要”，就是說阿里的目標(biāo)通常是比較多元化的，多元化就意味著你在各個方面都要起很高的目標(biāo)。

既要

第一個目標(biāo)就是支持好阿里的業(yè)務(wù)和阿里生態(tài)里的合作伙伴。他們要去做一個業(yè)務(wù)，一定對我們的智能交互技術(shù)有他們的想法和需求，例如說我想要有一個聰明的機(jī)器人，說什么都能懂，這些核心技術(shù)我們一定要支持好。技術(shù)在輸出時，伙伴要求說你的準(zhǔn)確率必須是市面上最好，這些需求我們都要去支撐，這是第一個任務(wù)。

又要

我們不是簡單地說把這些需求滿足好了就 OK，又要說這些技術(shù)是有先進(jìn)性的，不僅是做到跟市面上最好的一樣好，而且在一些方面有自己的特色跟亮點。

還要

我們現(xiàn)在在支持那么多業(yè)務(wù)的同時，還在寫 paper，在國際的語音頂級會議、雜志上去露臉，贊助學(xué)術(shù)界的一些活動，與學(xué)術(shù)界建立比較好的關(guān)系。所以說是不能光商業(yè)上做得好，還要技術(shù)上要有說道，甚至在將來能夠起到一些引領(lǐng)的作用。

這個組織因為積聚了不少的博士，團(tuán)隊來自各大公司的專家挺多的。我們從學(xué)校雇最好語音應(yīng)屆博士生，一定是在這兩個方面有好的輸出的，偏廢哪一個都是不行的。好比說光做研究沒有產(chǎn)出，基本上很難講研究有多好；光做產(chǎn)出沒有研究，也許就顧得了當(dāng)下卻失掉了未來。我們就是一個結(jié)合的部門。

發(fā) paper 是一個副產(chǎn)品，是在持續(xù)想怎么 push 工業(yè)界做大規(guī)模任務(wù)的邊界，這當(dāng)中會產(chǎn)生一些副產(chǎn)品分享，現(xiàn)在整個語音產(chǎn)業(yè)大家還是比較樂于去分享自己的東西，各大公司都如此。但我們并不是以寫 paper 為目標(biāo)的。

雷鋒網(wǎng)： iDST 招人方面有什么自己的特殊方式？（外界一致所知甚少）

鄢志杰：首先，語音圈是一個特別小的圈，外人很難說立一塊牌子就說我今天要做一個語音團(tuán)隊，我投入很多。如果是外人的話，很難去做這樣的招聘，所以我們此前的招聘更多還是從圈子里的口碑，以高手吸引高手的方式來招聘，雖然我們也掛了大廣告，但很少有人是看了廣告直接就來的。

說實在這個圈子實在太小了，大家互相都認(rèn)識，更多是靠我們自己圈子里的口碑，大家知道你們積聚了一類什么樣的人，就能聞到你這個團(tuán)隊的風(fēng)格，跟他想去做的事情以及做事的方式。然后認(rèn)同這樣的價值觀的人，就會自然聚攏過來，更多是以這種方式。

阿里招人要求很高，同時我們也不 crazy，不會因為你是所謂的 AI 我們就一擲千金來求人才。因為我們還是覺得這樣的人才靠這個東西不可持續(xù)。所以說可以看到我們團(tuán)隊的人都是這種性格的，就是踏實做好工作，不太張揚，雖然有機(jī)會的時候也不怕去露臉，但總體來說還是不那么吵吵鬧鬧。

舉個例子，當(dāng)所有人都在號稱自己的語音識別準(zhǔn)確率 95%、97%、99% 的時候，我們是也許不多的一股清流。之前我們陳一寧有一個文章采訪他，他旗幟鮮明地喊出了語音識別的準(zhǔn)確率脫離場景去談都是耍流氓。

我們講的 95、97、99，是在非常受控的環(huán)境下一個普通話相對比較標(biāo)準(zhǔn)沒有多少口音的人，說一些比較固定的內(nèi)容。在不好的場景下，像我們在這么一個有混響的房間里，大家在激烈地爭論，有的人還有點口音，那么很容易就做到很糟糕，到文字出來看不懂程度。

雷鋒網(wǎng)：網(wǎng)上有說你們通過舉辦比賽來獲取人才，這也是一種方式嗎？

鄢志杰：對，阿里首先有一個實習(xí)生的項目，內(nèi)部有一些比賽，像我所知道的，像天池大數(shù)據(jù)競賽，都會有這樣的學(xué)生來比參加，拿阿里的一些數(shù)據(jù)，把一些奇思妙想在這樣的數(shù)據(jù)上去做驗證。

我們也有像阿里星這樣的應(yīng)屆畢業(yè)生計劃，對于個別好的，我們叫 A+ 的學(xué)生，面試完了可以直接到我們 Lab 的 Leader 的 level 去面談，很多人成為阿里星。

比賽的話，我想在語音特別是交互這方面很有可能會有類似的事情去做。

雷鋒網(wǎng)：網(wǎng)上我們只搜到一條阿里云 iDST 人工智能打敗全球速記亞軍的消息，里面有談到阿里云 iDST 智能語音團(tuán)隊擁有世界一流的專家團(tuán)隊，此次年會展示的研發(fā)成果只是冰山一角。能否介紹一下這個專家團(tuán)隊的實力？

鄢志杰：怎么談這個實力呢，首先講幾個方面吧。

第一個方面，來源比較廣泛，聚齊了此前幾個組的精英力量，包括咱們有微軟來的不少同事，國際上有一個做得最大的語音技術(shù)提供商叫 Nuance，這方面的同事也越來越多了。我們還有來源于百度此前語音部門的同事，有科大訊飛的畢業(yè)生，還有高通語音方面的專家，尤其在麥克風(fēng)、智能電子信號處理這方面，等等。這些就是來源廣泛。

第二個，博士、海歸的比例很高，這個我們算不算是精英團(tuán)隊的表現(xiàn)（笑），也許吧，反正自己也不大當(dāng)回事。

還有我們地域分布也是很廣泛的，北京、杭州、西雅圖，都是語音重鎮(zhèn)，所以也更加多元化了。

最后，還有一點就是同學(xué)們的背景跟出身也是比較廣泛的，有的人是從學(xué)術(shù)界，或是工業(yè)界的研究院出身的，有的人是從工業(yè)界產(chǎn)品部門出身的，工程能力強，不管是做云端的服務(wù)還是設(shè)備端的落地的東西很強。

整體來說我們做到了把所有這堆人攏到一個團(tuán)隊里。說起來簡單，但在大公司里做起來很難。大公司有的說我是做算法的，是工程的，產(chǎn)品部門，整個是有藩籬的，一旦有組織界限以后，這件事情就變得隔了。

跨部門，做算法的做算法，做產(chǎn)品的做產(chǎn)品，很難產(chǎn)生正向跟反向的反饋，我們在建立這個團(tuán)隊之初就極力在避免這樣的事情。包括我們?nèi)齻€辦公地方，從來沒有因地域而分任何事情，比如西雅圖做什么，北京做什么。而是一個項目立起來后，三地的人都有可能會參與。這樣不會使得整體做著做著就分隔了。所以地方也好出身也好，大家的擅長也好，都融為一體，這樣子能夠把反饋閉環(huán)做得比較好。

從技術(shù)到產(chǎn)品，要注意的坑和細(xì)節(jié)

雷鋒網(wǎng)：從你們這個小組產(chǎn)出的成果，要應(yīng)用到阿里巴巴內(nèi)部某個場景時，一般會遇到哪些問題，如何解決？

鄢志杰：阿里來說，尤其在阿里云來講，基本上內(nèi)外客戶是完全不分的。阿里作為一家大公司內(nèi)部的需求肯定是很旺盛的，當(dāng)你去滿足內(nèi)部需求時，會發(fā)現(xiàn)這個事情干起來好像很容易，因為內(nèi)部需求實在太多了。挑挑撿撿總有能夠搞定的，總能夠完成一些 KPI，但外部就不同了，外部是一個真正的市場競爭，真正的好技術(shù)一定要得到外部的認(rèn)可，活下來，并蓬勃生長，才是真正比較健康的輸出。所以說，阿里云始終是不太區(qū)分內(nèi)部外部的，而不是只在內(nèi)部溫室里活下來。

所以，困難我覺得是說一個技術(shù)到一個產(chǎn)品，到一個好的產(chǎn)品，是有巨大的鴻溝的，不見得說有一個好的 paper。好的算法大家也的確認(rèn)可，但未必能造就一個好的產(chǎn)品，這里面有太多的細(xì)節(jié)、坑去打磨。同時，客戶一定有不切實際的需求，我今天巴不得有一個像真人一樣的機(jī)器人，但技術(shù)是有它局限性的。

我們做技術(shù)的人，在落地的時候能夠去彌補這方面的東西，我覺得是特別重要的。一個是說技術(shù)的局限性到底在哪，哪些是可以突破，哪些是突破不了的，怎么樣去跟合作伙伴達(dá)成共識。說這個產(chǎn)品需要這樣那樣的技術(shù)，指標(biāo)是什么，既能夠?qū)崿F(xiàn)，又是跳著可以夠著，而不是說完全夠不著的東西。

當(dāng)然，真正做一個產(chǎn)品，是一個全方位的技術(shù)，不是一個技術(shù)點好了就能一招鮮吃遍所有的東西，這是不太可能的。像我們語音來說不管準(zhǔn)確率，響應(yīng)速度怎么樣，對一些奇怪的Case，奇怪的問題，當(dāng)你明知道答不出來時，仍然能夠顯得很智能，而不是說只是一個對不起再試一遍吧，等等。最主要的還是跟合伙伴和客戶去定義技術(shù)能夠?qū)崿F(xiàn)的產(chǎn)品的邊界，能夠從產(chǎn)品的細(xì)節(jié)上來講，真正把一項好的技術(shù)落地下去，最終產(chǎn)生一個真正好用的產(chǎn)品，這個是比較大的困難。

雷鋒網(wǎng)：具體比如阿里集團(tuán)客服，中間遇到的問題，以及怎么解決？

鄢志杰：客服對于我們來說關(guān)注的是識別準(zhǔn)確率的問題，剛才講的問題都來了，業(yè)務(wù)方提一個指標(biāo)，可能是個不可能完成的指標(biāo)，比如95%的準(zhǔn)確率。你知道你的技術(shù)上去的時候也許剛剛只有60、70%。

我們怎么通過對他業(yè)務(wù)的理解，知道他的話題，每天在談?wù)撌裁?。怎么找到好用的?shù)據(jù)，能夠迅速地提升我們技術(shù)本身在他的場景下的準(zhǔn)確率。最后我想我們幾乎已經(jīng)做到接近他想要程度。所以一直去管理預(yù)期，然后不斷通過技術(shù)迭代把準(zhǔn)確率做上去。

同時具體的業(yè)務(wù)很多不是一個技術(shù)可以解決的問題，譬如說一些在客服業(yè)務(wù)當(dāng)中，有一些專業(yè)客服術(shù)語，這個之前我們都是不知道的。怎么通過技術(shù)的方式把這些術(shù)語的識別準(zhǔn)確率得到提升。這個本身是一個從實際問題中的提出的一個課題。

比如，大家都知道阿里里有花名，所以每個小二都是有各種各樣的花名的，花名是非常奇怪的，今天如果拿一個通用的語音識別系統(tǒng)，這樣的花名是很難識別正確的。就會觸發(fā)一條規(guī)則，小二沒有正確報出自己的名字，這是不對的，因為是識別錯了。比如說，接一個電話，“歡迎致電支付寶，我是志杰，請問有什么可以幫你的”，這是符合規(guī)范，如果識別錯了，就沒有把志杰識別對，這樣小二就很冤枉，被機(jī)器摘出來了。這里，就是怎么樣在具體的產(chǎn)品當(dāng)中，既把別的文字都識別好，同時還特別把花名識別正確。這些都是有很多技術(shù)的東西可以去做的。

雷鋒網(wǎng)：咱們是研究跟產(chǎn)品化并行的，你們是如何判定組內(nèi)的研究成果是可以轉(zhuǎn)化到成業(yè)務(wù)推動力的，有沒有一套明晰的機(jī)制來判斷？

鄢志杰：好問題。我覺得，有的公司是研發(fā)部門去推，自己先搞出一個好東西，然后去推，再看業(yè)務(wù)部門用不用這個東西。阿里呢，有點相反，業(yè)務(wù)跑得很快，更多是他們在拉，他巴不得你有什么好東西，趕緊的，甚至不成熟的東西，趕緊在我這邊去試去用。

我們作為做技術(shù)的人要有對技術(shù)的一個鑒賞力，跟一個技術(shù)的判斷眼光。您說這個怎么來的，就是牛人有這樣的眼光，經(jīng)驗會幫助，你在這個行業(yè)里這么長的時間，基本上要慢慢建立起這種鑒賞力。就好像我們聽歌，有藝術(shù)家培養(yǎng)藝術(shù)的鑒賞力一樣，這里面有很多其實是偏藝術(shù)的成分。一個技術(shù)到底能不能真的開花結(jié)果，我們撲上這個技術(shù)，真的能不能在可見的未來能被業(yè)界廣泛的采用。這個就是靠判斷力，靠人本身的素質(zhì)和經(jīng)驗，我覺得也有點像藝術(shù)。

雷鋒網(wǎng)：你們內(nèi)部會寫一個明晰的 PPT，來明確一個判斷流程嗎？

鄢志杰：沒有。不管是工業(yè)界、學(xué)術(shù)界，整個這個部門，這條線上創(chuàng)新很多，有的真創(chuàng)新，有的假創(chuàng)新，有的是寫個 paper 出來 claim 一下這個創(chuàng)新。真正哪個是靠譜的，其實各行各業(yè)我想都是這樣子的，真正哪些是靠譜的可以活的更長的技術(shù)，沒有一套之規(guī)說我有一套流程可以來 If...else，有一個流程圖來判斷，不是這樣子的。

智能語音交互，阿里的目標(biāo)是什么？

雷鋒網(wǎng)：這兩年亞馬遜的 Alexa 很火，國內(nèi)也有很多公司想做中國版的 Alexa，您覺得國內(nèi)公司想要做成中國的 Alexa 需要什么樣的條件？

鄢志杰：我們自己其實在這上面也有自己的思考。說實在，這件事情的鏈條比較長，就像剛才講的有端，有自然語音交互的技術(shù)，有云端的服務(wù)，我想大家去觀察這個的話，就是去觀察：

第一，誰布局了最豐富的互聯(lián)網(wǎng)服務(wù)，包括電商、支付、O2O、內(nèi)容，誰能把這些服務(wù)早幾年的時候 magically 放到自己的生態(tài)體系里來，那就是一種嗷嗷待哺的狀態(tài)——怎么能把服務(wù)送到客戶那里去。這是第一塊，誰布局了這些服務(wù)，而且誰是比較全的。

第二，智能語音交互的技術(shù)本身。誰在早幾年的時候 magically 想到說這個以后會是很重要的東西，開始組建團(tuán)隊，把核心的技術(shù)建立起來。使得用戶對語音的訴求轉(zhuǎn)化為對服務(wù)的訴求。這個部分好多人都在做，技術(shù)參差不齊，有好的，有一般的，有接入別人的，也有自己投入的，這里就分出好多公司不同的方法來了。

第三，端。大家不要小看這個端，好像山寨音箱都可以做，不那么簡單，是說大家誰在布局一個端上操作系統(tǒng)。然后在這個端上要有一系列的生態(tài)合作伙伴，不光是做一個音箱，需要有電視、智能家居，機(jī)器人、汽車，等等，哪怕到一個電飯鍋。

另外，怎么樣構(gòu)建一個能力，甚至是一個商業(yè)模式，使得你的這套東西，很多的端可以迅速來接入，來把一個傳統(tǒng)意義上的端變成一個智能的端。因為不可能做一個阿里牌電飯鍋，那怎么要想這樣的方式使得人家可以輕易接入，然后瞬間具備這么好的語音交互能力，接入那么多的互聯(lián)網(wǎng)服務(wù)。

我覺得從這幾個維度看，基本上就把產(chǎn)業(yè)鏈，或者把整個 pipeline 看全了，那無疑我在暗示說阿里在這些方面都有很好的投入。這個故事是非常的圓滿的。

雷鋒網(wǎng)：所以阿里的目標(biāo)也是做中國版的 Alexa 嗎？

鄢志杰：這個目標(biāo)是你們起的，我覺得不應(yīng)該是這樣子講（笑）。阿里的目標(biāo)是怎么樣方便地把互聯(lián)網(wǎng)豐富的服務(wù)和內(nèi)容，以智能語音交互的模式，在多端上提供給我們的客戶。

雷鋒網(wǎng)：最近國外有一個人工智能領(lǐng)域的投資人 Bradfort Cross，寫了一篇文章，預(yù)測今年的AI創(chuàng)業(yè)，其中第一條就是聊天機(jī)器人（Chatbots）會遇冷，理由是：

1）人們依然喜歡與真人交流，而聊天機(jī)器人則會沿襲非社交媒體平臺那一套，突出個性化但卻缺乏社交屬性，人們依然喜歡與真人交流。

2）與其他視覺解決方案相比，會面界面在完成任務(wù)上效率并不高。在某些情況下，會話界面確實效率挺高，但在大多數(shù)應(yīng)用場景下它還是無法與其他方式相比擬。

不過，他并不認(rèn)為這是“AI技術(shù)還不夠好”的原因，而是因為應(yīng)用和交互的設(shè)計還不夠，不過用人工智能做出了很有趣的應(yīng)用，用戶用不用又是另一回事了。

您怎么看他提出的問題呢？

鄢志杰：我是這么看的，第一，我部分同意這個觀點，就比如說現(xiàn)在的手機(jī)語音助手，其實分人，并不是那么的流行，有的人愛用，但我覺得比例仍然不是特別高，原因就是它本身有一個屏幕，拿手機(jī)用手點點畫畫是很方便的，從這點上我是比較贊同這個觀點的。

不同的觀點，他說其實不是技術(shù)，我覺得還是技術(shù)。今天的語音交互，你對他的期待還遠(yuǎn)遠(yuǎn)達(dá)不到說能跟真人一樣的響應(yīng)水平，所以這還是一個技術(shù)問題。就好像人跟人交互時，你總不會期望他臉上有個屏幕劃來劃去，不需要。

這種更自然的方式，現(xiàn)在仍然還是技術(shù)本身，他講到交互的設(shè)計，當(dāng)然是一個技術(shù)。怎么把交互設(shè)計的更好，使得人愿意用 Chatbots 來對話。本身他的理解程度能怎么樣。語音識別的準(zhǔn)確率怎么樣，他講出來的話是不是自然，還是一個像呆萌的機(jī)器人。

具體講到視覺這個策略，我倒是覺得會有一些融合的東西出來，應(yīng)該是一個多模態(tài)的東西，不能全憑語音，或者全憑計算機(jī)視覺。例如說電視，家里大家都會有一臺電視，假如說有一個設(shè)備能夠隔空跟它交互，我沒有遙控器，那要選臺什么的，當(dāng)然不會拿個手機(jī)來做，這是很怪的事情，現(xiàn)在不也有手機(jī)上安裝了電視遙控 app，叫它做一件事情，比如換臺，就能出來。但是你說要用電視屏幕來買個淘寶的東西，我可能先說“幫我找個吸塵器”，搜一下，再等界面出來后，再用手勢去做翻頁，然后點選。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。