0
本文作者: 李詩(shī) | 2018-09-14 18:12 |
根據(jù)《2018中國(guó)智能語音行業(yè)前景研究報(bào)告》,2017年中國(guó)的智能語音市場(chǎng)規(guī)模已經(jīng)達(dá)到了105.71億元,比2016年增長(zhǎng)了70%,而2018年這個(gè)規(guī)模預(yù)計(jì)將繼續(xù)擴(kuò)大三分之一,達(dá)到159.7億元。語音行業(yè)紅紅火火。
站在2003年,鄢志杰選擇進(jìn)入中科大語音實(shí)驗(yàn)室攻讀博士時(shí),行業(yè)留給語音人才的就業(yè)崗位極其稀缺,當(dāng)時(shí)像微軟亞洲研究院這樣跨國(guó)公司的研發(fā)機(jī)構(gòu),每年在語音方向上也就一兩個(gè)校招名額。當(dāng)時(shí)的他,自然難以想象15年后,語音技術(shù)會(huì)如此火爆,像水電這樣的基礎(chǔ)設(shè)施一樣融入每個(gè)人的生活。
扎根語音行業(yè)十多年,他在語音識(shí)別、語音合成、語音交互等多個(gè)領(lǐng)域都有了深入的研究,熬過了長(zhǎng)達(dá)近十年的技術(shù)瓶頸期,見證兩次語音技術(shù)的大突破,終于等到人人都能明白語音交互的概念和未來。鄢志杰作為目前阿里語音團(tuán)隊(duì)的帶頭人,聊過很多關(guān)于語音技術(shù)的現(xiàn)狀和未來,不過他這十幾年的個(gè)人經(jīng)歷,他在中科大語音實(shí)驗(yàn)室、微軟亞洲研究院語音團(tuán)隊(duì)、阿里巴巴機(jī)器智能技術(shù)實(shí)驗(yàn)室的經(jīng)歷,卻很少為人所知。雷鋒網(wǎng)這篇獨(dú)家對(duì)話文,正是想讓鄢志杰談?wù)勊宦纷邅淼娘L(fēng)景。
(鄢志杰,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室語音交互首席專家,長(zhǎng)期從事語音交互智能的研究、產(chǎn)品化和商業(yè)化工作。畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)語音實(shí)驗(yàn)室,獲博士學(xué)位,2015年加入阿里巴巴集團(tuán)。在加入阿里巴巴集團(tuán)之前,就職于微軟亞洲研究院語音團(tuán)隊(duì)任主管研究員。其研究領(lǐng)域主要包括語音識(shí)別、語音合成、聲紋、語音交互等。在語音及文本識(shí)別領(lǐng)域頂級(jí)學(xué)術(shù)期刊及會(huì)議發(fā)表多篇論文,長(zhǎng)期擔(dān)任語音領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議及期刊的專家評(píng)審,并擁有多項(xiàng)美國(guó)及PCT專利。其研究成果被轉(zhuǎn)化并應(yīng)用于阿里巴巴集團(tuán)、螞蟻金服及微軟公司多項(xiàng)語音相關(guān)產(chǎn)品中,目前是IEEE senior member。曾榮獲中國(guó)科協(xié)百名基層科技工作者稱號(hào)。)
2003年,鄢志杰本科畢業(yè),他選擇升入中科大語音實(shí)驗(yàn)室,攻讀博士學(xué)位。鄢志杰師從王仁華教授,是最后幾屆關(guān)門弟子。王仁華教授是語音領(lǐng)域大牛,不僅精通語音技術(shù),還熟諳語音技術(shù)的商業(yè)化,當(dāng)時(shí)他已經(jīng)是科大訊飛主要?jiǎng)?chuàng)始人之一、科大訊飛董事長(zhǎng)。
站在2003年,鄢志杰或許想不到語音行業(yè)會(huì)有現(xiàn)在這么火熱。他回憶道,當(dāng)時(shí),在語音合成方面,機(jī)器人說出來的話只能做到聽懂,沒辦法合成長(zhǎng)段的、流暢自然的語音。在語音識(shí)別方面,只能在簡(jiǎn)單任務(wù)上做得比較好,例如數(shù)字串識(shí)別。像今天的智能語音助理,能聽懂用戶說的話再去執(zhí)行任務(wù),這樣的應(yīng)用在當(dāng)時(shí)是難以想象的。
十幾年前,語音不是熱門專業(yè),但是在鄢志杰看來,語音是人機(jī)交互下一個(gè)里程碑,是有趣有用的技術(shù),就值得學(xué)。他的導(dǎo)師王仁華教授也非常開放,除了教書育人、在實(shí)驗(yàn)室培養(yǎng)學(xué)生,也通過人脈將學(xué)生們送到海內(nèi)外各個(gè)學(xué)校或公司的知名研究機(jī)構(gòu)去訪問交流。例如鄢志杰自己,在攻讀博士學(xué)位期間就先后到微軟亞洲研究院和美國(guó)佐治亞理工學(xué)院的語音實(shí)驗(yàn)室訪問。要知道,彼時(shí)國(guó)內(nèi)做研究、查論文、做學(xué)術(shù)交流的條件遠(yuǎn)不如現(xiàn)在這樣方便,既沒有開源學(xué)術(shù)社區(qū),學(xué)術(shù)搜索引擎也還不存在。而這些經(jīng)歷大大的開拓了像鄢志杰這樣的學(xué)生們的國(guó)際視野,也造就了今天國(guó)內(nèi)語音學(xué)術(shù)界和工業(yè)界的一批活躍分子。王老師實(shí)驗(yàn)室的弟子們很多都成為了高校科研院所或產(chǎn)業(yè)界從事語音交互技術(shù)的骨干。
但回到10年前,技術(shù)的不成熟使得工業(yè)界對(duì)語音專業(yè)的學(xué)生的需求也小。在當(dāng)時(shí),全世界的就業(yè)市場(chǎng)留給語音專業(yè)的畢業(yè)生的崗位很少,可以說是稀缺,畢業(yè)生并不好找工作。只有像微軟、IBM這些大公司能夠燒錢養(yǎng)活團(tuán)隊(duì),持續(xù)在語音領(lǐng)域做技術(shù)研發(fā)。鄢志杰去到微軟亞洲研究院那幾年,研究院在亞太范圍內(nèi)每年也就一兩個(gè)校招博士名額。
鄢志杰說,微軟是一家偉大的世界級(jí)公司,儲(chǔ)備的是世界級(jí)人才,微軟能提供的平臺(tái)和視野對(duì)做語音交互的人才來說是當(dāng)時(shí)國(guó)內(nèi)最好的。博士畢業(yè)后,鄢志杰在微軟工作了近7年?;貞浧饋恚X得在微軟這幾年的成長(zhǎng)經(jīng)歷,極大的拓展了自己在研究以及工業(yè)界思維的廣度和深度。在中科大的時(shí)候,鄢志杰主要的方向是語音識(shí)別,在微軟后也做了一段時(shí)間語音合成、聲紋相關(guān)方向,拓寬了領(lǐng)域。由于是研究院,微軟研究氛圍跟象牙塔式的校園很像,能夠讓研究員慢工出細(xì)活地做一些令人興奮的技術(shù)。
回憶起十幾年的學(xué)習(xí)和科研經(jīng)歷,鄢志杰印象最深刻的是語音技術(shù)兩次大的突破。
第一次大的突破在2000年左右,在大詞匯量連續(xù)語音識(shí)別任務(wù)上出現(xiàn)了一種叫 discriminative training(區(qū)分度訓(xùn)練)的技術(shù),使得語音識(shí)別的準(zhǔn)確率上了一個(gè)臺(tái)階,相對(duì)提升了大致20%-30%。然后在往后的幾年中,就有大量沿著這條技術(shù)路線的新方法被提出來。
好景不長(zhǎng),過了幾年時(shí)間,discriminative training陷入了平臺(tái)期,一直持續(xù)了快十年。2006年,辛頓提出深度學(xué)習(xí)的概念,深度神經(jīng)網(wǎng)絡(luò)研究因此而復(fù)蘇。2009年,辛頓和他的學(xué)生將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模上并獲得成功。到了2010年前后,微軟研究院請(qǐng)來了辛頓的學(xué)生前來交流,俞棟、鄧力等人將深度學(xué)習(xí)應(yīng)用到工業(yè)級(jí)語音識(shí)別系統(tǒng)中,使識(shí)別錯(cuò)誤率再次降低了20%以上。此后,一直到現(xiàn)在,深度學(xué)習(xí)方法在語音識(shí)別、語音合成、NLP、對(duì)話系統(tǒng)等多方面都取得了成效。
回顧這兩次突破,鄢志杰說:語音技術(shù)從一個(gè)個(gè)突破到一次次沉寂,總是伴隨著一個(gè)螺旋上升的過程。今天的語音交互技術(shù)已經(jīng)跨過了“能用”的門檻,越來越多的向“好用”在邁進(jìn)。
2015年,鄢志杰離開微軟,加入了阿里巴巴iDST (Institute of Data Science and Technologies)。他說現(xiàn)在回過頭來,阿里巴巴最大的特點(diǎn)是落地能力特別強(qiáng),能夠把技術(shù)產(chǎn)品化,產(chǎn)品再商業(yè)化。幾年后,他越來越明白其中的原因:阿里會(huì)要求技術(shù)人員也懂商業(yè),在做技術(shù)選題的時(shí)候,把商業(yè)作為其中一個(gè)維度來思考。鄢志杰認(rèn)為阿里的商業(yè)基因?qū)λ稣Z音交互技術(shù)是很好的土壤。
2010年深度學(xué)習(xí)技術(shù)與語音結(jié)合之后,到2015年行業(yè)已經(jīng)有了很大的變化,科技巨頭都相繼推出了各自的語音產(chǎn)品。
鄢志杰加入時(shí),正值阿里巴巴開始嚴(yán)肅地投資語音交互技術(shù)(當(dāng)時(shí)“AI”這個(gè)詞還不像今天這么熱)。阿里做語音在國(guó)內(nèi)的巨頭中并不算早,但卻在恰當(dāng)?shù)臅r(shí)機(jī)入局,完成了對(duì)人才和技術(shù)的積累,并滿足了集團(tuán)自身的發(fā)展的需要。
語音系統(tǒng)、交互系統(tǒng)鏈條很長(zhǎng),鄢志杰加入后主要做的事情是搭建平臺(tái)、打基礎(chǔ)。從一張白紙起步,也是一件好事,沒有歷史包袱,能放開了手做,把當(dāng)時(shí)最好的技術(shù)迅速產(chǎn)業(yè)化,這是后發(fā)優(yōu)勢(shì)。例如,當(dāng)時(shí)阿里巴巴團(tuán)隊(duì)在聲學(xué)模型上可以沒有包袱的做最好的選型,在2015年首先上線了latency-controlled BLSTM 模型,叫 LC-BLSTM 模型,這個(gè)模型從學(xué)術(shù)界研究出來,到工業(yè)界第一個(gè)上線,只用了幾個(gè)月的時(shí)間。
傳統(tǒng) BLSTM 模型存在latency問題,必須要等到一句話說完了才開始去做解碼,得到結(jié)果,就造成說完這句話后要等很久才能拿到結(jié)果,這當(dāng)然是壞處,但為什么大家還是那么著迷呢,因?yàn)楹锰幨蔷忍貏e高,準(zhǔn)確程度高。阿里巴巴團(tuán)隊(duì)所做的工作就是能夠把識(shí)別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結(jié)束后才能夠進(jìn)行解碼,達(dá)到一個(gè)既快又好的效果。像這樣的創(chuàng)新還有很多,阿里巴巴用最短的時(shí)間從零搭建出一套完全自主的、業(yè)界最頂尖的語音識(shí)別系統(tǒng)。
iDST團(tuán)隊(duì)在阿里內(nèi)部有幾次調(diào)整,語音在阿里戰(zhàn)略的地位也有所變化。
據(jù)雷鋒網(wǎng)了解,一開始,阿里做語音主要是從阿里內(nèi)部客服中心的需求來出發(fā)的,因?yàn)榘⒗锩刻焯詫?、天貓和支付寶有很多的客服電話,語音識(shí)別可以去分析服務(wù)質(zhì)量。當(dāng)時(shí)的語音技術(shù)都是通過阿里云輸出的,語音技術(shù)被視為云計(jì)算里邊一個(gè)不可缺少的原子組件,因此iDST曾被劃分到阿里云。鄢志杰回憶道,之前語音團(tuán)隊(duì)很多時(shí)候都是滿足集團(tuán)各業(yè)務(wù)的需求。
17年上半年的時(shí)候,iDST回到了技術(shù)中臺(tái),成立了iDST2.0,改名為機(jī)器智能技術(shù)實(shí)驗(yàn)室。當(dāng)時(shí)阿里意識(shí)到,語音是一個(gè)基礎(chǔ)技術(shù),不僅是阿里云一個(gè)部門需要,集團(tuán)內(nèi)外也都有強(qiáng)烈需求?;氐街信_(tái)后,機(jī)器智能技術(shù)實(shí)驗(yàn)室主要承擔(dān)了兩個(gè)任務(wù):首先是對(duì)內(nèi)服務(wù),支持集團(tuán)內(nèi)部、螞蟻金服、阿里巴巴經(jīng)濟(jì)體等;然后是對(duì)外服務(wù),通過阿里云做商業(yè)輸出、被生態(tài)客戶使用。
2017年11月,阿里巴巴 CTO 張建鋒(花名行癲)宣布阿里巴巴成立全球研究院——阿里巴巴達(dá)摩院,研究領(lǐng)域包括量子計(jì)算、人工智能、機(jī)器學(xué)習(xí)、視覺計(jì)算、自然語言處理、下一代人機(jī)交互等。機(jī)器智能技術(shù)實(shí)驗(yàn)室也劃在了達(dá)摩院之下,是達(dá)摩院在下一代顛覆性人機(jī)交互技術(shù)和用戶體驗(yàn)方面的核心團(tuán)隊(duì),其中包括鄢志杰負(fù)責(zé)的智能語音交互。
到了達(dá)摩院,阿里巴巴集團(tuán)加大了對(duì)機(jī)器智能實(shí)驗(yàn)室團(tuán)隊(duì)的投資力度,團(tuán)隊(duì)的規(guī)模也上升了一個(gè)等級(jí)。鄢志杰談到,如果說過去iDST主要支撐集團(tuán)各業(yè)務(wù)部門,到了達(dá)摩院,機(jī)器智能實(shí)驗(yàn)室的角色轉(zhuǎn)換成了技術(shù)創(chuàng)造新商業(yè),更多的是去做一些有技術(shù)壁壘的東西。
達(dá)摩院成立后,吸引了諸多國(guó)內(nèi)外技術(shù)領(lǐng)軍人物,比如量子計(jì)算大牛施堯耘。在鄢志杰的帶領(lǐng)下,語音團(tuán)隊(duì)也招募到了馮建偉、付強(qiáng)、馬斌等行業(yè)大牛,形成了一個(gè)橫跨兩岸三國(guó)五地的國(guó)際化團(tuán)隊(duì),還有了不止一位“老外”成員。
時(shí)隔一年,達(dá)摩院在探索未來科技的路上成績(jī)斐然:
研發(fā)了一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU,打破缺芯少魂的被動(dòng)局面;
研制出世界最強(qiáng)的量子電路模擬器“太章”,成功挑戰(zhàn)谷歌的量子霸權(quán)
斬獲WMT2018國(guó)際機(jī)器翻譯大賽冠軍
阿里巴巴電商機(jī)器翻譯總量日均達(dá)7.5億次
語音團(tuán)隊(duì)也將自身的創(chuàng)新更多的與業(yè)界分享,在前不久開源了最新的語音識(shí)別聲學(xué)模型DFSMN,將開源數(shù)據(jù)上語音識(shí)別準(zhǔn)確率提高至96.04%,并使得全世界的研究者可以在此基礎(chǔ)上持續(xù)創(chuàng)新。
鄢志杰曾談到,阿里現(xiàn)在的語音技術(shù)站在端和云的中間,端就是各類終端,包括電視、汽車、音箱、IoT設(shè)備等,云端就是阿里布局的互聯(lián)網(wǎng)內(nèi)容和服務(wù)。
在2018年3 月底的云棲大會(huì)上,阿里云總裁胡曉明在會(huì)上做出戰(zhàn)略宣布:阿里巴巴全面進(jìn)軍 IoT。這是繼電商、金融、物流、云計(jì)算之后的一條新的主賽道。計(jì)算是心臟,AI 是大腦,IoT 是神經(jīng)。語音技術(shù)作為核心AI技術(shù)在阿里巴巴的數(shù)字化和物聯(lián)網(wǎng)布局上是重要一環(huán)。鄢志杰認(rèn)為語音交互智能將成為 智聯(lián)網(wǎng)設(shè)備 與內(nèi)容和服務(wù)的橋梁。
那么,阿里各個(gè)部門是如何配合起來發(fā)力智能語音+智聯(lián)網(wǎng)的呢?
首先是阿里云物聯(lián)網(wǎng)平臺(tái)。2017年10月,阿里云在杭州.云棲大會(huì)上發(fā)布阿里云Link物聯(lián)網(wǎng)平臺(tái),提供物聯(lián)網(wǎng)云端一體化使能平臺(tái)、物聯(lián)網(wǎng)市場(chǎng)、ICA全球標(biāo)準(zhǔn)聯(lián)盟等三大基礎(chǔ)設(shè)施,已經(jīng)完成生活平臺(tái)、城市平臺(tái)和商業(yè)共享平臺(tái)的的搭建,解決方案覆蓋智能生活、智能城市、智能園區(qū)、智能農(nóng)業(yè)、智能制造、智慧共享六大行業(yè)。然后在終端方面,阿里推出了mesh智能家居開放平臺(tái),使所有智能硬件都能統(tǒng)一接入一個(gè)網(wǎng)絡(luò)協(xié)議。
智能語音交互與IoT設(shè)備結(jié)合可以說是一大趨勢(shì),雷鋒網(wǎng)曾分析,2018年,各大公司都在建立IoT平臺(tái),例如:小米IoT開發(fā)者平臺(tái)、阿里云Link、百度“天工”、京東Alpha-IoT、QQ物聯(lián)平臺(tái)、微軟Azure IoT,這些公司也都有自己的智能語音助手。小米、阿里、百度、微軟等已經(jīng)明確將智能語音+IoT看作IoT平臺(tái)以及對(duì)話式人工智能發(fā)展的關(guān)鍵。
目前阿里已經(jīng)推出了天貓精靈、榮威智聯(lián)網(wǎng)汽車、海爾人工智能電視等落地的智能語音產(chǎn)品,除了這些,鄢志杰團(tuán)隊(duì)過去一年還在忙于:將智能語音交互帶到公共空間。
此前的語音交互主要是近場(chǎng)交互或較安靜條件下的遠(yuǎn)場(chǎng)交互,場(chǎng)景局限于拿在手上的手機(jī)、安靜的室內(nèi)。鄢志杰團(tuán)隊(duì)在擴(kuò)展室外公共空間場(chǎng)景做了很多努力,并將創(chuàng)新的多模態(tài)語音交互技術(shù)通過阿里云輸出,解決公共空間嘈雜環(huán)境下的遠(yuǎn)距離語音交互問題。
去年10月,阿里云與上海地鐵展開合作,首次推出了語音售票概念,并已于今年3月正式落戶上海南站供市民使用。乘客只需告訴機(jī)器你想去的目的地,就會(huì)自動(dòng)調(diào)用云端的高德地圖服務(wù),檢索完成并自動(dòng)出票,全程不過數(shù)秒鐘。
鄢志杰表示,地鐵是一個(gè)很嘈雜的空間,且會(huì)出現(xiàn)多人并排買票的情況,阿里巴巴的解決方案是重新設(shè)計(jì)了語音交互硬件的麥克風(fēng)陣列、還添加了光學(xué)攝像頭來識(shí)別說話人,解決這一獨(dú)特場(chǎng)景的問題。
類似的場(chǎng)景還有很多很多:浙江省100多家法院上線了阿里云智能語音識(shí)別系統(tǒng);今年5月的云棲大會(huì)武漢峰會(huì)上,阿里云在現(xiàn)場(chǎng)相當(dāng)嘈雜的環(huán)境中成功演示了AI點(diǎn)餐技術(shù);據(jù)雷鋒網(wǎng)了解,即將召開的2018杭州·云棲大會(huì)上,阿里云還將攜手肯德基展示智能點(diǎn)餐機(jī)體驗(yàn)區(qū)......
物聯(lián)網(wǎng)是一塊大蛋糕,雖然巨頭都在布局,但是各自的角色還是有所不同,有人在做硬件、有人在做系統(tǒng)、有人在做品類。阿里的特色在于電商,無數(shù)的硬件廠商在阿里的平臺(tái)上銷售,他們都可以接入阿里平臺(tái),可以獲得阿里的語音交互技術(shù);此外,阿里也在做自己的硬件,比如天貓精靈;阿里的線下支付場(chǎng)景更是獨(dú)一無二,對(duì)語音交互也有強(qiáng)烈需求。
雖然目前競(jìng)爭(zhēng)很激烈,但是鄢志杰認(rèn)為語音交互技術(shù)落地,還是需要找到強(qiáng)場(chǎng)景、要有用戶的主動(dòng)訴求、要有大規(guī)模的市場(chǎng)。鄢志杰認(rèn)為目前市面上的一些語音交互應(yīng)用噱頭成分居多,具備這三種條件的場(chǎng)景其實(shí)并不多,需要更多探索。
在人工智能火熱的當(dāng)下,語音技術(shù)作為基礎(chǔ)技術(shù),發(fā)揮著猶如水、電、煤的力量。各大巨頭都在布局這個(gè)賽道,爭(zhēng)奪人才是攻堅(jiān)戰(zhàn)的第一步。
關(guān)于人才,鄢志杰曾談到,“語音這個(gè)圈子實(shí)在太小了,大家互相都認(rèn)識(shí),更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個(gè)團(tuán)隊(duì)的風(fēng)格,跟他想去做的事情以及做事的方式。圈外人很難說立一塊牌子就說我今天要做一個(gè)一流的語音團(tuán)隊(duì),所以我們此前的招聘更多還是依靠圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也做了招聘廣告,但很少有人是看了廣告直接就來的?!?/p>
阿里的語音團(tuán)隊(duì)目前承擔(dān)著很重的職能和責(zé)任,但也是一步步成長(zhǎng)起來的,這種成長(zhǎng)性是能被看到的,去吸引更多想要實(shí)現(xiàn)自己的目標(biāo)的人加入。鄢志杰也開玩笑地說道:“各大公司的語音團(tuán)隊(duì)也有不同的特點(diǎn),有的團(tuán)隊(duì)天生大一統(tǒng),會(huì)缺少危機(jī)和壓力,有的天天賽馬,容易關(guān)注短期結(jié)果,也造成很多重復(fù)投資,技術(shù)上小打小鬧?!?/p>
最后,雷鋒網(wǎng)編輯請(qǐng)教了鄢志杰對(duì)現(xiàn)在語音行業(yè)整體的看法。他談到:“接下來的幾年可能會(huì)去偽存真。因?yàn)檫^去幾年AI太熱,會(huì)有一些生拉硬拽的所謂的人工智能技術(shù)應(yīng)用冒出來。所以現(xiàn)在我覺得慢慢隨著新的資本追逐的熱點(diǎn)涌現(xiàn),AI在慢慢的回歸理性。這是一個(gè)去偽存真的過程,會(huì)有一些AI真正的產(chǎn)生價(jià)值的應(yīng)用通過大浪淘沙留下來,這對(duì)于行業(yè)的健康發(fā)展是有好處的。”
相關(guān)文章:
專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?
專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。