0
本文作者: 劉芳平 | 2017-08-28 13:55 |
雷鋒網(wǎng)消息,8月28日,智能語(yǔ)音交互技術(shù)公司思必馳宣布,阿里iDST總監(jiān)初敏博士加入思必馳,擔(dān)任思必馳VP、思必馳北京研發(fā)院院長(zhǎng),拓展語(yǔ)音技術(shù)在物聯(lián)網(wǎng)外的新業(yè)務(wù)、新場(chǎng)景的落地。
初敏原來(lái)的團(tuán)隊(duì)交給了阿里 iDST 語(yǔ)音組總監(jiān)鄢志杰管理,“他很能干的”。
在接受雷鋒網(wǎng)專訪時(shí),初敏表示自己選擇加入思必馳的原因主要是,“對(duì)人工智能特別是語(yǔ)音交互的未來(lái)的觀點(diǎn)”和后者很一致,而且創(chuàng)業(yè)公司可以做到十分專注。
加入思必馳后,初敏將領(lǐng)導(dǎo)建立思必馳北京研發(fā)院,初期目標(biāo)是在一年左右建立50人的團(tuán)隊(duì),二年達(dá)到100人的規(guī)模。研發(fā)院不僅將進(jìn)行基礎(chǔ)技術(shù)的研究,也將探索語(yǔ)音在更多場(chǎng)景里的應(yīng)用。
初敏是中科院聲學(xué)所博士,主要研究方向覆蓋語(yǔ)音識(shí)別與合成、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘、大數(shù)據(jù)處理和計(jì)算等,在相關(guān)領(lǐng)域發(fā)表了近百篇學(xué)術(shù)論文并取得20多項(xiàng)國(guó)內(nèi)外專利。
2000年,初敏博士加入微軟,在微軟亞洲研究院從事科學(xué)研究近10年,創(chuàng)建并領(lǐng)導(dǎo)語(yǔ)音合成研究小組,研制出了第一個(gè)中英文雙語(yǔ)語(yǔ)音合成系統(tǒng)“木蘭”;
2009年入職阿里巴巴,擔(dān)任阿里iDST智能語(yǔ)音交互方向負(fù)責(zé)人,使Yun OS、支付寶、手機(jī)淘寶、釘釘?shù)犬a(chǎn)品具備語(yǔ)音交互能力;
2017年加入思必馳,擔(dān)任思必馳VP、思必馳北京研發(fā)院院長(zhǎng),拓展語(yǔ)音技術(shù)在物聯(lián)網(wǎng)外的新業(yè)務(wù)、新場(chǎng)景的落地。
以下為采訪實(shí)錄,雷鋒網(wǎng)作了不改變?cè)獾膭h減。
初敏:其實(shí)我跟老高(高始興)和俞凱很早以前就認(rèn)識(shí)了,但是沒(méi)有聊這方面的事。在阿里八年,感覺(jué)也是時(shí)候迎接一些新的變化和挑戰(zhàn),陸續(xù)收到很多大公司的橄欖枝,恰巧最近有些機(jī)會(huì)和老高深聊,我覺(jué)得我們對(duì)人工智能特別是語(yǔ)音交互的未來(lái)的觀點(diǎn)其實(shí)蠻一致的。
未來(lái)的3到5年是一個(gè)AI技術(shù)實(shí)用化成型的過(guò)程,是我們的一個(gè)共識(shí)。跟俞凱也談了很多技術(shù),包括深度學(xué)習(xí)怎么在自然語(yǔ)言中去更好的應(yīng)用,怎么能讓機(jī)器更快地從人這里學(xué)習(xí)。我覺(jué)得蠻談得來(lái)的,有很多共識(shí)做事會(huì)很方便,這是一個(gè)很重要的原因。
阿里的團(tuán)隊(duì)是我建起來(lái)的,團(tuán)隊(duì)來(lái)說(shuō)我們是一個(gè)相當(dāng)好的團(tuán)隊(duì)。公司大有大量的好處,比如資金更充足資源更豐富一些,數(shù)據(jù)、計(jì)算能力這種技術(shù)環(huán)境會(huì)更好,但是思必馳專注只做一件事情的公司,這對(duì)我來(lái)講是有吸引力的。
其實(shí)也跟朋友聊是不是要?jiǎng)?chuàng)業(yè),我覺(jué)得自己還沒(méi)有這個(gè)勇氣自己去創(chuàng)業(yè),哈哈,這個(gè)過(guò)程太痛苦了。
但是加入一個(gè)思必馳這樣在創(chuàng)業(yè)過(guò)程的公司,對(duì)我來(lái)說(shuō)逃避了最開(kāi)頭的那一段,希望通過(guò)我的加入能幫助這家公司更快地成長(zhǎng)。
初敏:因?yàn)槠鋵?shí)就是這兩天的事情。我們希望做的事情是,原來(lái)思必馳基本上的團(tuán)隊(duì)是在蘇州,至少技術(shù)團(tuán)隊(duì)是,北京這邊幾乎沒(méi)有技術(shù)人員,但是其實(shí)北京是人才最豐富的地方,所以我會(huì)在北京建立一個(gè)北京的研發(fā)院。
這個(gè)研發(fā)院會(huì)做一些核心技術(shù)的研發(fā),也會(huì)做一些工程上的,包括真正在應(yīng)用場(chǎng)景中的一些落地。不只是把原來(lái)的東西做得更精細(xì),而是開(kāi)辟出更多新場(chǎng)景,使整個(gè)語(yǔ)音交互為核心的技術(shù)能有更強(qiáng)更多的輻射面。
我們這些做技術(shù)出身的人,就是希望自己做的技術(shù)真的被很多人用,這是最大的成功。掙多少錢是附帶的,因?yàn)檫@個(gè)過(guò)程中不掙錢的話做不到那一步,只要能做到那步一定能掙到錢。但是最大的是自我的成就感,一定是來(lái)自于很多人用而且感覺(jué)很好。
初敏:在規(guī)劃之中,主要思路是主要以研發(fā)人員為主,核心技術(shù)以及工程落地的,以后可能會(huì)有一些業(yè)務(wù)落地的。
希望在一年左右能招到50人左右,兩年左右可能是一百人的規(guī)模。
細(xì)的東西還要更細(xì)致地做工作以后才能把詳細(xì)計(jì)劃落實(shí),但是現(xiàn)在開(kāi)始我們也開(kāi)始在招聘,包括北京新的HR開(kāi)始要招募了。因?yàn)樵瓉?lái)都是蘇州整個(gè)管掉,現(xiàn)在也會(huì)在這配套。
初敏:我們建立的團(tuán)隊(duì)不是一個(gè)純研究的團(tuán)隊(duì)。今天我覺(jué)得中國(guó)所有的團(tuán)隊(duì)都不是一個(gè)像以前在微軟MSRA一樣的研究團(tuán)隊(duì),包括iDST也不是。
北京的團(tuán)隊(duì)我稱之為研發(fā),有研究的成員,但最終一定是開(kāi)發(fā)成一個(gè)完整的東西,然后這個(gè)東西是可以用的。
你剛才說(shuō)的這個(gè),我有非常多的實(shí)踐經(jīng)驗(yàn),特別是在過(guò)去這幾年碰到了很多用戶的實(shí)際問(wèn)題,的確是這樣子的。但是也不能說(shuō)技術(shù)就是錦上添花,而是說(shuō)這兩個(gè)腿都不能短。一個(gè)是核心技術(shù)的研發(fā),一個(gè)是所謂的工程導(dǎo)向或者是產(chǎn)品導(dǎo)向??偠灾?,要把產(chǎn)品用戶體驗(yàn)做到完備兩個(gè)都必須有。
我們?cè)趦蓧K都會(huì)做,思必馳不是定位在產(chǎn)業(yè)鏈條的某一個(gè)環(huán)節(jié),而是希望至少把語(yǔ)音交互這個(gè)完整場(chǎng)景做出來(lái),包含了鏈條中的每個(gè)環(huán)節(jié)。
因?yàn)檫@個(gè)過(guò)程是相輔相成的,過(guò)程有好多環(huán)節(jié),這些環(huán)節(jié)是個(gè)鏈條,只要有一個(gè)鏈條出問(wèn)題,最后的用戶體驗(yàn)就會(huì)很差。所以要把整個(gè)鏈條閉合,從核心技術(shù)到平臺(tái)到產(chǎn)品一直到用戶體驗(yàn)。
鏈條上的基礎(chǔ)建設(shè),好多都是核心技術(shù),比如語(yǔ)音識(shí)別本身深度學(xué)習(xí)的建模技術(shù)可以做到更好。
但是下一個(gè)問(wèn)題是如果數(shù)據(jù)是在A場(chǎng)景采集的,拿到B場(chǎng)景不好了,模型換成B場(chǎng)景可能不太好了,那么要多快,用什么樣的數(shù)據(jù)規(guī)模,多長(zhǎng)時(shí)間把它帶過(guò)去,這時(shí)候會(huì)有一個(gè)困難的轉(zhuǎn)移過(guò)程??梢詮念^到尾訓(xùn),也可以做Transfer Learning,這個(gè)就是比核心技術(shù)了。
但是話又說(shuō)回來(lái),最終還是需要一個(gè)鏈條。最后希望達(dá)到的是,客戶給我上傳,比如說(shuō)多少多少小時(shí)的一個(gè)標(biāo)準(zhǔn)數(shù)據(jù),我很快就得到一個(gè)模型,那在他這個(gè)地方就好了。所以實(shí)際上是場(chǎng)景的適應(yīng)能力,解決一些這樣的問(wèn)題,最終才能大規(guī)模的把這個(gè)技術(shù)鋪開(kāi)。
我在這邊也會(huì)去搭建這種基礎(chǔ)設(shè)施,核心實(shí)力我認(rèn)為就是快。對(duì)于核心實(shí)力我一直認(rèn)為,特別是在今天這種所謂的大數(shù)據(jù)時(shí)代,數(shù)據(jù)很多(理論上很多,但實(shí)際上分散在不同領(lǐng)域)。要把數(shù)據(jù)管理好,把不同場(chǎng)景的數(shù)據(jù)更好地用起來(lái),包括在一個(gè)新的場(chǎng)景中用起來(lái)。這里就有核心算法的的提升空間了,也有很多工程上要把這件事情做順暢的方面。
還是剛才說(shuō)的,這兩個(gè)腿都做起來(lái),迭代效率快,那你將來(lái)去實(shí)施就很快,才真正具備商業(yè)化的能力,要不然都是A項(xiàng)目B項(xiàng)目C項(xiàng)目,做一個(gè)項(xiàng)目花的成本差不多,那就很辛苦。
我們要做到的是,做第一個(gè)項(xiàng)目,比如花費(fèi)是1,第二個(gè)項(xiàng)目花費(fèi)可能是0.5,第三個(gè)項(xiàng)目花費(fèi)就是0.3了,以后可能每一個(gè)項(xiàng)目生成就是花個(gè)0.1、0.15的代價(jià),甚至做到更低,這時(shí)候才能從一個(gè)到一百個(gè)或者到幾百個(gè)。
磨就是這個(gè)過(guò)程。每復(fù)制一次,成本都下降,實(shí)現(xiàn)規(guī)?;?,最終產(chǎn)生經(jīng)濟(jì)效益。
初敏:思必馳在一些現(xiàn)有的地方還是蠻強(qiáng)的,比如在汽車,特別是后裝,還有智能家居包括音箱,其實(shí)好多家用的都是我們的解決方案。
我希望我進(jìn)來(lái)不是在這些地方添點(diǎn)磚加點(diǎn)瓦,而是會(huì)試圖去探索一些新場(chǎng)景,現(xiàn)在有很多可能性,是什么今天還沒(méi)有完全弄清楚。所以會(huì)從招聘開(kāi)始,和底層一些技術(shù)建設(shè),場(chǎng)景還是要慢慢看的,沒(méi)有那么快,但是一定會(huì)去探索更多的,我相信是很多的。
初敏:目前還沒(méi)有,原因也比較清晰,就是實(shí)際上這個(gè)鏈條很長(zhǎng),如果我們什么都做了,很有可能做不好。而且做了這個(gè)端實(shí)際上和別的端是競(jìng)爭(zhēng)的關(guān)系,所以今天我覺(jué)得可能不會(huì)往實(shí)際產(chǎn)品做,但是也不排除自己去做一兩個(gè)demo,更好地展示技術(shù)。
初敏:我覺(jué)得蠻有爭(zhēng)議的,不是特別看好。首先,我覺(jué)得Echo是不是真的叫成功,就是看你怎么定義成功,如果從品牌、影響的角度來(lái)看,是挺成功的,因?yàn)樗昧诉@整個(gè)潮流,出了影響,一堆人跟著做。
但是我也跟有些人聊過(guò),實(shí)際上它的粘性并不見(jiàn)得好,大家因好玩新鮮,所以買了一個(gè)回家,但是有多少人在買回家三個(gè)月后還在天天用,很少。換句話說(shuō)這個(gè)音箱是不是真的解決了問(wèn)題,變成一個(gè)必需品,這個(gè)問(wèn)題沒(méi)有看到。
美國(guó)市場(chǎng)和中國(guó)市場(chǎng)也不太一樣,美國(guó)市場(chǎng)大概只聽(tīng)到這兩個(gè)(Echo和Google Home)。中國(guó)沒(méi)有這樣的領(lǐng)導(dǎo)產(chǎn)品,一堆公司在做。中國(guó)今天最大的問(wèn)題還是沒(méi)解決核心問(wèn)題,很多人只是買它來(lái)玩一下,知道它能干啥,之后可能就沒(méi)興趣了,真的有什么事總找音箱做的很少。
有幾個(gè)原因,一是他上頭能干的事情真的太少了,一個(gè)東西必須讓我覺(jué)得能信賴他,至少一類事情我持續(xù)找它,它都能做,對(duì)這我才會(huì)養(yǎng)成習(xí)慣。所以我覺(jué)得這不光是語(yǔ)音技術(shù)的問(wèn)題了,是背后他到底能干什么事。今天還大家還稱之為音箱,那就是聽(tīng)音樂(lè),那顯然這樣子的音箱聽(tīng)音樂(lè)都不是最好的選擇,就是大幾百塊錢的音箱,也不是好到哪里的。
Echo稍微好一點(diǎn),接入了很多控制功能,美國(guó)人房子大,在樓上關(guān)下樓下的燈什么的,這種需求可能還稍微強(qiáng)一點(diǎn),在中國(guó)沒(méi)有這么強(qiáng),當(dāng)然從某種角度講還是存在的。
所以我覺(jué)得最后的爭(zhēng)論不是技術(shù)問(wèn)題,不是說(shuō)語(yǔ)音識(shí)別準(zhǔn)不準(zhǔn)(當(dāng)然它也有問(wèn)題),是說(shuō)它能聽(tīng)懂的話,我想干的事情里他能做多少,這是我覺(jué)得最關(guān)鍵的。
初敏:深度學(xué)習(xí)到今天雖然已經(jīng)很火了,好像已經(jīng)到處都是了,一般相關(guān)的學(xué)術(shù)會(huì)議可能至少一半或者更高的論文都和它相關(guān)。但是我今天的觀點(diǎn)是還沒(méi)有到飽和期,技術(shù)的替代是一個(gè)過(guò)程。就像語(yǔ)音識(shí)別從深度學(xué)習(xí)獲得的第一步成功,是在原有的HMM框架后加了一塊,把原來(lái)的模型提升了。
所以這個(gè)(技術(shù)替代)過(guò)程中還是有很多嘗試可以做的。語(yǔ)音現(xiàn)在的這套統(tǒng)計(jì)的深度學(xué)習(xí)框架,不是一個(gè)完全的理論推導(dǎo)的技術(shù),是有個(gè)基本的理論框架,最后它是否work,是靠實(shí)驗(yàn)來(lái)做的。
包括它們的拓?fù)浣Y(jié)構(gòu),建模單元的大小,因?yàn)槠鸩蕉际且蕾囋瓉?lái)那套體系,所以后續(xù)能做的事情還有很多,比如變一變建模單元。會(huì)慢慢的把原來(lái)的那些東西換掉,然后去嘗試新的東西,像現(xiàn)在很多新的模型其實(shí)就是在改變單元,因?yàn)閱卧淮蠼獯a速度就快很多。
另外一方面是場(chǎng)景適應(yīng),傳統(tǒng)我們叫它adaptation,或者你也可以叫它Transfer Learning,這塊也可以嘗試不同的方法。
還有,語(yǔ)音里頭現(xiàn)在更多是聲學(xué)模型上用了深度學(xué)習(xí),語(yǔ)言模型上有嘗試,但沒(méi)有特別的成功,因?yàn)檎Z(yǔ)言模型計(jì)算復(fù)雜度高。但是今天雞肋并不證明這個(gè)方法不對(duì),而是還沒(méi)有做出最好的方法,這一部分也有很多人在嘗試。所以我覺(jué)得至少還有個(gè)五年、十年的空間它才會(huì)飽和。
但是,也不排除在這個(gè)過(guò)程中會(huì)長(zhǎng)出新的分支,比這個(gè)看起來(lái)還更優(yōu)秀,那也是有可能的,特別是在自然語(yǔ)言上,我覺(jué)得空間更大。
我覺(jué)得自然語(yǔ)言處理還處于非常早期的階段。語(yǔ)音的識(shí)別很難,但是他是一個(gè)定義非常清晰的問(wèn)題,進(jìn)去這段錄音出來(lái)就是這個(gè)字,沒(méi)有二義性,所以是最適合學(xué)習(xí)。自然語(yǔ)言是問(wèn)題沒(méi)定義清楚,你可以這樣定義問(wèn)題,把它定一個(gè)分類問(wèn)題,也可以把它變成一個(gè)序列轉(zhuǎn)換問(wèn)題,而且一個(gè)任務(wù)是由好多小問(wèn)題組成,還是作為一個(gè)整體。所以在自然語(yǔ)言里還需要想怎么更好地使用深度學(xué)習(xí),包括可能需要引入強(qiáng)化學(xué)習(xí)的概念,那么要怎么引入?
比如強(qiáng)化學(xué)習(xí)里一直擔(dān)心什么是reward,怎么定義成功失敗,有很多這些問(wèn)題。這塊明顯的還能走更長(zhǎng),包括問(wèn)題怎么定義法,以前分的小問(wèn)題是不是可以用一個(gè)問(wèn)題就能解等,這些地方我覺(jué)得有很多可嘗試的空間。
4月16日 20:30-21:30 ,雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論聯(lián)合AI慕課學(xué)院、騰訊課堂邀請(qǐng)思必馳CMO龍夢(mèng)竹為大家?guī)?lái)一場(chǎng)直播分享!點(diǎn)擊鏈接報(bào)名參與吧??!
課程主題:《人工智能需要科學(xué)家,也需要普通人》
報(bào)名鏈接:https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。