0
本文作者: 張夢(mèng)華 | 2017-07-13 13:24 | 專題:GAIR 2017 |
雷鋒網(wǎng)注:7 月 8 日,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的 CCF-GAIR 2017 大會(huì),驀然認(rèn)知 CEO 戴帥湘在智能助手專場(chǎng)做了《對(duì)話即應(yīng)用》的演講,闡述了語(yǔ)音交互在生活場(chǎng)景中的具體應(yīng)用,以及機(jī)器對(duì)話中需要解決的有關(guān)語(yǔ)義理解的諸多問(wèn)題。
會(huì)后,在專訪中,戴帥湘又與雷鋒網(wǎng)進(jìn)一步分享了其對(duì)于語(yǔ)義理解、場(chǎng)景服務(wù)的理解。眼下語(yǔ)義理解的核心是什么?難題在哪兒?如何克服?百度、阿里等巨頭的進(jìn)入將對(duì)創(chuàng)業(yè)公司造成什么影響......關(guān)于這些問(wèn)題,戴帥湘一一作了解答。
以下為戴帥湘采訪實(shí)錄,雷鋒網(wǎng)做了不改變?cè)獾男薷模?/strong>
問(wèn):驀然認(rèn)知的連續(xù)對(duì)話能到什么程度?似乎在一些場(chǎng)景中,連續(xù)對(duì)話總是不能滿足需要?
戴帥湘:連續(xù)對(duì)話其實(shí)不是句子,是意圖,你可能說(shuō)五句話還是同一個(gè)意圖。剛才我說(shuō)的多輪對(duì)話實(shí)際是融合了多種場(chǎng)景,比如你說(shuō)“我要去看電影”,但是在這之前,你可能需要了解,現(xiàn)在上映的有什么電影,是誰(shuí)演的,這個(gè)導(dǎo)演最近有沒有緋聞......它是擴(kuò)展的,不只停留在看電影上面。
你要覆蓋盡可能多的、用戶可能發(fā)散的意圖,因?yàn)槿瞬皇菣C(jī)器,不會(huì)按照固定的套路去問(wèn)。人的思路是一個(gè)由單點(diǎn)往外擴(kuò)散的過(guò)程,所以要盡可能地多理解他的意圖,盡可能多做長(zhǎng)尾的意圖理解。解決這種發(fā)散性問(wèn)題,把它囊括在對(duì)話系統(tǒng)里面很重要,所以,不是只要多輪次,要將多場(chǎng)景結(jié)合在一起。
問(wèn):要實(shí)現(xiàn)對(duì)長(zhǎng)尾意圖的理解,有什么難題?
戴帥湘:難題肯定會(huì)有,但是還是可以做到的。比如說(shuō)語(yǔ)義理解,你是不是可以快速進(jìn)行場(chǎng)景移植,是不是可以在新的場(chǎng)景里把已有的、已學(xué)的東西進(jìn)行遷移學(xué)習(xí)。
要做到這些,現(xiàn)在有一些基本的方案,但不管用哪種,你都會(huì)考慮,有沒有優(yōu)化的。難點(diǎn)就在于,你能想到什么樣的途徑。
問(wèn):剛才在臺(tái)上你說(shuō)“堅(jiān)定地不看好智能音箱”,但好像驀然現(xiàn)在也正在跟聲智科技合作智能音箱的項(xiàng)目?
戴帥湘:聲智做的是聲音入口,它不一定要放到音箱里面,也可以是汽車、電視、穿戴式設(shè)備。音箱現(xiàn)在很火,推一個(gè)音箱芯片,可以多一份市場(chǎng),并沒有壞處。
但音箱不太可能成為量很大的產(chǎn)品,它燒不了量,規(guī)?;秃茈y,所以不太可能成為像電視那么主流的設(shè)備。
問(wèn):可亞馬遜的出貨量已經(jīng)超過(guò) 1000 萬(wàn)臺(tái)了。
戴帥湘:這是累計(jì)吧。美國(guó)的生活里,每家每戶都有音箱,它是有基礎(chǔ)的。這是很重要的原因。一樣?xùn)|西要成為爆款,必須要有延續(xù)性,比如手機(jī),用戶有需求,手機(jī)本身就是很大的市場(chǎng)。
存量市場(chǎng)必須得有,沒有存量市場(chǎng)或者存量市場(chǎng)很小的話,推一個(gè)全新的品類,其實(shí)意義不大。除非你有說(shuō)服用戶的巨大能力,非常強(qiáng)大的營(yíng)銷能力,去讓用戶接受一個(gè)本來(lái)不大需要的東西,這個(gè)其實(shí)是有難度的。
問(wèn):為什么選擇家居和車載這兩個(gè)場(chǎng)景?
戴帥湘:因?yàn)樗鼈儽旧砭鸵呀?jīng)實(shí)現(xiàn)了商業(yè)化,市場(chǎng)前景非常廣闊。電視在中國(guó)人的家里占據(jù)中心位置,做電視不是為了電視,而是為了占住家庭中心。只是電視比音箱難,它涉及的內(nèi)容太多。
汽車產(chǎn)業(yè)已經(jīng)有 100 年了,它需要融入更多新技術(shù)和互聯(lián)網(wǎng)思維,比如自動(dòng)駕駛、人機(jī)交互。這是一個(gè)非常有前景的場(chǎng)景,而且非常適合交互。
問(wèn):一些生態(tài)廠商,像小米、樂視可能已經(jīng)占據(jù)了家庭設(shè)備的中心?
戴帥湘:其實(shí)在中國(guó),真正占據(jù)家庭中心的是傳統(tǒng)設(shè)備廠商,電視發(fā)貨量最大的還是傳統(tǒng)那幾家。
而且電視沒有那么大的增量,你還得改造它,比如說(shuō),已有的電視可以通過(guò)接入盒子或者其它東西改變?,F(xiàn)在在國(guó)內(nèi),還沒有可以壟斷硬件的生態(tài)廠家,硬件永遠(yuǎn)是不可能壟斷的,它一定是五花八門,百花齊放的。
問(wèn):像驀然這樣做云交互的公司,眼下最大的難點(diǎn)在哪里?
戴帥湘:最大的難點(diǎn)在于,現(xiàn)在面對(duì)的設(shè)備都是傳統(tǒng)設(shè)備,要傳統(tǒng)設(shè)備商接受一個(gè)新方案,改變既有的交互方式,這本質(zhì)上需要傳統(tǒng)行業(yè)的從業(yè)者有一定的新觀念。比如傳統(tǒng)企業(yè)和我們這種新興的 AI 技術(shù)行業(yè),如何很好地對(duì)接?
都說(shuō)互聯(lián)網(wǎng)+,大家的觀念是一致的,可是很難加在一起。
問(wèn):現(xiàn)在我們的技術(shù)在產(chǎn)品化上還有其它新的進(jìn)展嗎?
戴帥湘:我們其實(shí)有成套的框架,可以快速變成電視系統(tǒng),音箱系統(tǒng)或者車載系統(tǒng)。從這方面看,我們有非??斓漠a(chǎn)品構(gòu)建能力。下半年我們會(huì)做一次發(fā)布會(huì),發(fā)布各種產(chǎn)品,包括耳機(jī)的、音箱的、電視的、車載的、機(jī)頂盒的等等。它們的樣式都不一樣,軟件也有差異,但是對(duì)我們來(lái)說(shuō)都是一套系統(tǒng)。
問(wèn):同樣是做語(yǔ)音交互,阿里前幾天推出了天貓精靈,百度也在一直強(qiáng)調(diào) DuerOS 的戰(zhàn)略地位,巨頭的動(dòng)作會(huì)對(duì)我們這樣的公司決策有什么影響?
戴帥湘:我一直覺得這是一件好事。因?yàn)閷?duì)話式語(yǔ)音交互其實(shí)是一個(gè)完整的鏈條,這個(gè)鏈條包含了很多方面,大家要做很多重復(fù)工作,比如降噪、云識(shí)別,這些勞動(dòng)其實(shí)是不必要的。巨頭開放可以很快把這塊搞定,讓創(chuàng)業(yè)公司告別重復(fù)勞動(dòng)。
其實(shí)這個(gè)環(huán)境里最核心的部分是三個(gè):語(yǔ)義理解,對(duì)話系統(tǒng),學(xué)習(xí)系統(tǒng)。這部分沒有任何限制,也沒有任何界限,這些大公司自己都沒做到這一步,它怎么開放給你?它開源的是兩部分:
第一,前面的語(yǔ)音識(shí)別、降噪方案;
第二,后臺(tái)的基本資源,比如百度的那些,其實(shí)本身就是免費(fèi)的,到百度搜索上就可以獲取到,它也是拿別人的。
問(wèn):大公司如果在這個(gè)領(lǐng)域重投入,將會(huì)對(duì)創(chuàng)業(yè)公司造成很大威脅?
戴帥湘:這是有可能的。一個(gè)東西剛開始出來(lái),肯定是要跑得快,快速落地,積累數(shù)據(jù),迭代,到后面也一定會(huì)有競(jìng)爭(zhēng),因?yàn)榇蠹叶颊J(rèn)為語(yǔ)義理解、對(duì)話系統(tǒng)、學(xué)習(xí)系統(tǒng)是最核心的。
問(wèn):那跟大公司相比,創(chuàng)業(yè)公司的競(jìng)爭(zhēng)力在哪里?
戴帥湘:很多人問(wèn)過(guò)我這個(gè)問(wèn)題。創(chuàng)業(yè)公司有一個(gè)很大的特點(diǎn),就是專注,這非常重要,尤其是對(duì)于一個(gè)還沒有成熟的東西,你要去攻克它,快速和應(yīng)用市場(chǎng)、傳統(tǒng)產(chǎn)業(yè)設(shè)備緊密結(jié)合起來(lái)。你的技術(shù)必須和這些設(shè)備同步打造、分析,要和這些公司團(tuán)隊(duì)坐在一起分析產(chǎn)品形態(tài)怎么設(shè)計(jì),技術(shù)什么地方可用,什么地方不可用,不可用的情況下要怎么做。
但對(duì)于大公司來(lái)說(shuō),一些客戶對(duì)它來(lái)說(shuō)可能微乎其微,它的目標(biāo)是做平臺(tái),我們是要?jiǎng)?chuàng)造一個(gè)東西。傳統(tǒng)廠商并不具有那么多的認(rèn)知,我們和它緊密結(jié)合起來(lái),一步一步,先有一些它可感知的東西,再慢慢往下推。我覺得這個(gè)差異是很大的。
問(wèn):數(shù)據(jù)算是我們的一個(gè)劣勢(shì)嗎?
戴帥湘:其實(shí)我覺得不是??赡苣悴幌嘈?,但是我非常堅(jiān)定地說(shuō),我們?cè)诩夹g(shù)上和這些所謂的大公司比,沒有任何劣勢(shì)。在機(jī)器數(shù)量、帶寬費(fèi)用上,我們會(huì)更節(jié)約,但是在技術(shù)上沒有任何劣勢(shì)。每個(gè)細(xì)節(jié),每個(gè)到達(dá)技術(shù)的路徑,我們都非常非常清晰。
到達(dá)每個(gè)目標(biāo)的路徑很多很多,我們明確地選擇了一條,大公司選擇的可能和我們不一樣,但無(wú)非就是誰(shuí)更快找到坡度更大的路線,可以快速達(dá)到目的。我覺得在這一點(diǎn),創(chuàng)業(yè)公司會(huì)更容易,因?yàn)樗苯雍蛷S商對(duì)接,能達(dá)到目的,就快速達(dá)到目的,不追求平臺(tái)有多大,多規(guī)范化。
問(wèn):聽、聽懂和服務(wù)的滿足這三點(diǎn),聽懂好像是最難的,如果現(xiàn)在讓你打分,滿分 10 分,驀然能做幾分?
戴帥湘:這個(gè)怎么說(shuō),其實(shí)還是有一些限制。比如說(shuō)在生活常用的場(chǎng)景,我們可以達(dá)到 7-8 分,但是如果要是泛泛地說(shuō),肯定是 5 分以下。因?yàn)橛刑鄸|西是你不能學(xué)習(xí)和了解的,它需要一個(gè)基本的框架,然后逐步迭代。人也是從小開始學(xué)基本的語(yǔ)文數(shù)學(xué),然后慢慢學(xué)會(huì)更多。
現(xiàn)在如果停留在某些常用的、可用的場(chǎng)景里面,只要是能提供生活服務(wù)的,我們都能做出比較好的水平。但是脫離整個(gè)應(yīng)用場(chǎng)景說(shuō)聽懂,其實(shí)意義不是很大。而且聽懂和滿足不是截然分開的,它們是緊密結(jié)合的,因?yàn)槠鋵?shí)你不能判斷它聽不聽得懂,而一定是從它的滿足或者后效性上判斷的。兩者天生是不可分的。所以這樣分為三個(gè)階段,其實(shí)我是不認(rèn)同的。
問(wèn):業(yè)務(wù)上有 2C 的考慮嗎?
戴帥湘:我還是引用別人的一句話:真正做好一個(gè)軟件以后,你很可能要做自己的硬件。這個(gè)硬件的形態(tài)可能不一樣,可以是機(jī)器人,也可以是穿戴式設(shè)備,但是對(duì)于一個(gè)直接做交互,跟用戶打交道的公司,將來(lái)肯定會(huì)推出適合自己的一系列硬件。
我們堅(jiān)定地看好設(shè)備,我覺得影像時(shí)代就是設(shè)備的時(shí)代。
推薦閱讀:《驀然認(rèn)知 CEO 戴帥湘:對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章