驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

本文作者：張夢(mèng)華

2017-07-11 12:06

專題：GAIR 2017

導(dǎo)語(yǔ)：這樣一個(gè)時(shí)代是機(jī)器逐步學(xué)習(xí)、模仿人，并最終超越人的時(shí)代。

雷鋒網(wǎng)注：2017 年 7 月 7 日至 9 日，由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦、雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì)在深圳如期落地。會(huì)議第一天，國(guó)內(nèi)外頂尖學(xué)者和從業(yè)者各自帶來(lái)了豐富的行業(yè)干貨分享，隨后兩天，GAIR 的機(jī)器人、智能助手、金融科技、AI+、智能駕駛等各個(gè)專場(chǎng)又為各領(lǐng)域從業(yè)者提供了密切交流和學(xué)習(xí)的機(jī)會(huì)。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

驀然認(rèn)知是近兩年在自然語(yǔ)言理解方面表現(xiàn)最為搶眼的公司之一，其扎實(shí)的語(yǔ)義理解技術(shù)已經(jīng)為暴風(fēng) TV、上汽大通、VINCI 等企業(yè)提供了成熟的語(yǔ)音助手解決方案。創(chuàng)始人兼 CEO 戴帥湘曾在百度從事 9 年的自然語(yǔ)音理解，任百度 NLP 主任架構(gòu)師，并曾帶領(lǐng)團(tuán)隊(duì)獲得百度語(yǔ)義最高獎(jiǎng)。

在 CCF-GAIR 大會(huì)智能助手專場(chǎng)，戴帥湘做了《對(duì)話即應(yīng)用》的主題演講，雷鋒網(wǎng)對(duì)其內(nèi)容進(jìn)行了整理，以下為演講全文：

我今天分享的主題是“對(duì)話即應(yīng)用”，很多人認(rèn)為這是遙遠(yuǎn)的未來(lái)，事實(shí)上它有可能就在我們眼前。

未來(lái)只存在于我們的腦海中，是虛構(gòu)的，但是人天生向往未來(lái)。這是人的本性，寫(xiě)在我們的基因里。

“人是為了想象而活著”，我覺(jué)得這句話沒(méi)有錯(cuò)，但是“當(dāng)未來(lái)已來(lái)，過(guò)去也沒(méi)有過(guò)去”的時(shí)候，在時(shí)空轉(zhuǎn)換的間隙里，我們的認(rèn)知和想象怎么調(diào)整？

以互聯(lián)網(wǎng)發(fā)展為例，人機(jī)交互在互聯(lián)網(wǎng)發(fā)展中扮演了非常關(guān)鍵的角色。每一次人機(jī)交互的革新都必然帶來(lái)革命性的浪潮。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

20 年前，互聯(lián)網(wǎng)剛開(kāi)始普及，我們使用鍵盤、鼠標(biāo)來(lái)操作互聯(lián)網(wǎng)，這種應(yīng)用形態(tài)很簡(jiǎn)單，無(wú)非就是網(wǎng)頁(yè)。

大概 10 年以后，到 2007 年，喬布斯發(fā)布了具有劃時(shí)代意義的產(chǎn)品：第一代 iPhone。它完全摒棄了之前的鍵盤操作，使用了全觸摸屏的操作方式，這種轉(zhuǎn)變直接導(dǎo)致當(dāng)時(shí)的兩大手機(jī)巨頭在此后短短幾年內(nèi)迅速衰落，直至退出市場(chǎng)。

這種變化同時(shí)帶來(lái)了應(yīng)用形態(tài)的變化——從之前的 Web 程序開(kāi)發(fā)，迅速轉(zhuǎn)入 APP 程序開(kāi)發(fā)，這種變化也導(dǎo)致互聯(lián)網(wǎng)時(shí)代幾大巨頭在此后 10 年間逐步衰落。

又過(guò)了 10 年，到今天，一個(gè)新的時(shí)代正在來(lái)臨。剛才幾位也講到，現(xiàn)在大大小小的公司都開(kāi)始做音響，音響是否是很好的產(chǎn)品暫時(shí)還沒(méi)有定論，但我們卻可以感覺(jué)到身邊越來(lái)越多的硬件開(kāi)始聯(lián)網(wǎng)，大家稱之為“萬(wàn)物互聯(lián)”的時(shí)代。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

《人類簡(jiǎn)史》里有一個(gè)觀點(diǎn)：人本身不具有大規(guī)模合作的基因，需要語(yǔ)言和文字來(lái)彌補(bǔ)。我們今天制造這么多設(shè)備，要想讓它們真正和人類大規(guī)模合作，對(duì)話式語(yǔ)音交互必不可少，也必定會(huì)成為主流。我相信在未來(lái)的 IoT 時(shí)代，語(yǔ)音交互將跨越軟件和硬件的邊界，在不同的場(chǎng)景下，呈現(xiàn)不同的應(yīng)用和服務(wù)，也就是對(duì)話即應(yīng)用。

即便很多人現(xiàn)在對(duì)這個(gè)東西還沒(méi)有概念，但是思考一下，你就會(huì)發(fā)現(xiàn)這是一個(gè)了不起的時(shí)代。我們不愿意錯(cuò)過(guò)這個(gè)時(shí)代，所以成立了一家公司，叫做驀然認(rèn)知。我們致力于讓機(jī)器認(rèn)知世界，認(rèn)知計(jì)算，以自然語(yǔ)言理解為核心，提供信號(hào)處理、語(yǔ)音、語(yǔ)義、服務(wù)自動(dòng)對(duì)接、一站式自動(dòng)交互的解決方案，更簡(jiǎn)單地說(shuō)，它就是以語(yǔ)義理解為核心的決策引擎，是搜索引擎的下一代。

作為一家創(chuàng)業(yè)公司，不管做什么，首先要有準(zhǔn)確的市場(chǎng)定位和切入點(diǎn)。對(duì)于驀然來(lái)說(shuō)，我們最先落地和打造的交互場(chǎng)景有家居和車載兩大類，這兩大類可以合為一個(gè)完整的整體。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

家居場(chǎng)景：以電視為切入口

為什么選擇家居場(chǎng)景？有幾個(gè)理由：

家是休閑和放松的場(chǎng)所，我們希望在家里享受后仰式服務(wù)，而不是前傾式服務(wù)；
家是吃飯，甚至購(gòu)物的場(chǎng)所，越來(lái)越多的人不出家門，從網(wǎng)上購(gòu)買生活用品。比如吃，你可以不會(huì)做飯，但你可能需要獲取做飯的信息，可能需要知道提供外賣、團(tuán)購(gòu)的餐廳信息。這些信息都可以通過(guò)更好的交互方式來(lái)提供；
家里的設(shè)備越來(lái)越多，除了傳統(tǒng)的幾件，現(xiàn)在又有音響、洗碗機(jī)、掃地機(jī)器人等，如果想要更好地了解、使用這些設(shè)備，需要集中式的交互入口，做集中式控制和使用，這是很自然的方式。

針對(duì)這三點(diǎn)，我們?cè)O(shè)計(jì)了三類交互方式：

基于視頻內(nèi)容的交互，主要是針對(duì)電視。我們最先是和暴風(fēng) TV 合作，劉總（暴風(fēng) TV CEO 劉耀平）后面會(huì)做具體講解；
基于生活服務(wù)的交互，比如外賣、咖啡、電影票、火車票、飛機(jī)票等，都可以通過(guò)連續(xù)對(duì)話來(lái)解決；
智能設(shè)備控制的交互，這個(gè)在技術(shù)上比較簡(jiǎn)單，主要問(wèn)題在于現(xiàn)在各大廠商的協(xié)議不是那么統(tǒng)一。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

車載場(chǎng)景：最適合語(yǔ)音交互的場(chǎng)景

現(xiàn)在業(yè)界基本達(dá)成的一個(gè)共識(shí)是，車載是最適合對(duì)話式語(yǔ)音交互的場(chǎng)景，原因主要有兩點(diǎn)：

人開(kāi)車時(shí)雙手、雙腳都是被占用的。可能大家經(jīng)常在報(bào)道上看到，女司機(jī)怎樣怎樣......很多人容易被車駕馭，而不是駕馭車，這是很危險(xiǎn)的行為；
人在車?yán)锏臅r(shí)間越來(lái)越長(zhǎng)，可能有擁堵的原因，也可能因?yàn)槿藗兏矚g私密的自駕行為。這是完整、連續(xù)的時(shí)間，而不是碎片化的，充分利用這個(gè)時(shí)間，用合適的方式和車交互，會(huì)給用戶帶來(lái)完全不一樣的體驗(yàn)。

車載場(chǎng)景里，交互設(shè)計(jì)有些差別，行車過(guò)程中需要考察路線規(guī)劃，自動(dòng)導(dǎo)航，即時(shí)通訊，實(shí)時(shí)路況等，除此之外，我們會(huì)更關(guān)注行車目的，這對(duì)交互會(huì)有很大影響。比如你開(kāi)車去餐廳，我們會(huì)給你提供餐廳信息查詢、訂座服務(wù)，如果去機(jī)場(chǎng)，就提供機(jī)場(chǎng)航班延誤信息，甚至可以買機(jī)票，如果去商場(chǎng)，就可以查詢附近停車位和停車預(yù)定服務(wù)，當(dāng)然這些現(xiàn)在只有少數(shù)大城市才會(huì)有?？傊?，目的地在車載交互中非常重要。

這兩種場(chǎng)景是生活中非常重要的兩大場(chǎng)景，但可以通過(guò)我們整體的系統(tǒng)，成為一個(gè) mall，從而融合成更大的場(chǎng)景。而要融合如此多功能的場(chǎng)景，需要各種場(chǎng)景間的自由切換，這個(gè)過(guò)程要有非常復(fù)雜的語(yǔ)音交互或者對(duì)話式語(yǔ)音交互才能完成。

對(duì)話式語(yǔ)音交互是多種技術(shù)融合的必然結(jié)果。下面我從不同角度來(lái)闡述涉及對(duì)話語(yǔ)音交互的各個(gè)層面：

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

VUI 和 GUI 融合

GUI 本身是一種確定的、簡(jiǎn)單的、沒(méi)有后效性的操作；VUI 是發(fā)散的、跳躍的，相對(duì)模糊，但是可以完成復(fù)雜任務(wù)的操作。GUI 是讓我們適應(yīng)機(jī)器，VUI 是讓機(jī)器適應(yīng)我們。只有兩者有機(jī)結(jié)合在一起，對(duì)話式交互系統(tǒng)才能發(fā)揮作用。什么效率最高，我們就用什么，搖控器效率最高，就用搖控器，語(yǔ)音搜索最方便就用語(yǔ)音。下單和選擇過(guò)程，其實(shí)是非常融合的過(guò)程。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

多場(chǎng)景融合

大家多數(shù)時(shí)候聽(tīng)到的是把垂直場(chǎng)景做深，我覺(jué)得這不是根本的。高頻場(chǎng)景的確可以快速覆蓋，但是真正有效的是長(zhǎng)尾場(chǎng)景。對(duì)話過(guò)程中只滿足高頻沒(méi)有意義，只有長(zhǎng)尾融合在一起，讓用戶感受到服務(wù)需求在各個(gè)地方得到滿足，才有可能成為很有效的交互方式。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

設(shè)備間的協(xié)同

剛才講到，單一設(shè)備里必須有多場(chǎng)景的融合，這之間的融合怎么做？例如，天氣很熱，我開(kāi)車回家前，想把家里的空調(diào)調(diào)到 24 度，走廊的燈打開(kāi)，這是日常生活中很自然的需求。按照現(xiàn)在的很多框架，實(shí)現(xiàn)這些會(huì)非常復(fù)雜，但是植入我們的系統(tǒng)以后，車機(jī)和家庭設(shè)備就可以自然融合，和一個(gè)設(shè)備一樣。我們要為用戶營(yíng)造不同設(shè)備之間遷移、無(wú)縫連接、包裹式的經(jīng)驗(yàn)。這比多場(chǎng)景融合更容易實(shí)現(xiàn)。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

知識(shí)和服務(wù)的融合

大家看到我們談?wù)摱噍喗换ズ蛦屋喗换ィ谖铱磥?lái)，并沒(méi)有什么單輪對(duì)話的存在。語(yǔ)音早期的應(yīng)用集中在控制、開(kāi)燈、關(guān)燈、調(diào)音量這些方面，它們的輸入方式不是對(duì)話，而是輸入法。真正有用的對(duì)話是雙向的，系統(tǒng)理解以后做適當(dāng)?shù)膭?dòng)作，不理解的話就做推薦動(dòng)作或反問(wèn)動(dòng)作、澄清動(dòng)作，這樣才能形成完整的、任務(wù)式的、有目的的、優(yōu)化的對(duì)話，而不是隨意的。

比如，你今天晚上想看電影，可能會(huì)說(shuō)今天要去的某個(gè)電影院、某場(chǎng)電影、某個(gè)名字，但這樣說(shuō)的人太少，系統(tǒng)順利完成任務(wù)的概率很低。你有目標(biāo)，但是不確定怎么達(dá)到這個(gè)目標(biāo)，這時(shí)交互式對(duì)話會(huì)引導(dǎo)你到另外一步，比如電影系統(tǒng)會(huì)給出最近在上映的電影，然后基于個(gè)人愛(ài)好給出合適的推薦；等做完選擇后，你還得注意，電影院在哪里，自己在哪里，你們之間的關(guān)系是不是能讓你快速抵達(dá)電影院？所有這些完成以后，你還有一個(gè)步驟，就是決定要幾個(gè)人去，這個(gè)要定做，不是我們預(yù)先定義的。多輪對(duì)話的目的是目標(biāo)不變，但可以打亂所有步驟，這是知識(shí)和服務(wù)的融合，是可以做到的。我們現(xiàn)在做得很好。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

技術(shù)的融合

AI 本質(zhì)上是技術(shù)的集合體，不是單一的模型，也不是單一的方法，而是多項(xiàng)關(guān)鍵技術(shù)的融合。

決策引擎中有三類，一是認(rèn)知計(jì)算模型，主要針對(duì)知識(shí)推理建模。知識(shí)推理方面，機(jī)器在學(xué)術(shù)和工程上都可以做得比較好。二是正確理解，針對(duì)語(yǔ)義建模，還沒(méi)有定論，但是可以做，我們現(xiàn)在做得也比較好。三是內(nèi)容學(xué)習(xí)，這是大家拼命想做的，深度學(xué)習(xí)和各種 DNN 結(jié)構(gòu)等。

對(duì)對(duì)話式交互來(lái)說(shuō)，你可能沒(méi)有大量數(shù)據(jù)，連數(shù)據(jù)的序列都沒(méi)有辦法定義。怎么拿到數(shù)據(jù)？學(xué)習(xí)很重要。對(duì)問(wèn)題建模，提出自己的獨(dú)特方法，解決小數(shù)據(jù)建模的問(wèn)題，這非常重要。當(dāng)所有一切都可以運(yùn)作的時(shí)候，再采用深度增強(qiáng)學(xué)習(xí)，我覺(jué)得這是可行的。AI 里面很早就提到增強(qiáng)學(xué)習(xí)是實(shí)現(xiàn)自主學(xué)習(xí)的有效途徑。

要打造完整的對(duì)話式語(yǔ)音交互系統(tǒng)，涉及到完整的環(huán)，最下層還會(huì)涉及到信號(hào)處理。陳總（聲智科技 CEO 陳孝良）講了很長(zhǎng)時(shí)間信號(hào)處理和硬件、芯片的關(guān)系。上面一層是語(yǔ)音和文字之間怎么相互轉(zhuǎn)化，語(yǔ)音識(shí)別現(xiàn)在相對(duì)也已經(jīng)比較成熟。再上面一層，現(xiàn)在簡(jiǎn)稱為語(yǔ)義理解，但實(shí)際要比這個(gè)復(fù)雜很多，真的要打造這個(gè)系統(tǒng)還需要往前走很多步：語(yǔ)義理解，對(duì)話系統(tǒng)，學(xué)習(xí)系統(tǒng)，自動(dòng)服務(wù)對(duì)接......自動(dòng)服務(wù)對(duì)接的目的是使場(chǎng)景快速遷移，服務(wù)快速上線，作為一個(gè)實(shí)用系統(tǒng)來(lái)說(shuō)，它非常重要，但很少被提及。

最后是語(yǔ)言的生成。

我們公司的核心業(yè)務(wù)是第三部分，但是我們和各個(gè)公司合作，對(duì)整個(gè)閉環(huán)都有完整的解決方案，包括和陳總在信號(hào)處理方面的合作。

驀然認(rèn)知 CEO 戴帥湘：對(duì)話式語(yǔ)音交互將無(wú)處不在 | CCF-GAIR 2017

這是一個(gè)相對(duì)詳細(xì)的技術(shù)方案展示（上圖），黃色部分是我們現(xiàn)在能提供的幾大類，云服務(wù)、語(yǔ)義、語(yǔ)音和設(shè)備控制，然后在設(shè)備端會(huì)以不同形態(tài)植入不同程序，以便于驅(qū)動(dòng)設(shè)備和人進(jìn)行流暢對(duì)話。

所有這些融合的技術(shù)方案，目的只有一個(gè)，就是讓我們?cè)趯?duì)話時(shí)完成應(yīng)用。

我們可能感覺(jué)不到應(yīng)用的存在，但是它的確無(wú)處不在。

總結(jié)和展望

在對(duì)話即應(yīng)用的時(shí)代，有哪些區(qū)別于以往的顯著特征？

一是自然對(duì)話主導(dǎo)交互，交互的方式、過(guò)程和結(jié)果都以對(duì)話方式呈現(xiàn)。

二是應(yīng)用無(wú)需安裝，完全服務(wù)化，輕量級(jí)，用戶獲取和使用的成本大大降低。

三是不同場(chǎng)景下的應(yīng)用自動(dòng)融合，用戶不需要使用那么多 APP，也不需要打開(kāi)那么多網(wǎng)頁(yè)，使用效率大大提升。

四是服務(wù)變得有償化，和人的服務(wù)一樣，高質(zhì)量的虛擬服務(wù)本質(zhì)上也是商品，應(yīng)該獲得高價(jià)格的回報(bào)。

所有這些如果實(shí)現(xiàn)的話，我們的開(kāi)發(fā)成本會(huì)降到很低，使用效率則會(huì)提高很多，機(jī)器和設(shè)備的智能會(huì)極大體現(xiàn)出來(lái)。這樣一個(gè)時(shí)代是機(jī)器逐步學(xué)習(xí)、模仿人，并最終超越人的時(shí)代。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

專題

GAIR 2017

本專題其他文章

張夢(mèng)華

編輯

發(fā)私信

當(dāng)月熱門文章