丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張夢華
發(fā)送

0

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

本文作者: 張夢華 2017-07-11 12:06 專題:GAIR 2017
導(dǎo)語:這樣一個(gè)時(shí)代是機(jī)器逐步學(xué)習(xí)、模仿人,并最終超越人的時(shí)代。

雷鋒網(wǎng)注:2017 年 7 月 7 日至 9 日,由中國計(jì)算機(jī)學(xué)會(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的 CCF-GAIR 全球人工智能與機(jī)器人峰會在深圳如期落地。會議第一天,國內(nèi)外頂尖學(xué)者和從業(yè)者各自帶來了豐富的行業(yè)干貨分享,隨后兩天,GAIR 的機(jī)器人、智能助手、金融科技、AI+、智能駕駛等各個(gè)專場又為各領(lǐng)域從業(yè)者提供了密切交流和學(xué)習(xí)的機(jī)會。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

驀然認(rèn)知是近兩年在自然語言理解方面表現(xiàn)最為搶眼的公司之一,其扎實(shí)的語義理解技術(shù)已經(jīng)為暴風(fēng) TV、上汽大通、VINCI 等企業(yè)提供了成熟的語音助手解決方案。創(chuàng)始人兼 CEO 戴帥湘曾在百度從事 9 年的自然語音理解,任百度 NLP 主任架構(gòu)師,并曾帶領(lǐng)團(tuán)隊(duì)獲得百度語義最高獎(jiǎng)。

在 CCF-GAIR 大會智能助手專場,戴帥湘做了《對話即應(yīng)用》的主題演講,雷鋒網(wǎng)對其內(nèi)容進(jìn)行了整理,以下為演講全文:

我今天分享的主題是“對話即應(yīng)用”,很多人認(rèn)為這是遙遠(yuǎn)的未來,事實(shí)上它有可能就在我們眼前。

未來只存在于我們的腦海中,是虛構(gòu)的,但是人天生向往未來。這是人的本性,寫在我們的基因里。

“人是為了想象而活著”,我覺得這句話沒有錯(cuò),但是“當(dāng)未來已來,過去也沒有過去”的時(shí)候,在時(shí)空轉(zhuǎn)換的間隙里,我們的認(rèn)知和想象怎么調(diào)整?

以互聯(lián)網(wǎng)發(fā)展為例,人機(jī)交互在互聯(lián)網(wǎng)發(fā)展中扮演了非常關(guān)鍵的角色。每一次人機(jī)交互的革新都必然帶來革命性的浪潮。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

20 年前,互聯(lián)網(wǎng)剛開始普及,我們使用鍵盤、鼠標(biāo)來操作互聯(lián)網(wǎng),這種應(yīng)用形態(tài)很簡單,無非就是網(wǎng)頁。

大概 10 年以后,到 2007 年,喬布斯發(fā)布了具有劃時(shí)代意義的產(chǎn)品:第一代 iPhone。它完全摒棄了之前的鍵盤操作,使用了全觸摸屏的操作方式,這種轉(zhuǎn)變直接導(dǎo)致當(dāng)時(shí)的兩大手機(jī)巨頭在此后短短幾年內(nèi)迅速衰落,直至退出市場。

這種變化同時(shí)帶來了應(yīng)用形態(tài)的變化——從之前的 Web 程序開發(fā),迅速轉(zhuǎn)入 APP 程序開發(fā),這種變化也導(dǎo)致互聯(lián)網(wǎng)時(shí)代幾大巨頭在此后 10 年間逐步衰落。

又過了 10 年,到今天,一個(gè)新的時(shí)代正在來臨。剛才幾位也講到,現(xiàn)在大大小小的公司都開始做音響,音響是否是很好的產(chǎn)品暫時(shí)還沒有定論,但我們卻可以感覺到身邊越來越多的硬件開始聯(lián)網(wǎng),大家稱之為“萬物互聯(lián)”的時(shí)代。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

《人類簡史》里有一個(gè)觀點(diǎn):人本身不具有大規(guī)模合作的基因,需要語言和文字來彌補(bǔ)。我們今天制造這么多設(shè)備,要想讓它們真正和人類大規(guī)模合作,對話式語音交互必不可少,也必定會成為主流。我相信在未來的 IoT 時(shí)代,語音交互將跨越軟件和硬件的邊界,在不同的場景下,呈現(xiàn)不同的應(yīng)用和服務(wù),也就是對話即應(yīng)用。

即便很多人現(xiàn)在對這個(gè)東西還沒有概念,但是思考一下,你就會發(fā)現(xiàn)這是一個(gè)了不起的時(shí)代。我們不愿意錯(cuò)過這個(gè)時(shí)代,所以成立了一家公司,叫做驀然認(rèn)知。我們致力于讓機(jī)器認(rèn)知世界,認(rèn)知計(jì)算,以自然語言理解為核心,提供信號處理、語音、語義、服務(wù)自動對接、一站式自動交互的解決方案,更簡單地說,它就是以語義理解為核心的決策引擎,是搜索引擎的下一代。

作為一家創(chuàng)業(yè)公司,不管做什么,首先要有準(zhǔn)確的市場定位和切入點(diǎn)。對于驀然來說,我們最先落地和打造的交互場景有家居和車載兩大類,這兩大類可以合為一個(gè)完整的整體。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

家居場景:以電視為切入口

為什么選擇家居場景?有幾個(gè)理由:

  • 家是休閑和放松的場所,我們希望在家里享受后仰式服務(wù),而不是前傾式服務(wù);

  • 家是吃飯,甚至購物的場所,越來越多的人不出家門,從網(wǎng)上購買生活用品。比如吃,你可以不會做飯,但你可能需要獲取做飯的信息,可能需要知道提供外賣、團(tuán)購的餐廳信息。這些信息都可以通過更好的交互方式來提供;

  • 家里的設(shè)備越來越多,除了傳統(tǒng)的幾件,現(xiàn)在又有音響、洗碗機(jī)、掃地機(jī)器人等,如果想要更好地了解、使用這些設(shè)備,需要集中式的交互入口,做集中式控制和使用,這是很自然的方式。

針對這三點(diǎn),我們設(shè)計(jì)了三類交互方式:

  • 基于視頻內(nèi)容的交互,主要是針對電視。我們最先是和暴風(fēng) TV 合作,劉總(暴風(fēng) TV CEO 劉耀平)后面會做具體講解;

  • 基于生活服務(wù)的交互,比如外賣、咖啡、電影票、火車票、飛機(jī)票等,都可以通過連續(xù)對話來解決;

  • 智能設(shè)備控制的交互,這個(gè)在技術(shù)上比較簡單,主要問題在于現(xiàn)在各大廠商的協(xié)議不是那么統(tǒng)一。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

車載場景:最適合語音交互的場景

現(xiàn)在業(yè)界基本達(dá)成的一個(gè)共識是,車載是最適合對話式語音交互的場景,原因主要有兩點(diǎn):

  • 人開車時(shí)雙手、雙腳都是被占用的。可能大家經(jīng)常在報(bào)道上看到,女司機(jī)怎樣怎樣......很多人容易被車駕馭,而不是駕馭車,這是很危險(xiǎn)的行為;

  • 人在車?yán)锏臅r(shí)間越來越長,可能有擁堵的原因,也可能因?yàn)槿藗兏矚g私密的自駕行為。這是完整、連續(xù)的時(shí)間,而不是碎片化的,充分利用這個(gè)時(shí)間,用合適的方式和車交互,會給用戶帶來完全不一樣的體驗(yàn)。

車載場景里,交互設(shè)計(jì)有些差別,行車過程中需要考察路線規(guī)劃,自動導(dǎo)航,即時(shí)通訊,實(shí)時(shí)路況等,除此之外,我們會更關(guān)注行車目的,這對交互會有很大影響。比如你開車去餐廳,我們會給你提供餐廳信息查詢、訂座服務(wù),如果去機(jī)場,就提供機(jī)場航班延誤信息,甚至可以買機(jī)票,如果去商場,就可以查詢附近停車位和停車預(yù)定服務(wù),當(dāng)然這些現(xiàn)在只有少數(shù)大城市才會有。總之,目的地在車載交互中非常重要。

這兩種場景是生活中非常重要的兩大場景,但可以通過我們整體的系統(tǒng),成為一個(gè) mall,從而融合成更大的場景。而要融合如此多功能的場景,需要各種場景間的自由切換,這個(gè)過程要有非常復(fù)雜的語音交互或者對話式語音交互才能完成。

對話式語音交互是多種技術(shù)融合的必然結(jié)果。下面我從不同角度來闡述涉及對話語音交互的各個(gè)層面:

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

VUI 和 GUI 融合

GUI 本身是一種確定的、簡單的、沒有后效性的操作;VUI 是發(fā)散的、跳躍的,相對模糊,但是可以完成復(fù)雜任務(wù)的操作。GUI 是讓我們適應(yīng)機(jī)器,VUI 是讓機(jī)器適應(yīng)我們。只有兩者有機(jī)結(jié)合在一起,對話式交互系統(tǒng)才能發(fā)揮作用。什么效率最高,我們就用什么,搖控器效率最高,就用搖控器,語音搜索最方便就用語音。下單和選擇過程,其實(shí)是非常融合的過程。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

多場景融合

大家多數(shù)時(shí)候聽到的是把垂直場景做深,我覺得這不是根本的。高頻場景的確可以快速覆蓋,但是真正有效的是長尾場景。對話過程中只滿足高頻沒有意義,只有長尾融合在一起,讓用戶感受到服務(wù)需求在各個(gè)地方得到滿足,才有可能成為很有效的交互方式。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

設(shè)備間的協(xié)同

剛才講到,單一設(shè)備里必須有多場景的融合,這之間的融合怎么做?例如,天氣很熱,我開車回家前,想把家里的空調(diào)調(diào)到 24 度,走廊的燈打開,這是日常生活中很自然的需求。按照現(xiàn)在的很多框架,實(shí)現(xiàn)這些會非常復(fù)雜,但是植入我們的系統(tǒng)以后,車機(jī)和家庭設(shè)備就可以自然融合,和一個(gè)設(shè)備一樣。我們要為用戶營造不同設(shè)備之間遷移、無縫連接、包裹式的經(jīng)驗(yàn)。這比多場景融合更容易實(shí)現(xiàn)。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

知識和服務(wù)的融合

大家看到我們談?wù)摱噍喗换ズ蛦屋喗换?,但在我看來,并沒有什么單輪對話的存在。語音早期的應(yīng)用集中在控制、開燈、關(guān)燈、調(diào)音量這些方面,它們的輸入方式不是對話,而是輸入法。真正有用的對話是雙向的,系統(tǒng)理解以后做適當(dāng)?shù)膭幼?,不理解的話就做推薦動作或反問動作、澄清動作,這樣才能形成完整的、任務(wù)式的、有目的的、優(yōu)化的對話,而不是隨意的。

比如,你今天晚上想看電影,可能會說今天要去的某個(gè)電影院、某場電影、某個(gè)名字,但這樣說的人太少,系統(tǒng)順利完成任務(wù)的概率很低。你有目標(biāo),但是不確定怎么達(dá)到這個(gè)目標(biāo),這時(shí)交互式對話會引導(dǎo)你到另外一步,比如電影系統(tǒng)會給出最近在上映的電影,然后基于個(gè)人愛好給出合適的推薦;等做完選擇后,你還得注意,電影院在哪里,自己在哪里,你們之間的關(guān)系是不是能讓你快速抵達(dá)電影院?所有這些完成以后,你還有一個(gè)步驟,就是決定要幾個(gè)人去,這個(gè)要定做,不是我們預(yù)先定義的。多輪對話的目的是目標(biāo)不變,但可以打亂所有步驟,這是知識和服務(wù)的融合,是可以做到的。我們現(xiàn)在做得很好。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

技術(shù)的融合

AI 本質(zhì)上是技術(shù)的集合體,不是單一的模型,也不是單一的方法,而是多項(xiàng)關(guān)鍵技術(shù)的融合。

決策引擎中有三類,一是認(rèn)知計(jì)算模型,主要針對知識推理建模。知識推理方面,機(jī)器在學(xué)術(shù)和工程上都可以做得比較好。二是正確理解,針對語義建模,還沒有定論,但是可以做,我們現(xiàn)在做得也比較好。三是內(nèi)容學(xué)習(xí),這是大家拼命想做的,深度學(xué)習(xí)和各種 DNN 結(jié)構(gòu)等。

對對話式交互來說,你可能沒有大量數(shù)據(jù),連數(shù)據(jù)的序列都沒有辦法定義。怎么拿到數(shù)據(jù)?學(xué)習(xí)很重要。對問題建模,提出自己的獨(dú)特方法,解決小數(shù)據(jù)建模的問題,這非常重要。當(dāng)所有一切都可以運(yùn)作的時(shí)候,再采用深度增強(qiáng)學(xué)習(xí),我覺得這是可行的。AI 里面很早就提到增強(qiáng)學(xué)習(xí)是實(shí)現(xiàn)自主學(xué)習(xí)的有效途徑。

要打造完整的對話式語音交互系統(tǒng),涉及到完整的環(huán),最下層還會涉及到信號處理。陳總(聲智科技 CEO 陳孝良)講了很長時(shí)間信號處理和硬件、芯片的關(guān)系。上面一層是語音和文字之間怎么相互轉(zhuǎn)化,語音識別現(xiàn)在相對也已經(jīng)比較成熟。再上面一層,現(xiàn)在簡稱為語義理解,但實(shí)際要比這個(gè)復(fù)雜很多,真的要打造這個(gè)系統(tǒng)還需要往前走很多步:語義理解,對話系統(tǒng),學(xué)習(xí)系統(tǒng),自動服務(wù)對接......自動服務(wù)對接的目的是使場景快速遷移,服務(wù)快速上線,作為一個(gè)實(shí)用系統(tǒng)來說,它非常重要,但很少被提及。

最后是語言的生成。

我們公司的核心業(yè)務(wù)是第三部分,但是我們和各個(gè)公司合作,對整個(gè)閉環(huán)都有完整的解決方案,包括和陳總在信號處理方面的合作。

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

這是一個(gè)相對詳細(xì)的技術(shù)方案展示(上圖),黃色部分是我們現(xiàn)在能提供的幾大類,云服務(wù)、語義、語音和設(shè)備控制,然后在設(shè)備端會以不同形態(tài)植入不同程序,以便于驅(qū)動設(shè)備和人進(jìn)行流暢對話。

所有這些融合的技術(shù)方案,目的只有一個(gè),就是讓我們在對話時(shí)完成應(yīng)用。

我們可能感覺不到應(yīng)用的存在,但是它的確無處不在。

總結(jié)和展望

在對話即應(yīng)用的時(shí)代,有哪些區(qū)別于以往的顯著特征?

一是自然對話主導(dǎo)交互,交互的方式、過程和結(jié)果都以對話方式呈現(xiàn)。

二是應(yīng)用無需安裝,完全服務(wù)化,輕量級,用戶獲取和使用的成本大大降低。

三是不同場景下的應(yīng)用自動融合,用戶不需要使用那么多 APP,也不需要打開那么多網(wǎng)頁,使用效率大大提升。

四是服務(wù)變得有償化,和人的服務(wù)一樣,高質(zhì)量的虛擬服務(wù)本質(zhì)上也是商品,應(yīng)該獲得高價(jià)格的回報(bào)。

所有這些如果實(shí)現(xiàn)的話,我們的開發(fā)成本會降到很低,使用效率則會提高很多,機(jī)器和設(shè)備的智能會極大體現(xiàn)出來。這樣一個(gè)時(shí)代是機(jī)器逐步學(xué)習(xí)、模仿人,并最終超越人的時(shí)代。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

驀然認(rèn)知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說