丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給張夢華
發(fā)送

0

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

本文作者: 張夢華 2017-07-11 12:06 專題:GAIR 2017
導(dǎo)語:這樣一個時代是機器逐步學習、模仿人,并最終超越人的時代。

雷鋒網(wǎng)注:2017 年 7 月 7 日至 9 日,由中國計算機學會(CCF)主辦、雷鋒網(wǎng)與香港中文大學(深圳)承辦的 CCF-GAIR 全球人工智能與機器人峰會在深圳如期落地。會議第一天,國內(nèi)外頂尖學者和從業(yè)者各自帶來了豐富的行業(yè)干貨分享,隨后兩天,GAIR 的機器人、智能助手、金融科技、AI+、智能駕駛等各個專場又為各領(lǐng)域從業(yè)者提供了密切交流和學習的機會。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

驀然認知是近兩年在自然語言理解方面表現(xiàn)最為搶眼的公司之一,其扎實的語義理解技術(shù)已經(jīng)為暴風 TV、上汽大通、VINCI 等企業(yè)提供了成熟的語音助手解決方案。創(chuàng)始人兼 CEO 戴帥湘曾在百度從事 9 年的自然語音理解,任百度 NLP 主任架構(gòu)師,并曾帶領(lǐng)團隊獲得百度語義最高獎。

在 CCF-GAIR 大會智能助手專場,戴帥湘做了《對話即應(yīng)用》的主題演講,雷鋒網(wǎng)對其內(nèi)容進行了整理,以下為演講全文:

我今天分享的主題是“對話即應(yīng)用”,很多人認為這是遙遠的未來,事實上它有可能就在我們眼前。

未來只存在于我們的腦海中,是虛構(gòu)的,但是人天生向往未來。這是人的本性,寫在我們的基因里。

“人是為了想象而活著”,我覺得這句話沒有錯,但是“當未來已來,過去也沒有過去”的時候,在時空轉(zhuǎn)換的間隙里,我們的認知和想象怎么調(diào)整?

以互聯(lián)網(wǎng)發(fā)展為例,人機交互在互聯(lián)網(wǎng)發(fā)展中扮演了非常關(guān)鍵的角色。每一次人機交互的革新都必然帶來革命性的浪潮。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

20 年前,互聯(lián)網(wǎng)剛開始普及,我們使用鍵盤、鼠標來操作互聯(lián)網(wǎng),這種應(yīng)用形態(tài)很簡單,無非就是網(wǎng)頁。

大概 10 年以后,到 2007 年,喬布斯發(fā)布了具有劃時代意義的產(chǎn)品:第一代 iPhone。它完全摒棄了之前的鍵盤操作,使用了全觸摸屏的操作方式,這種轉(zhuǎn)變直接導(dǎo)致當時的兩大手機巨頭在此后短短幾年內(nèi)迅速衰落,直至退出市場。

這種變化同時帶來了應(yīng)用形態(tài)的變化——從之前的 Web 程序開發(fā),迅速轉(zhuǎn)入 APP 程序開發(fā),這種變化也導(dǎo)致互聯(lián)網(wǎng)時代幾大巨頭在此后 10 年間逐步衰落。

又過了 10 年,到今天,一個新的時代正在來臨。剛才幾位也講到,現(xiàn)在大大小小的公司都開始做音響,音響是否是很好的產(chǎn)品暫時還沒有定論,但我們卻可以感覺到身邊越來越多的硬件開始聯(lián)網(wǎng),大家稱之為“萬物互聯(lián)”的時代。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

《人類簡史》里有一個觀點:人本身不具有大規(guī)模合作的基因,需要語言和文字來彌補。我們今天制造這么多設(shè)備,要想讓它們真正和人類大規(guī)模合作,對話式語音交互必不可少,也必定會成為主流。我相信在未來的 IoT 時代,語音交互將跨越軟件和硬件的邊界,在不同的場景下,呈現(xiàn)不同的應(yīng)用和服務(wù),也就是對話即應(yīng)用。

即便很多人現(xiàn)在對這個東西還沒有概念,但是思考一下,你就會發(fā)現(xiàn)這是一個了不起的時代。我們不愿意錯過這個時代,所以成立了一家公司,叫做驀然認知。我們致力于讓機器認知世界,認知計算,以自然語言理解為核心,提供信號處理、語音、語義、服務(wù)自動對接、一站式自動交互的解決方案,更簡單地說,它就是以語義理解為核心的決策引擎,是搜索引擎的下一代。

作為一家創(chuàng)業(yè)公司,不管做什么,首先要有準確的市場定位和切入點。對于驀然來說,我們最先落地和打造的交互場景有家居和車載兩大類,這兩大類可以合為一個完整的整體。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

家居場景:以電視為切入口

為什么選擇家居場景?有幾個理由:

  • 家是休閑和放松的場所,我們希望在家里享受后仰式服務(wù),而不是前傾式服務(wù);

  • 家是吃飯,甚至購物的場所,越來越多的人不出家門,從網(wǎng)上購買生活用品。比如吃,你可以不會做飯,但你可能需要獲取做飯的信息,可能需要知道提供外賣、團購的餐廳信息。這些信息都可以通過更好的交互方式來提供;

  • 家里的設(shè)備越來越多,除了傳統(tǒng)的幾件,現(xiàn)在又有音響、洗碗機、掃地機器人等,如果想要更好地了解、使用這些設(shè)備,需要集中式的交互入口,做集中式控制和使用,這是很自然的方式。

針對這三點,我們設(shè)計了三類交互方式:

  • 基于視頻內(nèi)容的交互,主要是針對電視。我們最先是和暴風 TV 合作,劉總(暴風 TV CEO 劉耀平)后面會做具體講解;

  • 基于生活服務(wù)的交互,比如外賣、咖啡、電影票、火車票、飛機票等,都可以通過連續(xù)對話來解決;

  • 智能設(shè)備控制的交互,這個在技術(shù)上比較簡單,主要問題在于現(xiàn)在各大廠商的協(xié)議不是那么統(tǒng)一。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

車載場景:最適合語音交互的場景

現(xiàn)在業(yè)界基本達成的一個共識是,車載是最適合對話式語音交互的場景,原因主要有兩點:

  • 人開車時雙手、雙腳都是被占用的。可能大家經(jīng)常在報道上看到,女司機怎樣怎樣......很多人容易被車駕馭,而不是駕馭車,這是很危險的行為;

  • 人在車里的時間越來越長,可能有擁堵的原因,也可能因為人們更喜歡私密的自駕行為。這是完整、連續(xù)的時間,而不是碎片化的,充分利用這個時間,用合適的方式和車交互,會給用戶帶來完全不一樣的體驗。

車載場景里,交互設(shè)計有些差別,行車過程中需要考察路線規(guī)劃,自動導(dǎo)航,即時通訊,實時路況等,除此之外,我們會更關(guān)注行車目的,這對交互會有很大影響。比如你開車去餐廳,我們會給你提供餐廳信息查詢、訂座服務(wù),如果去機場,就提供機場航班延誤信息,甚至可以買機票,如果去商場,就可以查詢附近停車位和停車預(yù)定服務(wù),當然這些現(xiàn)在只有少數(shù)大城市才會有。總之,目的地在車載交互中非常重要。

這兩種場景是生活中非常重要的兩大場景,但可以通過我們整體的系統(tǒng),成為一個 mall,從而融合成更大的場景。而要融合如此多功能的場景,需要各種場景間的自由切換,這個過程要有非常復(fù)雜的語音交互或者對話式語音交互才能完成。

對話式語音交互是多種技術(shù)融合的必然結(jié)果。下面我從不同角度來闡述涉及對話語音交互的各個層面:

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

VUI 和 GUI 融合

GUI 本身是一種確定的、簡單的、沒有后效性的操作;VUI 是發(fā)散的、跳躍的,相對模糊,但是可以完成復(fù)雜任務(wù)的操作。GUI 是讓我們適應(yīng)機器,VUI 是讓機器適應(yīng)我們。只有兩者有機結(jié)合在一起,對話式交互系統(tǒng)才能發(fā)揮作用。什么效率最高,我們就用什么,搖控器效率最高,就用搖控器,語音搜索最方便就用語音。下單和選擇過程,其實是非常融合的過程。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

多場景融合

大家多數(shù)時候聽到的是把垂直場景做深,我覺得這不是根本的。高頻場景的確可以快速覆蓋,但是真正有效的是長尾場景。對話過程中只滿足高頻沒有意義,只有長尾融合在一起,讓用戶感受到服務(wù)需求在各個地方得到滿足,才有可能成為很有效的交互方式。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

設(shè)備間的協(xié)同

剛才講到,單一設(shè)備里必須有多場景的融合,這之間的融合怎么做?例如,天氣很熱,我開車回家前,想把家里的空調(diào)調(diào)到 24 度,走廊的燈打開,這是日常生活中很自然的需求。按照現(xiàn)在的很多框架,實現(xiàn)這些會非常復(fù)雜,但是植入我們的系統(tǒng)以后,車機和家庭設(shè)備就可以自然融合,和一個設(shè)備一樣。我們要為用戶營造不同設(shè)備之間遷移、無縫連接、包裹式的經(jīng)驗。這比多場景融合更容易實現(xiàn)。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

知識和服務(wù)的融合

大家看到我們談?wù)摱噍喗换ズ蛦屋喗换?,但在我看來,并沒有什么單輪對話的存在。語音早期的應(yīng)用集中在控制、開燈、關(guān)燈、調(diào)音量這些方面,它們的輸入方式不是對話,而是輸入法。真正有用的對話是雙向的,系統(tǒng)理解以后做適當?shù)膭幼?,不理解的話就做推薦動作或反問動作、澄清動作,這樣才能形成完整的、任務(wù)式的、有目的的、優(yōu)化的對話,而不是隨意的。

比如,你今天晚上想看電影,可能會說今天要去的某個電影院、某場電影、某個名字,但這樣說的人太少,系統(tǒng)順利完成任務(wù)的概率很低。你有目標,但是不確定怎么達到這個目標,這時交互式對話會引導(dǎo)你到另外一步,比如電影系統(tǒng)會給出最近在上映的電影,然后基于個人愛好給出合適的推薦;等做完選擇后,你還得注意,電影院在哪里,自己在哪里,你們之間的關(guān)系是不是能讓你快速抵達電影院?所有這些完成以后,你還有一個步驟,就是決定要幾個人去,這個要定做,不是我們預(yù)先定義的。多輪對話的目的是目標不變,但可以打亂所有步驟,這是知識和服務(wù)的融合,是可以做到的。我們現(xiàn)在做得很好。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

技術(shù)的融合

AI 本質(zhì)上是技術(shù)的集合體,不是單一的模型,也不是單一的方法,而是多項關(guān)鍵技術(shù)的融合。

決策引擎中有三類,一是認知計算模型,主要針對知識推理建模。知識推理方面,機器在學術(shù)和工程上都可以做得比較好。二是正確理解,針對語義建模,還沒有定論,但是可以做,我們現(xiàn)在做得也比較好。三是內(nèi)容學習,這是大家拼命想做的,深度學習和各種 DNN 結(jié)構(gòu)等。

對對話式交互來說,你可能沒有大量數(shù)據(jù),連數(shù)據(jù)的序列都沒有辦法定義。怎么拿到數(shù)據(jù)?學習很重要。對問題建模,提出自己的獨特方法,解決小數(shù)據(jù)建模的問題,這非常重要。當所有一切都可以運作的時候,再采用深度增強學習,我覺得這是可行的。AI 里面很早就提到增強學習是實現(xiàn)自主學習的有效途徑。

要打造完整的對話式語音交互系統(tǒng),涉及到完整的環(huán),最下層還會涉及到信號處理。陳總(聲智科技 CEO 陳孝良)講了很長時間信號處理和硬件、芯片的關(guān)系。上面一層是語音和文字之間怎么相互轉(zhuǎn)化,語音識別現(xiàn)在相對也已經(jīng)比較成熟。再上面一層,現(xiàn)在簡稱為語義理解,但實際要比這個復(fù)雜很多,真的要打造這個系統(tǒng)還需要往前走很多步:語義理解,對話系統(tǒng),學習系統(tǒng),自動服務(wù)對接......自動服務(wù)對接的目的是使場景快速遷移,服務(wù)快速上線,作為一個實用系統(tǒng)來說,它非常重要,但很少被提及。

最后是語言的生成。

我們公司的核心業(yè)務(wù)是第三部分,但是我們和各個公司合作,對整個閉環(huán)都有完整的解決方案,包括和陳總在信號處理方面的合作。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

這是一個相對詳細的技術(shù)方案展示(上圖),黃色部分是我們現(xiàn)在能提供的幾大類,云服務(wù)、語義、語音和設(shè)備控制,然后在設(shè)備端會以不同形態(tài)植入不同程序,以便于驅(qū)動設(shè)備和人進行流暢對話。

所有這些融合的技術(shù)方案,目的只有一個,就是讓我們在對話時完成應(yīng)用。

我們可能感覺不到應(yīng)用的存在,但是它的確無處不在。

總結(jié)和展望

在對話即應(yīng)用的時代,有哪些區(qū)別于以往的顯著特征?

一是自然對話主導(dǎo)交互,交互的方式、過程和結(jié)果都以對話方式呈現(xiàn)。

二是應(yīng)用無需安裝,完全服務(wù)化,輕量級,用戶獲取和使用的成本大大降低。

三是不同場景下的應(yīng)用自動融合,用戶不需要使用那么多 APP,也不需要打開那么多網(wǎng)頁,使用效率大大提升。

四是服務(wù)變得有償化,和人的服務(wù)一樣,高質(zhì)量的虛擬服務(wù)本質(zhì)上也是商品,應(yīng)該獲得高價格的回報。

所有這些如果實現(xiàn)的話,我們的開發(fā)成本會降到很低,使用效率則會提高很多,機器和設(shè)備的智能會極大體現(xiàn)出來。這樣一個時代是機器逐步學習、模仿人,并最終超越人的時代。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說