丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給周翔
發(fā)送

1

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

本文作者: 周翔 編輯:劉芳平 2017-04-18 21:52
導(dǎo)語:小不點(diǎn)則是使用了安卓系統(tǒng)里面針對視障用戶的Accessibility輔助功能,可以直接讀屏,然后實(shí)施虛擬點(diǎn)擊操作,因此不需要調(diào)用第三方APP的API。

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人林德康:前Google高級管理科學(xué)家(senior staff research scientist),主攻自然語言處理。在加入Google之前,林德康是加拿大Alberta大學(xué)計算機(jī)教授,發(fā)表過逾90篇論文、被引用超過12000次,他也是華人圈少數(shù)幾個國際計算語言學(xué)會ACL Fellow之一。

雷鋒網(wǎng)按:距離蘋果Siri的推出已經(jīng)快6年了,期間很多智能手機(jī)廠商也紛紛將語音助手列為賣點(diǎn)之一,但是其使用率一直不高,究其原因,還是語音助手的功能有限。不過隨著深度學(xué)習(xí)帶來的技術(shù)進(jìn)展,以及亞馬遜的Alexa的大獲成功,智能語音助手獲得了前所未有的關(guān)注,很多人都認(rèn)為,語音將是下一個流量入口。

上周,樂視推出了帶有智能語音助手的手機(jī),這款手機(jī)搭載的語音助手就是去年雷鋒網(wǎng)曾報道過的創(chuàng)業(yè)公司奇點(diǎn)機(jī)智的產(chǎn)品——“小不點(diǎn)”。對此,雷鋒網(wǎng)對奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人林德康進(jìn)行了專訪。

“小不點(diǎn)”宣傳視頻

奇點(diǎn)機(jī)智成立于2014年11月,兩位創(chuàng)始人鄔霄云和林德康曾在谷歌工作,并且在自然語言處理方面都有著深厚的技術(shù)和經(jīng)驗(yàn)積累。該公司曾先后入駐微軟創(chuàng)投加速器(MVA)第六期、以及TechCode孵化器。至于為何會選擇做語音助手?林德康表示,最主要的目的并不是因?yàn)殚T檻的降低,而是因?yàn)檎Z音助手確實(shí)有用。

雖然都是語音助手,但是“小不點(diǎn)”和蘋果的Siri、微軟的Cortana等不同。傳統(tǒng)語音助手除了能夠執(zhí)行系統(tǒng)級別的功能,比如設(shè)置鬧鐘、打電話等,功能十分有限,更像是一個“搜索引擎”;“小不點(diǎn)”則拋棄了業(yè)界流行的單獨(dú)的語音對話界面,轉(zhuǎn)而幫助用戶用語音來更便捷地操作手機(jī)里的各種APP,比如發(fā)微信紅包、打車、定外賣等,更像是一個“動作引擎”。

因此,使用小不點(diǎn)的用戶雖然是用語音在與手機(jī)交互,但是同時也在與手機(jī)的圖形界面進(jìn)行交互,這就是林德康提到的CGUI——Conversational Graphic User Interface。

模擬點(diǎn)擊動作

對于小不點(diǎn)來說,其與同類產(chǎn)品最大的不同可能就是最后的實(shí)現(xiàn)過程了。

目前市面上大多數(shù)的語音助手度需要集成第三方應(yīng)用的API,才能實(shí)現(xiàn)調(diào)用功能,然而這一方法存在很大的弊端,因?yàn)檫@會涉及到與第三方APP之間的談判,覆蓋的速度會很慢,而且很多語音助手都想將其他APP的功能集合到自己的界面之中,因此開發(fā)者們往往會有抵觸情緒,這也是為什么蘋果Siri這樣的語音助手在推出這么多年之后,功能依然十分有限的原因之一。

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

用小不點(diǎn)發(fā)微信紅包

而小不點(diǎn)則是使用了安卓系統(tǒng)里面針對視障用戶的Accessibility輔助功能,可以直接讀屏,然后實(shí)施虛擬點(diǎn)擊操作,因此不需要調(diào)用第三方APP的API。比如用微信發(fā)紅包,用戶說完“給XXX發(fā)10塊錢的紅包”之后,小不點(diǎn)就會打開微信,并查找聯(lián)系人,然后跳轉(zhuǎn)到微信發(fā)紅包的界面,并預(yù)填好10塊錢的金額,你需要做的只是確認(rèn)發(fā)送。

不過,林德康表示,他們并不排斥接入第三方APP的API。

此外,小不點(diǎn)還有一個比較智能的學(xué)習(xí)功能。你可以通過這個功能教會小不點(diǎn)實(shí)現(xiàn)目前還不能完成的操作,而且小不點(diǎn)在學(xué)會之后,其他的用戶未來也有可能使用這一功能。據(jù)悉,奇點(diǎn)機(jī)智已經(jīng)為這一獨(dú)特功能申請了專利。

比如,如果你想讓小不點(diǎn)學(xué)會幫你“點(diǎn)一杯咖啡”,那么你可以直接告訴它“學(xué)習(xí)點(diǎn)一杯咖啡”,激活自動學(xué)習(xí)的功能,接下來你就可以開始按平常的步驟進(jìn)行操作,并在所有操作完成后點(diǎn)擊“結(jié)束學(xué)習(xí)”即可。由于小不點(diǎn)會記錄這些操作過程,因此下一次只需要對它說“點(diǎn)一杯咖啡”即可自動完成所有步驟。(以下是在樂視手機(jī)上的演示視頻)

由于以上兩點(diǎn)優(yōu)勢,小不點(diǎn)能夠在很短的時間內(nèi)覆蓋盡可能多的APP。據(jù)奇點(diǎn)機(jī)智透露,小不點(diǎn)目前已經(jīng)覆蓋了50多款常用的APP,具備上百種功能。

雖然目前小不點(diǎn)的公開版本還只能實(shí)現(xiàn)一輪對話,并不能一直在后臺聆聽,但是其內(nèi)測版已經(jīng)實(shí)現(xiàn)了多輪對話,可以通過語音實(shí)現(xiàn)連續(xù)操作,而不需要重新激活。(如以下視頻所示)

「給小樂發(fā)微信」 ->「發(fā)送我在這里你快過來」->「發(fā)送我的位置」->「發(fā)送XXX和OOO的名片」->「視頻聊天」

背后的技術(shù)

1. 語音識別

雖然奇點(diǎn)機(jī)智是一家創(chuàng)業(yè)公司,而且小不點(diǎn)研發(fā)周期也只有1年多的時間,但是林德康表示,目前小不點(diǎn)并沒有采用第三方的語音識別技術(shù),而是奇點(diǎn)智能一個5人左右的團(tuán)隊(duì)自己研發(fā)的,而且采用的就是谷歌的TensorFlow框架。

林德康向雷鋒網(wǎng)透露,其實(shí)之前小不點(diǎn)曾采用百度語音服務(wù)來進(jìn)行語音識別,后來才選擇自己做。為什么呢?原因有以下幾點(diǎn):

  1. 如果使用第三方的語音識別的話,首先需要將音頻傳過去,然而傳回來的一般就只有一句話。但是實(shí)際上在這句話有很多的可能性,而第三方只會在眾多可能性里挑選一個它認(rèn)為最好的傳回來。但是如果是自己能夠掌控這一過程的話,就可以將眾多可能性先預(yù)留著,然而再下一步的時候看哪一種其實(shí)更說得通。

  2. 采用自己的語音識別技術(shù)可以針對某些特定場景進(jìn)行優(yōu)化,比如在識別微信通訊錄里的人名的時候,如果采用第三方接口,不一定能夠識別正確,但是如果是自己的語音識別技術(shù),系統(tǒng)就可以參照通訊錄里面的名字進(jìn)行實(shí)時更正。

  3. 由于深度學(xué)習(xí)這一革命性進(jìn)步的出現(xiàn),讓語音識別領(lǐng)域重新洗牌,幾乎所有玩家都站在了同一起跑線上,大幅降低了后進(jìn)者的門檻。因此雖然奇點(diǎn)機(jī)智起步較晚,但是實(shí)際上的技術(shù)差距并不大。

不過一個小團(tuán)隊(duì)的一年的努力,真的能夠與大公司相比嗎?雖然林德康并沒有給出用來衡量語音識別的詞錯率(word error rate)的具體數(shù)值,但是他表示,在實(shí)測體驗(yàn)的過程中,兩者表現(xiàn)差不多。不過,目前小不點(diǎn)只支持普通話,并不支持方言。

除了不斷地投喂數(shù)據(jù),訓(xùn)練語音識別的算法模型之外,還有哪些方法可以提高語音識別的正確率,降低用戶在使用過程中的挫敗感呢?林德康舉了一個例子。他表示,研發(fā)會根據(jù)APP的名字來優(yōu)化語音識別的準(zhǔn)確率。比如“摩拜單車”的“摩拜”兩個字在通用語料庫里可能并不是排名最高的,但是對于小不點(diǎn)的用戶來說,可能大部分時候指的就是“摩拜”,因此在優(yōu)化時,他們會將這點(diǎn)考慮進(jìn)去,來提高用戶的使用體驗(yàn)。

而且作為一家小團(tuán)隊(duì),奇點(diǎn)機(jī)智除了購買訓(xùn)練語音識別模型所需要的標(biāo)記數(shù)據(jù)之外,還專門開發(fā)一款A(yù)PP,讓員工利用碎片時間,來專門標(biāo)注訓(xùn)練所需要的數(shù)據(jù)。

2. 語義理解

由于公司的兩位創(chuàng)始人都有NLP(自然語言處理)的背景,因此在這一部分會有一些優(yōu)勢。林德康在回國之前就是谷歌做自動問答系統(tǒng)的,他表示其中有很多東西都是類似的。

比如實(shí)體識別,包括人名、地名、電影名等專有名詞,這些都是最基本的,但是要理解整句話的意思的時候,就需要推理功能了。比如當(dāng)你說“我想去成都”,那么我們可能就會給你用攜程等軟件搜尋火車票或者機(jī)票,如果你說“我想去積水潭醫(yī)院”,那么我們可能就會用打車軟件給你預(yù)訂車輛。因此只是將一個個的關(guān)鍵詞列出來是不行的,還必須將每個詞進(jìn)行分類,然后根據(jù)詞的表達(dá)結(jié)構(gòu)做推理,才能真正理解用戶的意圖。

林德康認(rèn)為,做自然語言理解最怕的就是邊界,比如Facebook的Messenger Bot聊天機(jī)器人,里面上下文的關(guān)聯(lián)太多。而做小不點(diǎn)這種類型的語音助手相對容易一些,雖然語音助手的可能性也非常多,但是它能做的東西是有限的,因此是存在邊界的,比如不會用戶不可能用攜程去交水費(fèi)。

語音助手的前景

2014年11月,奇點(diǎn)機(jī)智獲得了徐小平100萬美元的天使輪融資;去年3月底,奇點(diǎn)機(jī)智又獲得了襄禾資本和NEA資本500萬美金A輪融資。雖然已經(jīng)獲得兩輪融資,但是作為一家創(chuàng)業(yè)公司,未來的盈利模式很顯然也是需要考慮的事情。

林德康向雷鋒網(wǎng)表示,目前團(tuán)隊(duì)的注意力主要集中在打磨產(chǎn)品,爭取與更多的手機(jī)廠商合作,未來還會推出獨(dú)立的APP,暫不考慮盈利的事情。

據(jù)雷鋒網(wǎng)了解,由于奇點(diǎn)機(jī)智不會向合作的手機(jī)廠商收取費(fèi)用,未來很可能會通過為第三方APP提供流量入口來獲取盈利。比如目前用戶想通過小不點(diǎn)來訂餐,但是在用戶沒有指明APP的情況下,小不點(diǎn)會默認(rèn)打開“餓了么”,如果你的手機(jī)里面沒有餓了么,那么就會跳轉(zhuǎn)到餓了么的下載頁。當(dāng)然,你可以直接告訴小不點(diǎn),你想通過美團(tuán)或者百度來定外賣。

對于語音助手未來的發(fā)展前景,林德康雖然也認(rèn)同語音是下一個流量的入口,但是他認(rèn)為“語音+圖形界面”才是未來,而不是Alexa那種完全拋棄屏幕的做法。

雖然林德康表示,利用模擬點(diǎn)擊來實(shí)現(xiàn)語音操控APP的功能是小不點(diǎn)的首創(chuàng),但是近日網(wǎng)上流傳出來的演示視頻顯示,三星的智能語音助手Bixby采用的也是和小不點(diǎn)相同的方式,這也從側(cè)面驗(yàn)證了奇點(diǎn)機(jī)智方向的正確性。

不過,目前計算機(jī)還無法真正理解人類的自然語言,這也是為什么就連Facebook、谷歌等科技巨頭的聊天機(jī)器人想要實(shí)現(xiàn)多輪對話依然十分困難,據(jù)外媒報道,F(xiàn)acebook的虛擬助理M和Messenger bot的進(jìn)展很不順利,其中M能夠正確回應(yīng)的請求只有 30%,使用情況令人失望。因此,奇點(diǎn)機(jī)智的這條路或許沒有很高的技術(shù)門檻,但是卻更加實(shí)際。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說