丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給周翔
發(fā)送

1

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

本文作者: 周翔 編輯:劉芳平 2017-04-18 21:52
導(dǎo)語:小不點則是使用了安卓系統(tǒng)里面針對視障用戶的Accessibility輔助功能,可以直接讀屏,然后實施虛擬點擊操作,因此不需要調(diào)用第三方APP的API。

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

奇點機智聯(lián)合創(chuàng)始人林德康:前Google高級管理科學家(senior staff research scientist),主攻自然語言處理。在加入Google之前,林德康是加拿大Alberta大學計算機教授,發(fā)表過逾90篇論文、被引用超過12000次,他也是華人圈少數(shù)幾個國際計算語言學會ACL Fellow之一。

雷鋒網(wǎng)按:距離蘋果Siri的推出已經(jīng)快6年了,期間很多智能手機廠商也紛紛將語音助手列為賣點之一,但是其使用率一直不高,究其原因,還是語音助手的功能有限。不過隨著深度學習帶來的技術(shù)進展,以及亞馬遜的Alexa的大獲成功,智能語音助手獲得了前所未有的關(guān)注,很多人都認為,語音將是下一個流量入口。

上周,樂視推出了帶有智能語音助手的手機,這款手機搭載的語音助手就是去年雷鋒網(wǎng)曾報道過的創(chuàng)業(yè)公司奇點機智的產(chǎn)品——“小不點”。對此,雷鋒網(wǎng)對奇點機智聯(lián)合創(chuàng)始人林德康進行了專訪。

“小不點”宣傳視頻

奇點機智成立于2014年11月,兩位創(chuàng)始人鄔霄云和林德康曾在谷歌工作,并且在自然語言處理方面都有著深厚的技術(shù)和經(jīng)驗積累。該公司曾先后入駐微軟創(chuàng)投加速器(MVA)第六期、以及TechCode孵化器。至于為何會選擇做語音助手?林德康表示,最主要的目的并不是因為門檻的降低,而是因為語音助手確實有用。

雖然都是語音助手,但是“小不點”和蘋果的Siri、微軟的Cortana等不同。傳統(tǒng)語音助手除了能夠執(zhí)行系統(tǒng)級別的功能,比如設(shè)置鬧鐘、打電話等,功能十分有限,更像是一個“搜索引擎”;“小不點”則拋棄了業(yè)界流行的單獨的語音對話界面,轉(zhuǎn)而幫助用戶用語音來更便捷地操作手機里的各種APP,比如發(fā)微信紅包、打車、定外賣等,更像是一個“動作引擎”。

因此,使用小不點的用戶雖然是用語音在與手機交互,但是同時也在與手機的圖形界面進行交互,這就是林德康提到的CGUI——Conversational Graphic User Interface。

模擬點擊動作

對于小不點來說,其與同類產(chǎn)品最大的不同可能就是最后的實現(xiàn)過程了。

目前市面上大多數(shù)的語音助手度需要集成第三方應(yīng)用的API,才能實現(xiàn)調(diào)用功能,然而這一方法存在很大的弊端,因為這會涉及到與第三方APP之間的談判,覆蓋的速度會很慢,而且很多語音助手都想將其他APP的功能集合到自己的界面之中,因此開發(fā)者們往往會有抵觸情緒,這也是為什么蘋果Siri這樣的語音助手在推出這么多年之后,功能依然十分有限的原因之一。

語音助手的涅槃關(guān)頭,我們應(yīng)該完全拋棄屏幕還是選擇“語音+圖形界面”?

用小不點發(fā)微信紅包

而小不點則是使用了安卓系統(tǒng)里面針對視障用戶的Accessibility輔助功能,可以直接讀屏,然后實施虛擬點擊操作,因此不需要調(diào)用第三方APP的API。比如用微信發(fā)紅包,用戶說完“給XXX發(fā)10塊錢的紅包”之后,小不點就會打開微信,并查找聯(lián)系人,然后跳轉(zhuǎn)到微信發(fā)紅包的界面,并預(yù)填好10塊錢的金額,你需要做的只是確認發(fā)送。

不過,林德康表示,他們并不排斥接入第三方APP的API。

此外,小不點還有一個比較智能的學習功能。你可以通過這個功能教會小不點實現(xiàn)目前還不能完成的操作,而且小不點在學會之后,其他的用戶未來也有可能使用這一功能。據(jù)悉,奇點機智已經(jīng)為這一獨特功能申請了專利。

比如,如果你想讓小不點學會幫你“點一杯咖啡”,那么你可以直接告訴它“學習點一杯咖啡”,激活自動學習的功能,接下來你就可以開始按平常的步驟進行操作,并在所有操作完成后點擊“結(jié)束學習”即可。由于小不點會記錄這些操作過程,因此下一次只需要對它說“點一杯咖啡”即可自動完成所有步驟。(以下是在樂視手機上的演示視頻)

由于以上兩點優(yōu)勢,小不點能夠在很短的時間內(nèi)覆蓋盡可能多的APP。據(jù)奇點機智透露,小不點目前已經(jīng)覆蓋了50多款常用的APP,具備上百種功能。

雖然目前小不點的公開版本還只能實現(xiàn)一輪對話,并不能一直在后臺聆聽,但是其內(nèi)測版已經(jīng)實現(xiàn)了多輪對話,可以通過語音實現(xiàn)連續(xù)操作,而不需要重新激活。(如以下視頻所示)

「給小樂發(fā)微信」 ->「發(fā)送我在這里你快過來」->「發(fā)送我的位置」->「發(fā)送XXX和OOO的名片」->「視頻聊天」

背后的技術(shù)

1. 語音識別

雖然奇點機智是一家創(chuàng)業(yè)公司,而且小不點研發(fā)周期也只有1年多的時間,但是林德康表示,目前小不點并沒有采用第三方的語音識別技術(shù),而是奇點智能一個5人左右的團隊自己研發(fā)的,而且采用的就是谷歌的TensorFlow框架。

林德康向雷鋒網(wǎng)透露,其實之前小不點曾采用百度語音服務(wù)來進行語音識別,后來才選擇自己做。為什么呢?原因有以下幾點:

  1. 如果使用第三方的語音識別的話,首先需要將音頻傳過去,然而傳回來的一般就只有一句話。但是實際上在這句話有很多的可能性,而第三方只會在眾多可能性里挑選一個它認為最好的傳回來。但是如果是自己能夠掌控這一過程的話,就可以將眾多可能性先預(yù)留著,然而再下一步的時候看哪一種其實更說得通。

  2. 采用自己的語音識別技術(shù)可以針對某些特定場景進行優(yōu)化,比如在識別微信通訊錄里的人名的時候,如果采用第三方接口,不一定能夠識別正確,但是如果是自己的語音識別技術(shù),系統(tǒng)就可以參照通訊錄里面的名字進行實時更正。

  3. 由于深度學習這一革命性進步的出現(xiàn),讓語音識別領(lǐng)域重新洗牌,幾乎所有玩家都站在了同一起跑線上,大幅降低了后進者的門檻。因此雖然奇點機智起步較晚,但是實際上的技術(shù)差距并不大。

不過一個小團隊的一年的努力,真的能夠與大公司相比嗎?雖然林德康并沒有給出用來衡量語音識別的詞錯率(word error rate)的具體數(shù)值,但是他表示,在實測體驗的過程中,兩者表現(xiàn)差不多。不過,目前小不點只支持普通話,并不支持方言。

除了不斷地投喂數(shù)據(jù),訓練語音識別的算法模型之外,還有哪些方法可以提高語音識別的正確率,降低用戶在使用過程中的挫敗感呢?林德康舉了一個例子。他表示,研發(fā)會根據(jù)APP的名字來優(yōu)化語音識別的準確率。比如“摩拜單車”的“摩拜”兩個字在通用語料庫里可能并不是排名最高的,但是對于小不點的用戶來說,可能大部分時候指的就是“摩拜”,因此在優(yōu)化時,他們會將這點考慮進去,來提高用戶的使用體驗。

而且作為一家小團隊,奇點機智除了購買訓練語音識別模型所需要的標記數(shù)據(jù)之外,還專門開發(fā)一款A(yù)PP,讓員工利用碎片時間,來專門標注訓練所需要的數(shù)據(jù)。

2. 語義理解

由于公司的兩位創(chuàng)始人都有NLP(自然語言處理)的背景,因此在這一部分會有一些優(yōu)勢。林德康在回國之前就是谷歌做自動問答系統(tǒng)的,他表示其中有很多東西都是類似的。

比如實體識別,包括人名、地名、電影名等專有名詞,這些都是最基本的,但是要理解整句話的意思的時候,就需要推理功能了。比如當你說“我想去成都”,那么我們可能就會給你用攜程等軟件搜尋火車票或者機票,如果你說“我想去積水潭醫(yī)院”,那么我們可能就會用打車軟件給你預(yù)訂車輛。因此只是將一個個的關(guān)鍵詞列出來是不行的,還必須將每個詞進行分類,然后根據(jù)詞的表達結(jié)構(gòu)做推理,才能真正理解用戶的意圖。

林德康認為,做自然語言理解最怕的就是邊界,比如Facebook的Messenger Bot聊天機器人,里面上下文的關(guān)聯(lián)太多。而做小不點這種類型的語音助手相對容易一些,雖然語音助手的可能性也非常多,但是它能做的東西是有限的,因此是存在邊界的,比如不會用戶不可能用攜程去交水費。

語音助手的前景

2014年11月,奇點機智獲得了徐小平100萬美元的天使輪融資;去年3月底,奇點機智又獲得了襄禾資本和NEA資本500萬美金A輪融資。雖然已經(jīng)獲得兩輪融資,但是作為一家創(chuàng)業(yè)公司,未來的盈利模式很顯然也是需要考慮的事情。

林德康向雷鋒網(wǎng)表示,目前團隊的注意力主要集中在打磨產(chǎn)品,爭取與更多的手機廠商合作,未來還會推出獨立的APP,暫不考慮盈利的事情。

據(jù)雷鋒網(wǎng)了解,由于奇點機智不會向合作的手機廠商收取費用,未來很可能會通過為第三方APP提供流量入口來獲取盈利。比如目前用戶想通過小不點來訂餐,但是在用戶沒有指明APP的情況下,小不點會默認打開“餓了么”,如果你的手機里面沒有餓了么,那么就會跳轉(zhuǎn)到餓了么的下載頁。當然,你可以直接告訴小不點,你想通過美團或者百度來定外賣。

對于語音助手未來的發(fā)展前景,林德康雖然也認同語音是下一個流量的入口,但是他認為“語音+圖形界面”才是未來,而不是Alexa那種完全拋棄屏幕的做法。

雖然林德康表示,利用模擬點擊來實現(xiàn)語音操控APP的功能是小不點的首創(chuàng),但是近日網(wǎng)上流傳出來的演示視頻顯示,三星的智能語音助手Bixby采用的也是和小不點相同的方式,這也從側(cè)面驗證了奇點機智方向的正確性。

不過,目前計算機還無法真正理解人類的自然語言,這也是為什么就連Facebook、谷歌等科技巨頭的聊天機器人想要實現(xiàn)多輪對話依然十分困難,據(jù)外媒報道,F(xiàn)acebook的虛擬助理M和Messenger bot的進展很不順利,其中M能夠正確回應(yīng)的請求只有 30%,使用情況令人失望。因此,奇點機智的這條路或許沒有很高的技術(shù)門檻,但是卻更加實際。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說