0
7月5日,百度 AI 開發(fā)者大會。還不到下午一點半,對話式人工智能分論壇已經(jīng)人滿為患,A 廳的保安堵著門,出來一個才會放一個進去。在這場下午兩點開始,總共耗時三個半小時的分論壇中,先后換了三位主講人,才把景鯤所講的“聽清、聽懂、滿足”的 DuerOS 整體架構(gòu)講完。
差不多同一時刻,阿里也在北京召開發(fā)布會,發(fā)布了旗下第一款智能音箱。此前已經(jīng)有不少好事媒體紛紛猜測,群眾舉瓜圍觀,畢竟巨頭分庭抗禮的戲碼沒有人會厭倦。
雷鋒網(wǎng)整理了百度分論壇的全部內(nèi)容,并精選出與 DuerOS 直接相關的信息,試圖清楚的回答“DuerOS是什么” 的問題,或許這也是全網(wǎng)關于 DuerOS 最全面的解剖:
DuerOS 的整體架構(gòu)包括三層:中間層為核心層,即對話系統(tǒng);最上層為應用層,即智能設備開放平臺;最底層為能力層,即技能開放平臺。
所謂的核心層,包括了從語音識別到語音播報再到屏幕顯示的一個完整交互流程,以及背后支撐交互的自然語言理解、對話狀態(tài)控制、自然語言生成、搜索等等核心技術,這些技術支撐著上下兩層的實現(xiàn)。
所謂的應用層,則是為第三方廠商提供包括核心接入組件、芯片模組、麥克風陣列等的開發(fā)套件,以及包括工業(yè)設計、結(jié)構(gòu)設計、音腔設計在內(nèi)的參考設計方案。
所謂的能力層,則是面向開發(fā)者,提供了包括了原生技能和第三方技能在內(nèi)的技能開放平臺,開發(fā)者可以通過技能工具,來創(chuàng)建并發(fā)布基于 DuerOS 的技能。
三層之間的結(jié)合處,分別是對話服務和技能框架兩個接口,也是整個 DuerOS 的核心接口,前者為終端設備提供了各項支持請求,體現(xiàn) DuerOS 的終端能力,后者為第三方開發(fā)者豐富的創(chuàng)建方式,體現(xiàn) DuerOS 的技能開發(fā)能力。
為了更清楚的理解,針對對話服務與技術框架,百度直接拿 DuerOS 和 Andriod 系統(tǒng)做了對比:
如同電腦、平板在 Android 系統(tǒng)上具備觸摸的交互功能一樣,音箱、電視、車載設備搭載了 DuerOS 后,就能具備智能語音對話的交互功能。
如同 Android 設備驅(qū)動程序接口,定義能夠運行的基本硬件和交互方式一樣,DuerOS 的對話系統(tǒng)則定義著運行 DuerOS 需要具備的終端能力,以及用戶通過設備和 DuerOS 溝通時的交互方式。
如同開發(fā)者基于 Android 應用框架能夠開發(fā) App 一樣,第三方開發(fā)者也可以基于 DuerOS 的技能框架開發(fā)技能,在搭載 DuerOS 的智能設備上運行。
舉例來說:
搭載 DuerOS 的電視,具備了屏幕顯示的能力,當一個設備具備了屏幕顯示能力的時,DuerOS 就可以響應這種服務的請求,識別之后通過屏幕告訴用戶正確的答案。搭載 DuerOS 的手機,用戶就可以通過語音操作打電話給家人或者向餐館訂餐。搭載 DuerOS 的汽車,具備車輛控制功能,你可以跟汽車說天太熱了,把天窗打開,把空調(diào)調(diào)到19度。這是 DuerOS 支持的協(xié)議具備多種多樣的終端能力。
針對技術框架,DuerOS 提供標準化的接口,第三方開發(fā)者甚至可以一行代碼都不編寫,就能創(chuàng)造標準化的技能,只要提供內(nèi)容即可。針對需要個性化創(chuàng)造的開發(fā)者,DuerOS 提供了豐富的技能接入,開發(fā)者不需要懂自然語言處理和深度學習,就能創(chuàng)造非常自如的語音交互技能。
除了智能創(chuàng)建工具之外,DuerOS 還提供全套平臺工具,覆蓋從創(chuàng)建、配置到百度云部署、測試、發(fā)布的整個生命周期。通過 DuerOS 的技能框架,百度把 DuerOS 的原生技能開發(fā)能力、自然語言處理能力、對話管理能力等全部開放給了第三方開發(fā)者。
當用戶開始和 DuerOS 說話時,它的工作流程是這樣的:
用戶的語音先傳到 ASR 語音識別模塊,通過該模塊,設備聽清用戶的語言,將它轉(zhuǎn)為文字;
轉(zhuǎn)成的文字經(jīng)過相應模塊的分析、識別和理解,并放在整個對話上下文當中做充分識別和理解,明確語義。
當 DuerOS 聽懂之后,則會調(diào)用合適的原生技能或第三方技能來滿足用戶,通過 TTS 語音播報將結(jié)果給到用戶,如果設備有屏幕,則會給出適合設備屏幕大小形狀的展示結(jié)果。
經(jīng)過這樣的工作流程,DuerOS 的對話系統(tǒng)可以通過音箱、電視、車機等設備,應用在多種場景中。之所以能夠有好的聽清、聽懂效果,百度認為主要歸功于三個方面:數(shù)據(jù)多、技術深、內(nèi)容廣。
所謂的數(shù)據(jù)指的是百度擁有龐大的知識圖譜、需求圖譜、網(wǎng)頁圖譜、地理信息圖譜及用戶畫像,技術則指的是十余年里百度所積累的自然語言處理、對話控制、對話管理、自然語言生成、搜索等技術,而內(nèi)容指的是百度擁有的超過10000個信息垂類內(nèi)容。
官方給出的智能設備開放平臺的目標是“上手”最容易的設備平臺。簡單而言,就是對于第三方來說, 直接把百度給出的方案拿過來套上用,就可以了。但針對需求,百度還是給出了幾個版本的開發(fā)套件:
個人版-針對開發(fā)者
個人版開發(fā)套件基于 DevKit ,集成了 2Mic 兼容設計,同時也支持 4Mic,和 Crom 引擎合作完成。即日起就可以下載,不僅完善了硬件,還加上了系統(tǒng)對象和文檔。
有趣的是,在個人版里,百度提供了一個趣味組裝圖紙,讓開發(fā)者動手組裝。個人版既保留了一些自主行性,也節(jié)省了大量的時間,確實非常容易“上手”。
標準版-針對產(chǎn)品廠商
針對產(chǎn)品廠商需要穩(wěn)定、可靠、大規(guī)模生產(chǎn)的需求,百度給出了“標準”答案。標準版開發(fā)套件完全按照 產(chǎn)品級要求研發(fā),包括 4Mic 拾音板、MTK8516 主板,Wi-Fi/BT+喇叭,終端軟件為 Linux+DuerOS SDK+終端應用,它的目標是開箱即用。
此外,百度還聯(lián)合設計團隊推出了標準版產(chǎn)品的參考設計,同時由來自手機團隊資深結(jié)構(gòu)工程師專門做了結(jié)構(gòu)化的設計,由資深的電聲工程師調(diào)整了電路效果,甚至和音箱代工廠制定了完整的工藝,貼上商標就可以對外銷售。
輕量版-針對特殊廠商
針對有些特殊要求的廠商,比如產(chǎn)品需要電池系統(tǒng)、需要低功耗、需要放到已有產(chǎn)品中,同時不希望增加成本等情況,百度則提供了輕量版開發(fā)套件。
發(fā)布會中提到了 ARM 和 DevKit 合作的兩款專門支持 DevKit 和 ARMmbed 的解決方案,Cortex 為核心的解決方案,非常省電的,作為實時操作系統(tǒng),配置也相當靈活,既有單板方案也有雙板。套件里是高度整合的 SoC 系統(tǒng),全部裝在一個單芯片上,本身就保證了低成本,小體積,甚至只有硬幣的大小。
第三方方案
除了上述三個百度提供的版本方案外,還和業(yè)界一些第三方廠商做了合作,讓 DuerOS 融合第三方解決方案,這其中包括了聲智科技、先聲互聯(lián)、Intel、Rockchip、Qualcomm 等,還有更多正在進行中,沒有完工的廠商。
與這些設備解決方案配套的,是一款基于手機的 App——小度之家。據(jù)雷鋒網(wǎng)了解,在以語音交互為主的設備上,有兩個很常見的問題,一是配網(wǎng)不方便,二是設置不方便。通過小度之家 App,這兩個問題都可以得到徹底解決。在這個 App 上,一方面可以看到操作記錄,另一方面也支持付費功能。更重要的是,將來會有更多的第三方技能會出現(xiàn)在這個 App 上。
技能開放平臺分為三個部分,一個部分是百度提供的原聲技能,第二個部分是為第三方開放的技能工具,第三個部分是由開發(fā)者開發(fā)的第三方技能。
這些技能綜合起來,就是為了讓語音交互設備更好用,具有更多功能,讓用戶聽懂并得到滿足。雷鋒網(wǎng)了解到,百度的原聲技能覆蓋了從娛樂到生活,從信息到工具十個大類,超過100個子類,且還在不斷增加。
通過開發(fā)工具,開發(fā)者可以開發(fā)第三方技能,百度還提供了標準的技能模板,可以幫助開發(fā)者無門檻的創(chuàng)建技能。從開始創(chuàng)建到最終發(fā)布,都有百度的技術支持。而上傳到技能商店的技能,終端用戶都可以根據(jù)自己的需要來選擇或者購買喜歡的技能,平臺中的“監(jiān)控”功能,還可以為開發(fā)者優(yōu)化技能提供決策數(shù)據(jù)。
如果用決定論來理解百度今日對“操作系統(tǒng)”的執(zhí)念,或許想想它曾錯失的移動互聯(lián)網(wǎng)時代就能夠理解。希望這是深刻反思后看清楚的方向,而不是某種矯枉過正的偏執(zhí)。但無論如何,正如一位前百度員工說的那樣,“我只相信技術”。此刻的百度,或許最接近李彥宏心目中的百度,或許也是國內(nèi)最相信技術的大公司。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。