百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

本文作者：董飛

2016-05-19 19:13

導(dǎo)語：百度少帥在硅谷關(guān)于智能計(jì)算和無人車的講座。

按：本文作者董飛，整理自百度深度學(xué)習(xí)研究院人機(jī)交互負(fù)責(zé)人顧嘉唯在硅谷關(guān)于智能計(jì)算和無人車的講座雷鋒網(wǎng)首發(fā)，轉(zhuǎn)載請注明出處和作者。公號：董老師在硅谷。

前天看到新聞蘋果10億美元投資了滴滴，感覺是醉翁之意不在酒，蘋果在2013年WWDC上就發(fā)布了iOS in the car的車載系統(tǒng)，后來升級成為CarPlay，后來又從特斯拉挖角，研發(fā)成本大幅上升，可以揣測秘密籌備自己的無人駕駛技術(shù)iCar，而滴滴龐大的用戶量可以給蘋果提供真實(shí)的大數(shù)據(jù)樣本，對于蘋果自主研發(fā)智能汽車和智能駕駛都是直接獲益，所以這次可以說是為了無人車布局，具體怎么整合到iOS，我們期待一下6月的WWDC見分曉吧。

這是一周前百度少帥在硅谷關(guān)于智能計(jì)算和無人車的講座。全文整理如下：

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

顧嘉唯是誰？

顧嘉唯是百度深度學(xué)習(xí)研究院人機(jī)交互負(fù)責(zé)人，主任研發(fā)構(gòu)架師，百度少帥，主要研發(fā)項(xiàng)目為新型用戶體驗(yàn)和智能化（包括可穿戴設(shè)備、智能交通、智能家居、機(jī)器人和物聯(lián)網(wǎng)）

他主導(dǎo)利用深度學(xué)習(xí)和大數(shù)據(jù)的人工智能技術(shù)創(chuàng)造自然的用戶界面和新穎的互動(dòng)方式。領(lǐng)導(dǎo)項(xiàng)目包括：百度智能眼鏡BaiduEye，盲人智能助理DuLight，實(shí)時(shí)變臉App臉優(yōu)Face-It和百度智能自行車DuBike等。

他所在百度的IDL（深度學(xué)習(xí)實(shí)驗(yàn)室）是由余凱建立，現(xiàn)在余凱創(chuàng)業(yè)做機(jī)器人智能——地平線機(jī)器人公司。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

先從一個(gè)引子說起：現(xiàn)代人最焦躁的問題，沒wifi，一直在載入和沒電，時(shí)不時(shí)就要摸一下口袋，感覺手機(jī)隨時(shí)都在震動(dòng)，每時(shí)每刻都在用手機(jī)，就像一個(gè)人體器官。而其中微信可能就要占用85%以上的耗電。我們每天無時(shí)不刻被各種提醒或信息提示打擾，我們是被數(shù)字世界綁架的一代人?；氐?0年代前，我們沒有那么多聯(lián)網(wǎng)設(shè)備，那是一個(gè)“不插電”的時(shí)代，那時(shí)候人與人之間真誠的交流遠(yuǎn)多過于今天。我們可以預(yù)見不久的將來IOT物聯(lián)網(wǎng)時(shí)代，每個(gè)人身邊充斥各種聯(lián)網(wǎng)的智能設(shè)備，設(shè)備之間的摩擦將會(huì)無以復(fù)加。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

| “互聯(lián)網(wǎng)+”的實(shí)現(xiàn)

自互聯(lián)網(wǎng)衍生以來，其發(fā)展經(jīng)歷了三個(gè)階段：

第一階段：滿足基礎(chǔ)的通訊功能（通訊，門戶，社交）
第二階段：滿足大眾娛樂需求（視頻，游戲，電商，音樂，閱讀，服務(wù)）
第三階段：實(shí)現(xiàn)互聯(lián)網(wǎng)+X 在各個(gè)領(lǐng)域：金融，教育，旅游，醫(yī)療，餐飲，汽車…….而這個(gè)X預(yù)示著無盡的可能性與商機(jī)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

自互聯(lián)網(wǎng)于1995年興起到現(xiàn)如今2015年，我們正在實(shí)現(xiàn)從第二階段到第三階段的過渡。而O2O（On demand service）在中國的興盛也由中國市場的兩大因素構(gòu)成：社會(huì)勞動(dòng)力價(jià)格低廉，服務(wù)需求密度高，以至于涵蓋了生活各個(gè)方面的生活服務(wù)類APP的興盛。因此當(dāng)代的年輕人都更為熱衷于用這種更方便快捷并且能獲取充足信息量的方式實(shí)現(xiàn)生活中的服務(wù)需求：電影購票，美甲，按摩，買蔬果，上門寄養(yǎng)動(dòng)物，甚至上門打胎……兩個(gè)不可逆的趨勢：線下細(xì)分服務(wù)的線上化，和服務(wù)鏈接的碎片化。

吐槽：這么多你可以連接服務(wù)的APP，手機(jī)能裝得下么？

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

即使你已經(jīng)覺得這樣夠方便了，但其實(shí)其中還存在著小bug，當(dāng)你被大量可選擇信息淹沒的時(shí)候，你的選擇障礙癥讓你無從下手。當(dāng)你需要在不同的App上切換以實(shí)現(xiàn)信息處理、物品購買、微信溝通、導(dǎo)航的時(shí)候，你仍然會(huì)覺得焦頭爛額…….因此，更加智能化的設(shè)備具有很高市場需求以節(jié)省人類的時(shí)間和精力。但還是需要回歸到商業(yè)本質(zhì)——那么，如何商業(yè)化？

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

即使你已經(jīng)覺得這樣夠方便了，其實(shí)其中還存在著小bug，當(dāng)你被大量的可選擇信息淹沒的時(shí)候，你的選擇障礙癥讓你無從下手。當(dāng)你需要在不同App上切換以實(shí)現(xiàn)信息處理，物品購買，微信溝通，導(dǎo)航的時(shí)候，你仍然會(huì)覺得焦頭爛額…….因此，更加智能化的設(shè)備具有很高其市場需求以節(jié)省人類的時(shí)間和精力。本質(zhì)是AI著眼于解決設(shè)備之間的摩擦，通過場景感知和用戶意圖預(yù)測。

現(xiàn)在人工智能已經(jīng)被媒體和社會(huì)炒作地如此火熱，就像之前所有IT公司都稱自己是做大數(shù)據(jù)的，今天所有創(chuàng)業(yè)公司如果不講點(diǎn)和AI沾邊的梗，都不好意思說自己是科技公司，那么多打著“智能”旗號的，但最終還是需要回歸到商業(yè)本質(zhì)，如何商業(yè)化？如何講人工智能技術(shù)商業(yè)化？在百度深度學(xué)習(xí)研究院的職責(zé)就是將百度的人工智能技術(shù)以創(chuàng)新產(chǎn)品線的方式進(jìn)行商業(yè)化AI的迭代。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

Amazon Echo 已百萬級的銷量，入戶后相對高頻的內(nèi)容場景，回味之前發(fā)的微信朋友圈一條評價(jià)Apple Siri、Google Now、MSFT Cortana、Amazon Alexa的record，很明顯，Amazon Alexa在硬件入口上的投入和堅(jiān)定比Google MSFT Apple都有耐心得多。

自然人機(jī)交互 Conversational UI對話交互在手機(jī)上一定是最容易開始，但最快會(huì)過去的一波，在手機(jī)這個(gè)小盒子里，F(xiàn)acebook也好微信也好上各種chat bots想要通過智能多輪對話交互完全取代APP的愿景是好的，場景是糾結(jié)的。

Amazon Echo的階段性成績算是開啟了，無論是Amazon的echo還是Google Now，或是蘋果siri，F(xiàn)acebook的M機(jī)器人，微軟小娜小冰，平臺(tái)型技術(shù)都在蓄力階段，智能對話交互新一代終端的“feature phone”早期時(shí)代顯現(xiàn)，誰能做出最新一代交互時(shí)代的“iPhone”突破性產(chǎn)品，讓我們拭目以待。

我們看到一路走來Amazon Echo的初步成果的原因，可以總結(jié)如下三條：

1、持續(xù)投入底層識別語音NLP整條鏈基礎(chǔ)技術(shù)；
2、背后的數(shù)據(jù)服務(wù)鏈接，從內(nèi)容調(diào)用到服務(wù)消費(fèi)行為；
3、利用一定的剛需培養(yǎng)用戶交互習(xí)慣作為切入點(diǎn)，市場的持續(xù)教育培養(yǎng)，耐心與堅(jiān)持。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

回顧歷史，最早是基于命令行，然后有了圖形界面GUI，之后有了平板，很容易上手，現(xiàn)在是語音，手勢的NUI，未來人機(jī)交互是什么？基于人工智能的AIUI的革命創(chuàng)新。

現(xiàn)代年輕人從物聯(lián)網(wǎng)-移動(dòng)互聯(lián)網(wǎng)-移動(dòng)互聯(lián)網(wǎng)+的需求的逐步提升。當(dāng)用戶不斷地在不同的APP之間跳轉(zhuǎn)時(shí)我們需要一個(gè)更智能化的平臺(tái)，這個(gè)平臺(tái)能夠打通不同APP之間的邊界，把人找服務(wù)（APP）的模式改變?yōu)榉?wù)（APP）找人的智能化模式。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

Deepmind創(chuàng)造的AlphaGo通過對KGS服務(wù)器上千萬個(gè)棋局點(diǎn)的統(tǒng)計(jì)分析，事先算出不同棋局狀態(tài)下，最有可能下子位置的概率分布。然后根據(jù)這個(gè)概率分布，進(jìn)行蒙特卡洛樹搜索（MCTS），快速的推算如果走某一步，對方可能會(huì)走哪些步，然后對各種可能性依據(jù)概率進(jìn)行加權(quán)匯總，計(jì)算出勝算的期望值。AlphaGo是Google的一次相當(dāng)成功的PR，驗(yàn)證了深度學(xué)習(xí)和大規(guī)模并行計(jì)算能力的實(shí)力。

而他認(rèn)為，智能助理和無人車才是真正改變?nèi)祟惿畹娜斯ぶ悄苌虡I(yè)化前景。事實(shí)上下圍棋還是有限范圍內(nèi)的解決方法，而實(shí)際環(huán)境道路變量還是非常多，在一個(gè)更大的維度上。通過高精度地圖，高精度攝像，就比如在路面上還有人駕駛的汽車與無人車共存的階段，紅綠燈識別上還是很多復(fù)雜因素，不是簡單的數(shù)據(jù)問題。

除此之外還有非常多真實(shí)世界復(fù)雜的視覺問題，要達(dá)到準(zhǔn)確的視覺判斷能力，機(jī)器必須擁有真正的認(rèn)知能力和常識，這并不是AlphaGo所用的樹搜索和神經(jīng)網(wǎng)絡(luò)那么簡單的方法，就可以解決的。由于需要以極高的速度處理“模擬信號”，機(jī)器視覺可能根本就不是人們常用的“數(shù)字計(jì)算機(jī)”可以解決的問題。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

另一個(gè)問題是在如今如此繁榮以及多樣的O2O服務(wù)平臺(tái)上，某個(gè)用戶無法實(shí)現(xiàn)能夠同時(shí)擁有大量的面向不同產(chǎn)品的APP并從中篩選出最優(yōu)化信息。因此百度在研發(fā)度秘一類的產(chǎn)品優(yōu)化了這種用戶體驗(yàn)即通過與度秘對話聊天的形式來智能化的提供給用戶需要的服務(wù)建議以及服務(wù)連接。在去年百度大會(huì)上，李廠長就演示了通過度秘語言操作點(diǎn)了一杯咖啡，直接送貨上門的服務(wù)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

這其中很酷的一項(xiàng)功能是度秘可以通過圖像分析來解讀用戶的需求。比較有趣的一個(gè)例子是：如果你把腿磕破了，可以上傳照片給度秘，度秘會(huì)提供藥品以及附近醫(yī)生的建議。上面就是度秘在實(shí)體肯德基店里作為服務(wù)員幫顧客點(diǎn)餐的活動(dòng)。

| 如何實(shí)現(xiàn)從“互聯(lián)網(wǎng)+”到“智能+”

雖然現(xiàn)階段APP十分的盛行，但是在不久的未來，以下三個(gè)要素會(huì)實(shí)現(xiàn)更智能化的all demand service，那時(shí)候App會(huì)消失，取而代之的是下一時(shí)代人與信息連接的節(jié)點(diǎn)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

個(gè)人助理是很大可能是下一代的搜索引擎，通過自然原因處理，語音識別，人工智能的結(jié)合。

不斷提升的智能系統(tǒng)（Emerging Intelligence）——人工智能的提升要基于數(shù)據(jù)量的提升+數(shù)據(jù)算法的提升
場景感知 (Context Awareness)
無處不在的計(jì)算（Ubiquitous Computing）

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

從“互聯(lián)網(wǎng)+”到“智能+”需要以下幾個(gè)要素

AI 技術(shù)的實(shí)現(xiàn)
人機(jī)交互技術(shù) （CLI – GUI – TUI – NUI (natural: speech, gesture)）而NUI是現(xiàn)階段各大網(wǎng)絡(luò)公司在投入研發(fā)并希望搶占市場先機(jī)。
互聯(lián)網(wǎng)的智能化反作用會(huì)逐漸重塑人類的行為習(xí)慣，從而改變現(xiàn)階段產(chǎn)品的形態(tài)及種類。
互聯(lián)網(wǎng)和送達(dá)人的服務(wù)不再由人來完成而是由機(jī)器人完成。

當(dāng)AI技術(shù)逐漸開始被平臺(tái)化，等各種bot framework和AI open API建立起來之后，層出不窮的基于人工智能的創(chuàng)業(yè)公司會(huì)像今天的互聯(lián)網(wǎng)創(chuàng)業(yè)公司一樣如雨后春一般興起。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

這里，我把物聯(lián)網(wǎng)（IOT）分成聯(lián)網(wǎng)設(shè)備（smart device）和自動(dòng)化家居（home automation），用戶要的是什么？并不是左邊的聯(lián)網(wǎng)設(shè)備，而是右邊的智能自動(dòng)化場景。舉例，早上起床鬧鈴把我叫醒，我當(dāng)天的日歷上有我一早開會(huì)的時(shí)間地點(diǎn)，根據(jù)現(xiàn)在路況和距離推算出我還有多久要出門，提醒我有多少時(shí)間洗漱吃早飯。

我的咖啡機(jī)、面包機(jī)在我鬧鐘響的時(shí)候就運(yùn)作起來了。當(dāng)我洗漱、早餐完畢之后，會(huì)議室目的地坐標(biāo)就會(huì)在無人車導(dǎo)航里，下樓坐上車以后，直接把我運(yùn)到相應(yīng)的位置。用戶是需要這樣的智能自動(dòng)化場景，但真實(shí)情況下，這種場景中的變量很多，簡單的聯(lián)網(wǎng)硬件無法處理和預(yù)判用戶的多維場景，更沒有全場景自動(dòng)化服務(wù)的可能了。好的用戶體驗(yàn)設(shè)計(jì)不只是讓東西可以運(yùn)作起來，更應(yīng)該考慮讓他不會(huì)出錯(cuò)，但不幸的是，大多數(shù)自動(dòng)化智能場景都只是熱衷于讓東西聯(lián)動(dòng)運(yùn)轉(zhuǎn)起來，而完全不考慮出錯(cuò)怎么辦。這里，我們做智能化一定切記，人類不是算法邏輯，更不能簡單粗暴地把數(shù)字規(guī)則應(yīng)用于模擬物理任務(wù)上去。

智能硬件現(xiàn)在有幾個(gè)誤區(qū)，有人將能聯(lián)網(wǎng)的硬件當(dāng)做智能硬件；也有人將有App控制的硬件當(dāng)做智能硬件，還有人把加上充電寶的硬件叫智能硬件，就像“八星八箭，有mp3功能一樣”。

在顧帥眼中認(rèn)為的真正的“萬物智能”時(shí)代的產(chǎn)品應(yīng)該具備以下三大要素：

1. 還原三次元世界“物”的操作，消滅觸屏+App控制（二次元）

忽視人與硬件的直接交互，是一件很不自然的事情。人若想開窗，自然的反應(yīng)就是用手推開窗，而不是找一個(gè)叫做“開窗”的按鈕。人與二次元世界溝通，用屏幕是可以理解的，但是人與三次元世界溝通，為什么還要通過屏幕呢？

2. 能學(xué)習(xí)會(huì)決策 AI

智能硬件首先是要“智能”，隨著經(jīng)驗(yàn)演化，越變越聰明，學(xué)習(xí)的能力，是智能的本質(zhì)之一。它可以感知世界、理解甚至預(yù)測人類的需求，主動(dòng)調(diào)整做出一些符合人類期望的反饋。

這些均需要基于數(shù)據(jù)收集和挖掘才能做到。如果一個(gè)機(jī)器是通過感知、理解和決策這一過程完成任務(wù)，并且隨著經(jīng)驗(yàn)的積累在不斷的演化，那它就是一個(gè)能夠自我學(xué)習(xí)的人工智能系統(tǒng)。所謂經(jīng)驗(yàn)積累，就是數(shù)據(jù)，數(shù)據(jù)就是經(jīng)驗(yàn)。在機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域里有一個(gè)概念叫經(jīng)驗(yàn)數(shù)據(jù)。隨著經(jīng)驗(yàn)演化，也就是隨著數(shù)據(jù)的不斷增長，來增長你的能力。從PC互聯(lián)網(wǎng)時(shí)代到移動(dòng)互聯(lián)網(wǎng)時(shí)代，我們迎來了一個(gè)數(shù)據(jù)爆發(fā)式增長的時(shí)代，這為人工智能的發(fā)展提供了沃土。

3. 做到“用戶與物IT交互”同“人與人交流”一樣（AI＋HCI）

雖然關(guān)于人工智能的準(zhǔn)確定義還不明確，但是通常已經(jīng)形成了一個(gè)普遍共識，那就是通過技術(shù)手段使人與非人物體之間的交互能與人與人之間的交流類似（對話，洗衣機(jī)君）人機(jī)交互：電器設(shè)備旋鈕時(shí)代，鍵盤鼠標(biāo)時(shí)代，觸屏智能機(jī)時(shí)代，智能硬件萬物智能時(shí)代。

如果依據(jù)上面提到的共識來定義，那么智能硬件指的就是使用者能與產(chǎn)品的交互近似于人與人之間交互的硬件產(chǎn)品。按此標(biāo)準(zhǔn)來審視目前市場上的各類智能硬件的話，絕大部分都是不合格的。

| 人工智能的發(fā)展與展望

顧帥用下面有趣的火箭圖闡釋了人工智能的實(shí)現(xiàn)方法：

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

如果把人工智能比作火箭的話那么有兩個(gè)核心元素作為火箭助推器即：大數(shù)據(jù)作為燃料，深入學(xué)習(xí)作為引擎。這兩個(gè)核心早就了人工智能火箭的助推力。

人工智能分為強(qiáng)人工智能與弱人工智能。許多計(jì)算機(jī)領(lǐng)域的科學(xué)家都對強(qiáng)人工智能提出過質(zhì)疑，比如“鐵釘滅世”的猜想，認(rèn)為人工智能達(dá)到一定的高度之后，機(jī)器人最終會(huì)將指令的執(zhí)行帶入極端從而想消滅人類。但是顧帥認(rèn)為，現(xiàn)階段的科學(xué)發(fā)展還離強(qiáng)人工智能很遠(yuǎn)，實(shí)現(xiàn)弱人工智能依然能夠?yàn)槿祟悗頍o限的方便與可能，但下一步，首先是要解決信息之間的打通和用戶行為的預(yù)測，進(jìn)而消除設(shè)備與設(shè)備之間的摩擦，還原“不插電”的智能生活。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

實(shí)現(xiàn)弱人工智能（從底往上）的三個(gè)核心是：

感知（Perception）：通過多維傳感器搜集人的生理信息和環(huán)境的物理信息
理解（Understanding）：即深度學(xué)習(xí)（Deep Neuronal Network + Deep Learning）
決定（Decision）：比如推薦服務(wù)

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

深度學(xué)習(xí)之所以有很大前景來源于以下幾個(gè)優(yōu)勢：

具有來自于人腦的運(yùn)算機(jī)制（inspiration by brain）
適合大數(shù)據(jù)運(yùn)算（suitable for big data）
端到端的學(xué)習(xí)體（end-to-end learning）
具有豐富的建模語言（a rich modeling language）

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

這張圖體現(xiàn)了深度學(xué)習(xí)如何影響到未來互聯(lián)網(wǎng)。

1. 網(wǎng)頁的索引知識，搜索，廣告，預(yù)測

2. 人的維度：圖形，聲音（百度沒有使用科大訊飛的接口，而是自主開發(fā)，性能和識別率都非常好）

3. 實(shí)體世界：感知到3D，VR，增強(qiáng)現(xiàn)實(shí)。

百度搜索在這個(gè)方面的進(jìn)步是可以通過語音的輸入來篩選出重要的語義，另一個(gè)很酷炫的功能是擁有圖像搜索的入口并且能夠識別圖像進(jìn)行相關(guān)信息的推介。另一個(gè)有關(guān)深度學(xué)習(xí)的產(chǎn)品是一款叫“臉優(yōu)”的APP，其技術(shù)核心是深度學(xué)習(xí)的本地化以及在手機(jī)端完成實(shí)時(shí)把2D圖片生成3D圖片，并且是只有200k的實(shí)時(shí)3D化渲染。

Baidu Eye

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

看過電影《她》的同學(xué)是否對人工智能感觸頗深呢？對于機(jī)器人的理解，顧帥是這么解釋的，可以接受人類指揮，能感知場景和預(yù)測情景，通過自動(dòng)執(zhí)行任務(wù)，輔助人類拓寬能力的設(shè)備，進(jìn)而協(xié)助或取代人類的部分工作，形態(tài)多樣，可虛可實(shí)。比如顧帥領(lǐng)導(dǎo)開發(fā)的BaiduEye實(shí)現(xiàn)了一款產(chǎn)品類似于一個(gè)戴在耳朵邊的幫助人們索引實(shí)物和連接數(shù)字的第三只眼。2014年9月，百度在世界大會(huì)展示了 BaiduEye。作為百度新的搜索入口，索引真實(shí)世界的嘗試，是 “對人工智能和人機(jī)交互終極形態(tài)的技術(shù)探索”，是連接所有計(jì)算設(shè)備的大腦和終極人機(jī)接口。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

有些人拿這個(gè)跟Google Glass對比，但其實(shí)還是很不一樣的。光機(jī)如同Google的智能眼鏡，顯示畫幅大小是一個(gè)局限，戴上Google Glass眼球會(huì)翻白眼，這是很不好的體驗(yàn)。BaiduEye可以通過其圖像識別技術(shù)實(shí)時(shí)的為用戶對目中所見進(jìn)行解釋答疑或者商品推介，可以在博物館和商場中使用。比如在商場中給女朋友挑選花或者禮物，商家也知道了你的停留時(shí)間和購物習(xí)慣，進(jìn)而做更精準(zhǔn)的推薦策略。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

這是Baidu Eye的原理圖

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

最好的人機(jī)交互是讓人意識不到人機(jī)交互的存在，我們正朝著這個(gè)目標(biāo)不斷演進(jìn)——BaiduEye。

Baidu Eye 背后核心能力來自百度大腦，也就是集合了百度的人工智能技術(shù)引擎。百度希望將百度大腦核心能力通過視聽說多維度能力創(chuàng)新實(shí)踐落地，為公司連接人、數(shù)據(jù)與服務(wù)和 O2O 戰(zhàn)略意義帶來實(shí)質(zhì)性價(jià)值。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

探討B(tài)aiduEye 進(jìn)入醫(yī)療領(lǐng)域的可行性，比如通過 Baidu Eye 進(jìn)行手術(shù)室直播和遠(yuǎn)程直播，幫助醫(yī)生遠(yuǎn)程問診，最終幫助醫(yī)療體系實(shí)現(xiàn)分級問診，合理疏導(dǎo)患者。Baidu Eye有圖像識別、語音識別的功能，隨著技術(shù)成熟度提升和迭代，也許還能有機(jī)會(huì)切入電子檔案這個(gè)領(lǐng)域。

DuLight

人工智能技術(shù)可以成為給盲人看世界的窗口，為他們點(diǎn)亮生活。在未來，我們希望dulight不僅能幫助正常人更便捷的生活，還能成為盲人的日常生活私人助理。結(jié)合百度大數(shù)據(jù)分析能力和自然人機(jī)交互技術(shù)，幫助盲人“洞見”真實(shí)世界，實(shí)現(xiàn)平等的各行各業(yè)的服務(wù)便利。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

一款可穿戴設(shè)備，這款設(shè)備是用來幫助盲人和視力障礙者導(dǎo)航的，叫做Dulight，它可以像藍(lán)牙耳機(jī)一樣掛在耳朵上，能夠捕捉任何面前的東西，然后傳輸?shù)綀D像識別系統(tǒng)中進(jìn)行確認(rèn)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

當(dāng)把Dulight指向椅子和盆景，Dulight發(fā)聲說：“識別中，輕塑料椅，識別中，綠色盆景?！碑?dāng)他把Dulight指向我的時(shí)候，Dulight發(fā)聲說：“這個(gè)男人在笑，大約30歲?！盌ulight能記住那個(gè)人的名字，并在以后認(rèn)出那個(gè)人。

了解到微軟最近也做這個(gè)類似技術(shù)來幫助實(shí)現(xiàn)盲人眼鏡，這是計(jì)算機(jī)視覺的一種場景化剛需。

黑科技產(chǎn)品

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

黑百度的梗

顧帥認(rèn)為，“讓機(jī)器人能夠在棋盤下贏下棋局，還是幫助消費(fèi)者吃到更熱乎、更優(yōu)質(zhì)的飯菜，究竟哪一種人工智能更有價(jià)值？這或許是一個(gè)尚需討論的話題?！?/p>

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

百度外賣騎士的實(shí)時(shí)調(diào)度，應(yīng)該到哪一個(gè)餐館接哪一個(gè)單子送到哪里，他的路線和時(shí)間都是由系統(tǒng)決定，系統(tǒng)會(huì)實(shí)時(shí)推送給他。所以智能派單，智能路徑規(guī)劃。

基于互聯(lián)網(wǎng)大數(shù)據(jù)與深度學(xué)習(xí)算法智能優(yōu)化的外賣解決方案：百度外賣可以實(shí)現(xiàn)精準(zhǔn)的去單時(shí)間和去單分配，通過算法和經(jīng)驗(yàn)數(shù)據(jù)計(jì)算出不同時(shí)段建議餐館準(zhǔn)備的內(nèi)容時(shí)長，并且能夠?qū)崟r(shí)計(jì)算等候時(shí)間，以及根據(jù)插單調(diào)配情況增加指令信息給送外賣的員工，隨著業(yè)務(wù)增長，隨著數(shù)據(jù)量積累，預(yù)測會(huì)越來越準(zhǔn)確。這樣導(dǎo)致外賣小哥覺得自己像個(gè)執(zhí)行指令的機(jī)器人，是不是可以腦補(bǔ)一下機(jī)器人送外賣就在不久的將來了呢？

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

Uber也使用這個(gè)智能系統(tǒng)在中國落地，調(diào)配各種數(shù)據(jù)源，比如哪里有球賽，天氣，新聞。

無人駕駛

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

進(jìn)入2016年，百度正在重新聚焦下一步的方向：用人工智能重塑公司技術(shù)架構(gòu)，包括將之前深度學(xué)習(xí)實(shí)驗(yàn)室孵化的無人車項(xiàng)目擴(kuò)大，成立自動(dòng)駕駛事業(yè)部。3月，百度在媒體溝通會(huì)上高層表示會(huì)巨額投資無人駕駛汽車。此外，百度要在未來3-5年內(nèi)，將激光雷達(dá)的價(jià)格從70萬降到2至3萬，從而實(shí)現(xiàn)無人車3年商用5年量產(chǎn)的目標(biāo)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

無人駕駛汽車的成功涉及高精地圖、實(shí)時(shí)定位以及障礙物檢測等多項(xiàng)技術(shù)，而這些技術(shù)都離不開光學(xué)雷達(dá)（LiDAR）。最早跟寶馬合作的一款無人車。在烏鎮(zhèn)的互聯(lián)網(wǎng)大會(huì)上，習(xí)大大點(diǎn)贊。極客公園的創(chuàng)始人第一時(shí)間體驗(yàn)了一下百度無人車，說是坐過無人車中最激進(jìn)的，最高時(shí)速100公里/h。提到跟傳統(tǒng)車軟件相比，有恐怖的1300倍的代碼量。在新能源趨勢下，傳統(tǒng)汽車制造向電動(dòng)汽車轉(zhuǎn)移，零部件的迅速減少大大降低了制造門檻，反倒是在軟件上的代碼量快速增長，能夠預(yù)見今后汽車行業(yè)玩家的新變化，尤其是無人車技術(shù)本質(zhì)上是基于高性能計(jì)算與人工智能技術(shù)的核心

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

現(xiàn)在93%以上的事故是有人為因素造成的，行車最大的愿景就是安全，人開車是很危險(xiǎn)的，駕駛員反應(yīng)+液壓制動(dòng)的反應(yīng)時(shí)間是1.2秒，就50米的剎車距離，而計(jì)算機(jī)電控0.2s，剎車距離6.7米。另外，駕駛員安全視距50米，而自動(dòng)駕駛汽車的有效視距超過200米，更重要的是沒有疲勞駕駛問題。由數(shù)字可見，自動(dòng)駕駛技術(shù)首當(dāng)其沖可以大大降低交通事故的人員傷亡概率。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

除了個(gè)體車的自動(dòng)駕駛技術(shù)需要形成突破，車車聯(lián)網(wǎng)環(huán)境下的智能交通更是重點(diǎn)發(fā)展方向。舉個(gè)例子，人到十字路口的時(shí)候，因?yàn)椴恢罒羰鞘裁辞闆r，所以會(huì)慢下來，所以通過效率是很低的。交通堵塞的一部分原因，就是大家都會(huì)慢下來。車和車，車和交通系統(tǒng)都是互聯(lián)的，這使得汽車可以以比較高的系統(tǒng)通過路段。汽車本身的使用效率也能夠提高。能夠使道路交通狀況改善。

無人車的推行，在整體國家經(jīng)濟(jì)上是有非常大的提升的，不僅僅是在極大節(jié)省了出行運(yùn)營成本，還會(huì)包括節(jié)省下來的出行時(shí)間和交通路網(wǎng)城市規(guī)劃的區(qū)域空間，進(jìn)而提升的國民生產(chǎn)總值。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

自動(dòng)駕駛的8大技術(shù)分支，這必須要跟車廠合作。無人駕駛技術(shù)是多個(gè)技術(shù)的集成，包括了計(jì)算機(jī)視覺、環(huán)境感知、傳感器融合、高精定位、高精地圖、路徑規(guī)劃、障礙物檢測與規(guī)避、機(jī)械控制、系統(tǒng)集成與優(yōu)化、能耗與電管理。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

上圖顯示了無人車的通用系統(tǒng)架構(gòu)，系統(tǒng)的感知端由不同的傳感器組成，其中GPS用于定位，光學(xué)雷達(dá)（Light Detection And Ranging，簡稱 LiDAR）用于定位以及障礙物檢測，照相機(jī)用于基于深度學(xué)習(xí)的物體識別以及定位輔助。

無人車通用技術(shù)發(fā)展路徑

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

自動(dòng)駕駛的5個(gè)進(jìn)階，特定功能輔助：自動(dòng)巡航，自動(dòng)泊車，固定路段有限條件自動(dòng)駕駛，完全自動(dòng)駕駛。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

兩大派系：特斯拉，mobileeye，雷達(dá)傳感

Google，百度：使用激光雷達(dá)（厘米級別定位），高精度雷達(dá)。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

Google的自動(dòng)駕駛汽車很萌很玩具

Google的自動(dòng)駕駛汽車，可以稱為“全自動(dòng)駕駛汽車”，這種汽車沒有方形盤，沒有剎車，全部靠感應(yīng)器和軟件自動(dòng)駕駛，Google宣稱它非常安全。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

借助感應(yīng)器等部件實(shí)現(xiàn)對自我和周圍環(huán)境的認(rèn)知

特斯拉的“半自動(dòng)駕駛”更傾向于”有人監(jiān)督的自動(dòng)駕駛技術(shù)“，就像是飛機(jī)的”Autopilot“功能一樣，而不是把自己完全交給感應(yīng)器和軟件，并且隨時(shí)可以切換到人工駕駛模式。使用的硬件包括：

前置攝像頭：識別車道，實(shí)現(xiàn)車道保持。
前置雷達(dá)：加上攝像頭追蹤前車，控制車速。
12個(gè)超聲波傳感器：感應(yīng)車輛周圍和駕駛員盲區(qū)內(nèi)車輛和障礙物，實(shí)現(xiàn)碰撞回避。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

百度深度學(xué)習(xí)方面的成果在最近兩年在多項(xiàng)計(jì)算機(jī)視覺上的國際競賽中世界領(lǐng)先，KITTI公開數(shù)據(jù)集上車輛識別精度百度拿到第一名89.32%！

趨勢：汽車新能源化，制造門檻降低
汽車智能化：自動(dòng)駕駛大勢所趨
汽車共享化：高效淘汰低能

同時(shí)，顧嘉唯提到，既智能手機(jī)在中國市場的大飛躍之后，智能汽車市場一定是中國一塊最大的蛋糕，龐大的人口和城市化進(jìn)程，獨(dú)特的法律政策環(huán)境及消費(fèi)市場特性，電動(dòng)車和無人車會(huì)在中國接下去幾年引爆。中國國情是道路規(guī)劃車況擁堵很厲害不同于美國公路曠闊，面對復(fù)雜的行駛路況，會(huì)經(jīng)常需要?jiǎng)x車停車，中國駕駛者更需要機(jī)器幫助人做無人駕駛，機(jī)遇與挑戰(zhàn)并存，難點(diǎn)與需求共生。

除了前面介紹的大量自動(dòng)駕駛技術(shù)積累之外，在中國做無人車的時(shí)候需要考慮的人機(jī)交互現(xiàn)實(shí)問題：

比如如何解決無人車在經(jīng)常剎車停車環(huán)境下的實(shí)時(shí)性處理和精密運(yùn)算壓力；比如在國內(nèi)行人法規(guī)意識淡薄的條件下，如何設(shè)定無人車的機(jī)動(dòng)預(yù)判和決策算法；又比如在中國地圖定位限制條件下以及城市規(guī)劃區(qū)域城管法規(guī)政策下，在未來叫無人車來接的時(shí)候精準(zhǔn)定位和最后幾百米的人車關(guān)系上，如何做到車內(nèi)的乘客，車外的行人，車的暫時(shí)歸屬權(quán)交付和控制權(quán)限上的人機(jī)融合問題。

在從由自動(dòng)駕駛車輛和人為駕駛車輛交融的路網(wǎng)條件，過度到完全由自動(dòng)駕駛替代還有非常長一段路線，在降低技術(shù)門檻和成本以及配套法規(guī)政策和倫理因素的前提下，自動(dòng)駕駛技術(shù)前景根本上是會(huì)首先在公共交通場景下解決固定路段行駛問題，不止是單體車的智能駕駛技術(shù)，更重要的是配合低成本車聯(lián)網(wǎng)傳感器和道路路網(wǎng)主動(dòng)感知融合。

| 未來展望

盡管無人駕駛技術(shù)漸趨成熟，但激光雷達(dá)始終是一個(gè)繞不過去的坎。純視覺與GPS/IMU的定位以及避障方案雖然價(jià)格低，卻還不成熟，很難應(yīng)用到室外場景中；但同時(shí)激光雷達(dá)價(jià)格高居不下，當(dāng)務(wù)之急就是快速把系統(tǒng)成本大幅降低。其中一個(gè)較有希望的方法是使用較低價(jià)的激光雷達(dá)，雖然會(huì)損失一些精確度，但可以使用其它的低價(jià)傳感器與激光雷達(dá)做信息混合，補(bǔ)償算法得到車輛的位置。

通過更好的算法去彌補(bǔ)硬件傳感器的不足，無人車近期的發(fā)展方向。而高精度激光雷達(dá)的價(jià)格由于市場需求大增也將會(huì)在未來的一兩年內(nèi)出現(xiàn)降幅，為無人車的進(jìn)一步普及鋪路。

屬于我們這個(gè)時(shí)代的 NUI

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景

顧帥最后展望了為實(shí)現(xiàn)一個(gè)“智能+”的時(shí)代，稱今天的人工智能應(yīng)用僅露出冰山一角，未來對社會(huì)的影響將遠(yuǎn)超我們的想象！我們需要實(shí)現(xiàn)萬物互聯(lián)以搜集充分的有效數(shù)據(jù)，然后通過神經(jīng)網(wǎng)絡(luò)的AI 算法實(shí)現(xiàn)對數(shù)據(jù)的結(jié)構(gòu)化，最后實(shí)現(xiàn)基于人工智能的自然人機(jī)交互。可以展望在不久的將來，我們可以實(shí)現(xiàn)一個(gè)全智能化的生活工作環(huán)境，互相連接配合的物品可以智能地提供人類需要的服務(wù)，如生活助理，秘書一樣地存在來便利人類的生活。

百度少帥顧嘉唯：智能人機(jī)對話和自動(dòng)駕駛汽車才是人工智能的核心場景