2
本文作者: 硅谷鋒向標 | 2015-05-10 22:40 |
受灣區(qū)同學(xué)技術(shù)沙龍(www.tech-meetup.com)邀請,這周六百度研究院副院長余凱在Santa Clara的Intel總部禮堂做了一場很干貨的分享。我覺得“干貨”的原因不僅僅是余凱對諸如“百度為什么要做各種智能硬件?”和“百度的自動駕駛和Google有何不同?”等問題進行了回答,而是因為通過這次分享,我們可以看到百度在包括基于大數(shù)據(jù)的深度學(xué)習(xí)等一些前沿研究領(lǐng)域的成果,以及在“萬物互聯(lián)”的大數(shù)據(jù)時代,百度在機器人、無人駕駛等方面的一些思考,也讓我們這些互聯(lián)網(wǎng)從業(yè)者對于未來大數(shù)據(jù)和人工智能的演化有一個更好的了解。
雖然觀眾幾乎坐滿了會場,但我估計最多也就有兩百來號人分享到了這些東西。所以我對余凱的演講進行了一些整理,供雷鋒網(wǎng)的讀者了解和學(xué)習(xí)。
以下內(nèi)容根據(jù)演講整理:
感謝郭曉峰、朱平還有好多朋友在周末來組織這么一個活動。對我來講回到這個地方和大家交流有一種回家的感覺,因為我是三年前的時候從灣區(qū)回國加入百度,開始負責(zé)百度的人工智能和深度學(xué)習(xí)方面的研究。很親切。回顧這個歷史也是滿有趣的,當時我在NEC Lab,有好多深度學(xué)習(xí)方面的工作,今天像Facebook等有很多人在從事深度學(xué)習(xí),好多都是從NEC Lab加入的。從灣區(qū)回到中國也確實把灣區(qū)的一些資源給介紹回去了,像以前我一個很好的朋友Andrew Ng,我也把他忽悠到了百度。
這反映什么呢?以前這些比較前沿的技術(shù)研發(fā)事情很多是在硅谷在美國去發(fā)生,在今天在北京或者深圳其實很多同樣事情也在發(fā)生,所以我覺得是一個創(chuàng)新的時代。
今天我的題目叫《從大數(shù)據(jù)到人工智能》。在過去的幾年時間里,百度比較有特色的一點就是作為一個私營企業(yè)在技術(shù)研發(fā)這個領(lǐng)域做了很多工作,對我們來講是一個很鼓舞的事情。
我想即使在Google的朋友也會同意這個觀點:搜索引擎本身也是一個人工智能的系統(tǒng),一方面通過免費的服務(wù)提供很多數(shù)據(jù),另一方面把這些數(shù)據(jù)區(qū)變現(xiàn),這中間就要用到很多技術(shù),這當中最重要的就是基于大數(shù)據(jù)的人工智能,比如說數(shù)據(jù)挖掘、機器學(xué)習(xí)、自然語言理解在移動時代或者IOT時代,語音識別語音理解圖像識別等很多人工智能技術(shù)在中間可以扮演非常重要的角色。
什么是人工智能
那什么是人工智能呢?有很多不同的看法,有強人工智能,有弱人工智能,我們也看到很多電影和小說等,但到今天沒有一個公認的統(tǒng)一的定義,但我們講一個人工智能有幾個方面:
第一個是感知。就是采集數(shù)據(jù);
第二個是理解。對環(huán)境、對對話的對象有一些理解;
第三個是決策。這些數(shù)據(jù)你要做大量的分析,知道環(huán)境是什么樣的,基于這上面你會做大量的決策,本身來講感知、理解、決策這三步也是一個循環(huán)的過程。
我們今天看到各種各樣所謂的智能產(chǎn)品,那這些產(chǎn)品是否真的具有智能呢?其實一個很本質(zhì)的差別,也是互聯(lián)網(wǎng)服務(wù)和其他產(chǎn)品不一樣的地方,就是這個服務(wù)和產(chǎn)品是否能夠隨著經(jīng)驗不斷演化,隨著用戶使用越來越多對用戶越來越了解,這種隨著經(jīng)驗演化也就是學(xué)習(xí)的能力實際上是評估一件產(chǎn)品是否真正具有智能的因素。整個移動互聯(lián)網(wǎng),通過手機也好,通過App也好,他對用戶是在不斷的去了解,去知道用戶的需求和喜好。
我們知道在機器學(xué)習(xí)研究的課程里,有一個詞叫經(jīng)驗數(shù)據(jù),經(jīng)驗就是數(shù)據(jù),數(shù)據(jù)就是經(jīng)驗。我們今天講這是一個大數(shù)據(jù)的時代,大數(shù)據(jù)時代的意義在什么地方呢?就是能讓一個系統(tǒng)有機會變得越來越智能。因為智能本身一個特點就是學(xué)習(xí)的能力。
萬物互聯(lián)與大數(shù)據(jù)
大數(shù)據(jù)的時代從PC互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)有一個飛躍的變化,像這個圖是05年教皇選舉的場景,8年以后你可以看到,同樣的地方,同樣一波人,移動互聯(lián)網(wǎng)對人們的改變是巨大的。每一個人隨著這個設(shè)備,無論是在打電話,拍照,帶在身上,你以為你沒有在用它,但手機上面的傳感器會把很多數(shù)據(jù)傳到云端。數(shù)據(jù)的產(chǎn)生是無時不刻的。
未來我們會進入一個物聯(lián)網(wǎng)的時代或者機器人的時代,那萬物互聯(lián)的時代是一個什么樣的場景呢?我們可以想象到2020年,前段時間孫正義在烏鎮(zhèn)互聯(lián)網(wǎng)大會上說,到2020年一個人可能會連接到上千個設(shè)備。今天在中國我們每個人可能都帶著兩三個手機,因為一個人在生活中會扮演很多角色(觀眾笑)。加上穿戴式設(shè)備和其他連接,在中國平均一個人帶三四個設(shè)備是很正常的。面向未來的話可能一個紐扣都會是一個設(shè)備,所以說每個人連接一千個設(shè)備并不是那么聳人聽聞。
這么多連接帶來的結(jié)果就是數(shù)據(jù)的暴增。大數(shù)據(jù)的時代實際上由萬物互聯(lián)導(dǎo)致,但數(shù)據(jù)也給我們的服務(wù)和產(chǎn)品一個學(xué)習(xí)的機會。從學(xué)術(shù)研究的角度講,人工智能在過去五六十年里起起伏伏,但真正大規(guī)模的應(yīng)用是從互聯(lián)網(wǎng)也就是2000年開始的,從2000年-2009年,我把這個時代叫做“潤物細無聲”,因為在互聯(lián)網(wǎng)時代,無論是搜索還是廣告都有大量的人工智能技術(shù),但這些技術(shù)主要是一些后臺的技術(shù),不一定那么容易被感知。
我們當前所處的時代,從2010年到2019年我用一個詞叫“于無聲處聽驚雷”,互聯(lián)網(wǎng)行業(yè)很多朋友確實都感到這種轟隆隆的雷聲。大數(shù)據(jù)的產(chǎn)生、計算能力、帶寬、深度學(xué)習(xí)這種技術(shù)的發(fā)展使得AI開始從后臺走到前臺,比如說語音識別,我記得三年前我組建百度語音識別的團隊,我們當時發(fā)現(xiàn)招不到人,我覺得很奇怪,我記得我讀大學(xué)的時候不是有很多人在從事語音識別的研究嗎?后來我一打聽,他們?nèi)哭D(zhuǎn)行了。因為在深度學(xué)習(xí)之前的時代,語音識別看不到希望,大家覺得沒法繼續(xù)做研究,但今天語音識別已經(jīng)是觸手可達,而且發(fā)展非???。包括圖像,包括自然語言的理解,包括機器人的技術(shù)都是如此。
從大數(shù)據(jù)到深度學(xué)習(xí)的人工智能
人工智能技術(shù)最近為什么這么受到重視?我覺得最重要的原因是大數(shù)據(jù),第二個原因是計算能力,第三個原因就是深度學(xué)習(xí)。最頂尖的互聯(lián)網(wǎng)公司在這個領(lǐng)域都有相當投入,百度在深度學(xué)習(xí)領(lǐng)域可以說是投資最大的公司之一。
為什么深度學(xué)習(xí)受到重視?首先第一點就是深度學(xué)習(xí)技術(shù)有一個浪漫主義的方面,就是深度學(xué)習(xí)從機制、行為等方面和大腦有一些關(guān)聯(lián)性。這點在媒體強調(diào)得比較多,但從我們的角度來講這反而是最不重要的原因。
第二點是深度學(xué)習(xí)特別適合大數(shù)據(jù)。一開始深度學(xué)習(xí)有受到生物神經(jīng)系統(tǒng)的啟發(fā),但隨后的進展主要是因為統(tǒng)計、建模、大數(shù)據(jù)和功能實現(xiàn)。
然后第三點它帶來的是一個思維觀念也就是解決問題方式的改變。過去我們一般先對數(shù)據(jù)做一些預(yù)處理,然后通過機器建模的方法去處理數(shù)據(jù),但深度學(xué)習(xí)帶來的一個改變,就是端到端的學(xué)習(xí),希望把原始數(shù)據(jù)放到系統(tǒng)里,中間每個步驟都是用學(xué)習(xí)的方法去完成。比如說語音識別,它分為好幾個步驟,但這幾個步驟是不是去一致性的優(yōu)化?不一定。但深度學(xué)習(xí)的目標是去一致性的優(yōu)化最終的目標的。
第四點,也是一個糾正,就是很多人覺得深度學(xué)習(xí)是一個黑箱系統(tǒng),覺得你不需要太多的了解,只要去用它就好了。實際上深度學(xué)習(xí)和機器學(xué)習(xí)一樣,提供的是一套框架,一套語言系統(tǒng)。什么叫語言系統(tǒng)?比如中文就是一套語言系統(tǒng),你要寫出優(yōu)美的文章至少需要兩個條件,第一是你要掌握這種語言,第二是你對生活的感悟。套用在深度學(xué)習(xí)上也有兩個條件,第一個就是你要有駕馭這個模型和計算的能力,第二個就是對問題要有足夠的了解。
我給大家舉一些例子。深度學(xué)習(xí)最成功的一個例子是卷及神經(jīng)網(wǎng)絡(luò),他確實和我們對視覺神經(jīng)系統(tǒng)的了解尤其是早期的視覺皮層細胞關(guān)系是非常大的。今天我們的深度學(xué)習(xí)已經(jīng)遠遠超越這些模型的結(jié)構(gòu)。打個比方,他們之間為什么不一樣呢?這就好比研究鳥類如何飛行,但深度學(xué)習(xí)是像波音公司研究如何造飛機,本質(zhì)上并不一樣,今天我們的飛機可以長得完全不像鳥,更多的是空氣動力學(xué)、機械方面的東西。
從統(tǒng)計和計算的角度講,深度學(xué)習(xí)的原因其實更基礎(chǔ)。一個機器學(xué)習(xí)系統(tǒng),我們可能對它的誤差的每個來源去做分解,去了解和控制它,從而可以控制整體的預(yù)測誤差。一般做機器學(xué)習(xí)我們會做一些假設(shè),我們知道所有假設(shè)都不是完美的,也就是第一個,模型的不完美。第二個問題是數(shù)據(jù)的不完美導(dǎo)致的,比如說數(shù)據(jù)是有限的,有偏的;第三個是計算的不完美。統(tǒng)計學(xué)通常關(guān)心前兩個問題,但在現(xiàn)實中,比如說我的一個工程師說,老大,我這個問題需要五百臺機器。我說,扯淡,我最多給你五十臺。他說,五十臺的話,我需要算半年。那我說,不行,必須今天晚上算出來。在有限的計算資源下去處理這樣的問題,我們必須要考慮這種計算的不完美。
所以我們可以看到,第一我們需要用一個非常復(fù)雜的模型,去減少這種偏差,第二個問題我們要用無偏的,也就是大數(shù)據(jù)去彌補。這樣我們得出一個結(jié)論:深度學(xué)習(xí)跟傳統(tǒng)的人工智能比較,隨著數(shù)據(jù)的增長能夠吸收數(shù)據(jù)增長帶來的紅利。傳統(tǒng)人工智能模型可能不夠復(fù)雜,比如是一個線性模型,數(shù)據(jù)量大了后偏差會比較大。還有一種可能是模型很好,但計算的問題無法解決。比如有一種很好的模型,它的計算復(fù)雜度是N的二次方到三次方,這樣處理一萬個學(xué)習(xí)樣本和一百萬個學(xué)習(xí)樣本,需要的計算資源就至少相差一萬倍。在大數(shù)據(jù)的時代,這就只能到此為止了。
深度學(xué)習(xí)是一套靈活的、復(fù)雜的語言系統(tǒng)。在不同的問題里會有不同的語言框架,用不同的結(jié)構(gòu)去處理不同的問題。百度今天在這方面可以說走在相當?shù)那懊?,從?guī)模上講,百度可能是世界上第一個運用大規(guī)模的GPU Servers的公司 , 12年的時候,當時我們就采購了世界上最大的采購量。
今天我們有五六千臺的PC Server,超過兩千臺GPU的Server在一起做這種混合的大規(guī)模的深度學(xué)習(xí)的訓(xùn)練,所以我們現(xiàn)在能夠構(gòu)建這種相當大的、千億級參數(shù)的世界上最大的人工神經(jīng)網(wǎng)絡(luò)。在其他方面很多算法比如語音識別、圖像識別、自然語言、廣告、用戶建模等幫助很大。
今天我們已經(jīng)不是停留在研究的層面,而是對于百度的業(yè)務(wù)比如說搜索、廣告、圖像、語音,因為深度學(xué)習(xí)帶來的提升是非常巨大的。在整個業(yè)務(wù)里扮演的角色也變得更加的智能,一言以蔽之,我們的業(yè)務(wù)模式是連接人和信息,連接人和服務(wù),你如何去理解人的意圖,比如一個關(guān)鍵詞,一張照片,說一句話,如何匹配用戶需求,如何推送信息和服務(wù)。
深度學(xué)習(xí)的應(yīng)用例子
鳳巢就是一個用深度學(xué)習(xí)去實現(xiàn)變現(xiàn)的例子,在過去兩年對點擊率和搜索滿意度的提升都是巨大的。
再舉一個例子,我們?nèi)绾?strong>提升搜索的相關(guān)性。它是怎么做的呢?大致的思想是,評估相關(guān)性過去我們要做很多特征的抽取,今天我們把用戶的查詢和結(jié)果匹配得到一個分數(shù),在神經(jīng)網(wǎng)絡(luò)里進行比較,當在訓(xùn)練的時候,我們會把用戶體現(xiàn)出來的這種偏好給到一個差異足夠大的分數(shù),我用超過一千億的的樣本來訓(xùn)練這個系統(tǒng),在過去兩年里面導(dǎo)致相關(guān)性有了一個巨大的提升。
這帶來的相關(guān)性更多的是在語義的理解,尤其是一天中查詢可能不到10次的這種長尾查詢,這是最考驗搜索引擎的能力的,因為對于非常高頻的查詢,每個搜索引擎可能都差不多。這里有一個例子是瑪莎拉蒂的一款車車頭如何放車牌,我們過去的系統(tǒng)得到的基本是基于關(guān)鍵詞的匹配,沒有回答這個問題。我們的合作伙伴(Google)的結(jié)果匹配了“車頭”這個關(guān)鍵字,但對語義沒有進行進一步的理解。我們運行了我們這個模型后,你可以看到查詢的問題是“車頭”、“放置車牌”,但結(jié)果找到了“前牌照怎么裝”,它不是用關(guān)鍵詞來進行匹配,而是根據(jù)語義來匹配,這就是深度學(xué)習(xí)帶來的一個改變。
還有語音識別的例子。百度的語音識別實際從12年開始做,但深度學(xué)習(xí)使得過去陽春白雪的東西變成了你用大數(shù)據(jù)就可以做的東西。過去語音識別從聲學(xué)角度抽取特征,比如頻率特征,將其抽取出來變成一種因素,然后從低層到高層的逐層處理。一開始的時候我們不關(guān)心它是什么,只是考慮它讀起來是什么樣子的,今天的深度學(xué)習(xí)盡量把中間的步驟變成可以訓(xùn)練的步驟,把中間的步驟變得可學(xué)習(xí),中間沒有過多的人工干預(yù),帶來的好處是用大量的數(shù)據(jù)訓(xùn)練這個模型。在Benchmark(標桿測試)上我們可以得到一個非常好的結(jié)果。
另外再給大家看一個例子,這是運單手寫電話號碼的識別,過去我們一開始是做檢測、切割,切割以后把每一個數(shù)字切割出來做識別,但像這個例子,你會發(fā)現(xiàn)是沒法做分割的,那你只能把它做成一個一體的的解碼。這反映的就是深度學(xué)習(xí)給我們帶來的不是一個黑盒,而是一個很豐富的語言系統(tǒng),我們希望對這些問題有足夠理解,然后去開發(fā)最適合它的模型。
我剛才提到了圖片的識別,加上字符的識別,加上語音的識別,加上機器的翻譯,那百度可以做出這樣的產(chǎn)品,比如今天中國人到紐約的街頭可以問:“附近哪里有川菜館?”你用中文說了后識別成中文,然后翻譯成英文讀出來。我們可以不斷優(yōu)化這個事情,在幾年的時間里可以變成現(xiàn)實,那么中國的小朋友們就可以更多時間去玩,更少時間用在學(xué)無聊的英語上了(觀眾笑)。當然還有拍照。這是我的一個好朋友,NYU的一個教授到上海,他用這個產(chǎn)品點菜,看菜單他就不擔(dān)心這個東西是不是鳳爪之類他不敢吃的東西。
我們再看另外一個例子就是圖片識別。13年的時候,中國移動互聯(lián)網(wǎng)有一個爆發(fā)的應(yīng)用就是百度魔圖,就是普通人可以拍張照,然后系統(tǒng)會告訴你長得最像哪個大咖。我們這個產(chǎn)品在連續(xù)三周在iOS總榜排名第一,最多的時候一天900萬人上傳照片,我們一下子收集了好多人臉照片(觀眾笑)。至今這也是百度移動產(chǎn)品的記錄。
很多高科技公司都會參加一個IFW競賽,也就是人臉識別的測評,它是怎樣的呢?就是一些照片,系統(tǒng)要判斷這是屬于同一個人還是不同的人。去年Facebook宣稱他們?nèi)〉昧俗詈玫慕Y(jié)果。但不同的公司也在不斷的PK,目前來講最好的結(jié)果是百度的(誤差率約0.15%),這個結(jié)果現(xiàn)在到了什么情況呢?有人讓人來參加了這個評估,結(jié)果大概是在這個地方(誤差約0.35%),也就是說機器可能比人還要好。當然這只是一個具體的任務(wù)上,機器的表現(xiàn)比人好,不代表整個人工智能能達到人的地步。
還有一個很有意思的ImageNet,也就是圖像識別分類的競賽。不同行業(yè)的人可能不一定感觸到,但我們這個行業(yè)能聽到轟隆隆的雷聲,是由于大數(shù)據(jù),由于深度學(xué)習(xí)在發(fā)生非??斓倪M展。ImageNet做的是圖片的分類,過去五年里,我們可以看到錯誤率在不斷下降,10年的第一屆,我的這個團隊是拿了第一名,后面每年結(jié)果都在變化,去年最好的結(jié)果是我們在百度的同事做的,斯坦福同樣也做了一個評估,看人類來做這個測試結(jié)果會是怎樣。
(ImageNet)微軟在今年1月份發(fā)布的結(jié)果超過了百度,前段時間Google的同事的結(jié)果又比微軟好,上個禮拜,我同事和我說,我們的結(jié)果比Google還好。所以這個競爭很有意思,很多年后我們再回想就覺得,我們這些不同公司的研究人員就像一個班上的同學(xué)一起PK,一起分享經(jīng)驗,實際是在一起推動行業(yè)的發(fā)展的。
OK,圖像的理解始終是和我們?nèi)祟悓χR的理解以及語言總是能夠耦合在一起的,那怎么把這個事情做得更加有意思呢?我們在小時候可能做過“看圖說話”,用語言來描述這幅圖像,比如這幅圖,用中文描述就是“起居室里有著百色的沙發(fā)和藍色的地毯,下午的陽光照進房間”。這樣的描述實際上是由機器來完成的。這是去年百度的研究人員最早在世界上發(fā)表了這樣的論文,后來Google等都發(fā)表了類似的論文,也引用了我們的研究結(jié)果。
我們現(xiàn)在也在做一些中文的描述,比如說這個例子:“一輛雙層巴士行駛在街道上”。我們可以做什么呢?比如說做圖像識別,我們?nèi)フ翌愃频膱D片,得出來的圖像可能是這樣的(一些街景),因為這個圖像它的主要內(nèi)容是建筑和街道。但如果我們用自然語言來描述這個場景,我們的出來的類似圖片是不一樣的。我們在百度如何用自然語言描述去提升我們對圖像的理解,它背后的模型再度驗證了我剛才的一個觀點:深度學(xué)習(xí)實際提供的是一個語言系統(tǒng),對于一個具體的問題,你要有能力去構(gòu)建模型,模擬這樣一個問題。這樣一個例子就是下面是一個深度的卷積神經(jīng)網(wǎng)絡(luò),它產(chǎn)生的一個表示,上面是一個多層的神經(jīng)網(wǎng)絡(luò)去產(chǎn)生語言的模型。這樣的結(jié)果就是,它既是符合我們語義的語言,同時也反映了圖像的內(nèi)容。
我們再進一步去想:我們可以去做一些更加像人類做的事情。比如說對這樣一個圖像,我們可以去教小孩,去學(xué)習(xí)一些東西。這樣的圖像,機器可能會問小孩:他站在什么上?“他”是單人旁的他,而不是女字旁的“她”哦。我們也希望機器能回答這個問題,根據(jù)圖片本身的像素,根據(jù)本身的問題能夠回答:他站在沖浪板上。機器可能還會繼續(xù)問:那他有穿上衣嗎?然后機器可以回答:沒有。這都是今天的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)根據(jù)圖片內(nèi)容自動生成的。它已經(jīng)超越了我們過去的圖像識別,也就是“你有什么東西”,變成了“你有什么樣的語義”和“你有什么樣的關(guān)系”。
對未來機器人、自動駕駛、人工智能的思考
這里回到一個我們對人工智能目前的現(xiàn)狀和未來的一個思考:過去的互聯(lián)網(wǎng)服務(wù),它做的事情也有幾個方面,一個是感知,另外一個理解,還有一個決策。感知就是獲取數(shù)據(jù),經(jīng)過大規(guī)模的計算,比如處理,索引,然后在決策的時候能展示什么樣的結(jié)果和服務(wù)。這些所有都是線上的。今天移動互聯(lián)網(wǎng)與人更近,它和你所處的場景有關(guān)系。從感知的角度講我們要從人,從物理世界獲得信息,這種線下信息可能比互聯(lián)網(wǎng)世界更加重要。從服務(wù)的角度,以前是線上的服務(wù),它會向線下延伸,向傳統(tǒng)行業(yè)延伸。像智能硬件、自動駕駛、機器人,會在未來扮演更加重要的角色。
這是我們在很多智能硬件上做的一些嘗試(展示一個自動駕駛視頻),未來可能是用各種傳感器武裝到牙齒。為什么你要在中國做自動駕駛呢?這當中有的是純技術(shù)問題,有的是國情的。我跟同事有時開玩笑說,我們在中國做自動駕駛,這個技術(shù)一定是全世界的,但Google在美國做的技術(shù)一定不是全世界的,它不能處理中國式的過馬路,它不能處理我們的井蓋被撬掉(觀眾笑)。因為人工智能是基于大數(shù)據(jù)的智能,沒有這些數(shù)據(jù)你是絕對不敢做的。我們在這樣環(huán)境下開發(fā)出來的技術(shù)一定是放之四海而皆準的。
這是基于圖像的這種實時的道路場景的理解、融合、深度學(xué)習(xí)的技術(shù),我們對交通標志、道路線、對車輛、對標示都要做到實時的識別。今天我們可以做到什么程度呢?這方面的一個Benchmark,我們可以看到第一名和第二名都是百度的,而且比第三名的結(jié)果好非常多。這是我們用一個沒有訓(xùn)練的人去標識數(shù)據(jù)(交通場景圖片),我們會發(fā)現(xiàn)機器做得比人還要好。比如說這個人和交通標志遮住了后面的車,只露出一小部分,人沒法意識這個車的存在,但機器可以識別。這樣基于傳感器去駕駛可能會更加的安全。前段時間Elon Musk說,未來人類開車是違法的,這個有可能成為現(xiàn)實。
這是對車道的一個理解。剛才講的我們?yōu)槭裁匆龆ㄎ荒??我們有一個現(xiàn)實的目標,就是做一個基于實時場景的增強現(xiàn)實導(dǎo)航系統(tǒng),在北京開過車的人可能知道,那么多主路輔路,比如說西直門立交就基本就和中國聯(lián)通的Logo一樣了。基于實時場景的增強現(xiàn)實導(dǎo)航系統(tǒng),它比基于語音的 導(dǎo)航或者基于二維的地圖導(dǎo)航更加場景化。我們認為自動駕駛應(yīng)該是一個漸進式的過程,從輔助駕駛到主動安全,到限定條件下的自動駕駛,到高度自動駕駛,在每一步都會有商業(yè)機會。我們要構(gòu)造的不是一個取代人的系統(tǒng),而是一個人車一體的系統(tǒng)。任何車的關(guān)系就像人和馬一樣,但馬是可以控制的。
最后我想總結(jié)一下,我們認為在5-10年里,下面三件事情一定會成為必然:第一個是所有設(shè)備都有智能傳感器,第二是所有設(shè)備它一定都有云端大腦,第三是所有設(shè)備從單一功能的設(shè)備變成連接人和服務(wù)的節(jié)點。我們可以看到手機經(jīng)歷了這個過程,過去手機就是打電話,今天的手機,你一天打幾個電話啊。從這個角度講,所有設(shè)備最后都會成為一個廣義的機器人系統(tǒng):它都有感知,都有理解,都有決策。
我們技術(shù)人員常常覺得,將機器變得非常強大是一件很酷的事情,但實際上這并沒有產(chǎn)生巨大的價值。像以前的深藍,在一個場景下可能比人做得還好,但并沒有這個世界產(chǎn)生更多的影響。而像Google和百度這樣的搜索引擎,它拉近了人和信息的距離,它產(chǎn)生的巨大社會價值,才能夠去實現(xiàn)巨大的商業(yè)價值。這種技術(shù)的偉大,不在于讓機器更偉大,而在于讓每個平凡者變得有創(chuàng)造性,變得更偉大。
這句話大家都很熟悉,我改了一下:世界是我們的,也是機器人的,但是歸根到底是屬于會控制機器人的人的。謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。