百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

本文作者：劉芳平

2017-01-17 07:59

導(dǎo)語：百度復(fù)原了北京老九門中的另外八座城門，新增了兩個(gè)玩法，并邀請(qǐng)了百度首席科學(xué)家吳恩達(dá)的參加，同時(shí)宣布成立百度 ARLab，要打造一個(gè) AR 平臺(tái)。

地鐵 2 號(hào)線百度 AR 專列，廣告位上都是北京城門的老照片

伴著北京 2017 年的第一場雪，百度再次召集媒體開了一次 AR 復(fù)原北京老城門的活動(dòng)，此前媒體曾被邀請(qǐng)去參觀百度用 AR 復(fù)原朝陽門。

不同的是，這次百度復(fù)原了老北京九大城門中的另外八座城門，還新增了兩個(gè)玩法，并邀請(qǐng)了百度首席科學(xué)家吳恩達(dá)參加，同時(shí)宣布成立百度 AR Lab，要打造一個(gè) AR 平臺(tái)。

AR 復(fù)原老北京九大城門

百度這次選擇了北京西直門的 2 號(hào)線和 13 號(hào)線換乘大廳、地鐵 2 號(hào)線的一輛百度 AR 專列上，展示老北京內(nèi)城九大城門的 100 年前老照片。九大城門分別是正陽門、德勝門、崇文門、朝陽門、西直門、東直門、阜成門、宣武門、安定門。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

吳恩達(dá)在北京地鐵西直門站

百度提供了三種 AR 玩法：

方法一：掃一掃

打開手機(jī)百度App，點(diǎn)擊拍照按鈕，在通用模式下對(duì)準(zhǔn)九大城門的老照片拍照，點(diǎn)擊“發(fā)現(xiàn)AR動(dòng)畫”，然后繼續(xù)對(duì)準(zhǔn)手繪的城門觸發(fā)圖，便可看到已經(jīng)消逝的北京老北京九大城門復(fù)現(xiàn)出來。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

方法二：搜一搜

打開手機(jī)百度App，搜索九大城門關(guān)鍵詞，點(diǎn)擊搜索結(jié)果中信息卡片（阿拉丁卡片），攝像頭自動(dòng)調(diào)起，對(duì)準(zhǔn)任何紋理豐富的物體（如手心、鍵盤、雜志、公交卡等等），即可看到九大城門的AR效果（見下圖）。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

手機(jī)百度搜索“正陽門”，手心觸發(fā)AR

方法三：實(shí)景觸發(fā)

正陽門的實(shí)景觸發(fā)也已經(jīng)實(shí)現(xiàn)，并采用 SLAM 技術(shù)（Simultaneous Localization And Mapping，即時(shí)定位與地圖構(gòu)建技術(shù)）。只需用手機(jī)或平板對(duì)準(zhǔn)正陽門，就能觸發(fā) 3D AR 內(nèi)容（見下圖）。不過這次只演示了 Demo ，用戶還無法使用。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

SLAM 技術(shù)和 UDT 技術(shù)

百度此次展示的 AR 技術(shù)比復(fù)原朝陽門時(shí)更進(jìn)一步，上一次用戶只能用手機(jī)百度對(duì)準(zhǔn)老城門的畫作來觸發(fā) AR，這次是直接對(duì)準(zhǔn)老照片，識(shí)別難度更高。同時(shí)還新增了搜一搜和實(shí)景觸發(fā)兩種玩法，背后分別對(duì)應(yīng)的是 UDT 技術(shù)和 SLAM 技術(shù)。

SLAM 技術(shù)

本次在正陽門實(shí)景觸發(fā)測試中，百度采用了自主研發(fā)的 SLAM 技術(shù)。SLAM 技術(shù)是機(jī)器人(計(jì)算機(jī))在未知的環(huán)境下，利用傳感器 (camera, laser, IMU 等) 來估計(jì)自身的姿態(tài) (包括位置和朝向)，同時(shí)建立周圍環(huán)境的地圖。SLAM 在無人車、無人機(jī)和 AR 上都有非常重要的應(yīng)用。百度研發(fā)的 SLAM 技術(shù)可以做到低功耗、高實(shí)時(shí)性，支持多種數(shù)據(jù)源，比如單目、雙目、RGBD 等。

SLAM 與 IMU 技術(shù)的區(qū)別：

手機(jī)端 IMU (Inertial Measurement Unit) 慣性測量單元誤差較大，只適合估計(jì)手機(jī)朝向（3 自由度），比如橫屏/豎屏，傾斜等方向，不能用來估計(jì)位置計(jì)算。SLAM 不僅能估計(jì)手機(jī)三維朝向，還能估計(jì)手機(jī)的三維位置（6 自由度）。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

SLAM技術(shù)與IMU技術(shù)區(qū)別圖

對(duì)于 AR 來講，傳統(tǒng)的虛實(shí)結(jié)合是在二維圖像上疊加虛擬三維物體。視覺 SLAM 算法可以使得 AR 系統(tǒng)理解周圍的三維環(huán)境，從而把虛擬的物體放到合適的位置。更進(jìn)一步，虛擬物體可以與現(xiàn)實(shí)的三維環(huán)境發(fā)生交互，產(chǎn)生更有趣的交互方式。

SLAM的核心有兩個(gè)部分：

第一部分是估計(jì)計(jì)算機(jī)的姿態(tài)（計(jì)算機(jī)在三維空間中的位置和朝向信息）。

第二部分是建立周圍環(huán)境的三維地圖（稀疏或者稠密的三維點(diǎn)云）。

對(duì)于 AR 廣告，SLAM 可以讓廣告不再受限于預(yù)先制定好的海報(bào)、平面包裝等。例如，用戶可以在家里打開手機(jī)百度，查看一款網(wǎng)上的沙發(fā)和客廳是否搭配，或者可口可樂公司做一款A(yù)R廣告，讓運(yùn)動(dòng)員圍繞可樂罐跑步等。

百度 SLAM 技術(shù)基本情況與上線時(shí)間

百度 ARLab 負(fù)責(zé)人吳中勤向雷鋒網(wǎng)介紹了百度 SLAM 技術(shù)的基本情況，并透露未來三個(gè)月這項(xiàng)技術(shù)將上線到手機(jī)百度，他說：

其實(shí) SLAM 這套技術(shù)百度最早有積累的，我們最早有一個(gè)無人機(jī)的團(tuán)隊(duì)，在那個(gè)團(tuán)隊(duì)里面我們要解決無人測試導(dǎo)航定位的問題，一定要先上這一套技術(shù)，當(dāng)時(shí)我們開始了研發(fā)。無人機(jī)那個(gè)項(xiàng)目做了一段時(shí)間之后，就覺得它的場景比較偏少，所以我們同時(shí)還有一個(gè)無人車的項(xiàng)目，其實(shí)無人車的項(xiàng)目里面我們 SLAM 得到了最大的應(yīng)用發(fā)揮。

這一次的這套技術(shù)其實(shí)跟那個(gè)框架有類似的地方，它的特點(diǎn)就是不像無人車一樣具有這么好的傳感器和這么豐富的電源，所以更多的使用一些額外的技術(shù)。比如說我們這邊使用的技術(shù)就會(huì)更加考慮視覺幀與幀之間的關(guān)聯(lián)和空間中的定位。它對(duì)性能的要求特別高，而手機(jī)本身的計(jì)算能力不是特別強(qiáng)，同時(shí)支持多幀的采樣，這個(gè)角度我們做了大量工作。

我們技術(shù)上基本上準(zhǔn)備好了，后面有很多優(yōu)化工作讓他體驗(yàn)更好，等大小和體積這方面打磨好，我們就會(huì)在大概三個(gè)月的時(shí)間上線這樣一個(gè)功能。

UDT 技術(shù)

傳統(tǒng)基于圖像跟蹤的 AR 技術(shù)需要預(yù)先確定一張圖片，用戶必須有一張完全相同的圖像，才能展示AR。通過 UDT (User Defined Target) 用戶自定義目標(biāo)技術(shù)，這個(gè)限制被去掉，讓用戶隨手找一張有紋理的圖案即可展示AR效果（如公交卡，圖書，手心、鍵盤等）。UDT利用多線程、GPU等加速算法，可以實(shí)時(shí)估計(jì)圖像中的復(fù)雜特征信息，從而計(jì)算出空間三維位置。

成立 AR Lab，打造 AR 平臺(tái)

借著展示復(fù)原老北京九大城門這個(gè)機(jī)會(huì)，百度今天宣布成立第四大實(shí)驗(yàn)室——增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室（AR Lab），由吳中勤負(fù)責(zé)，屬于由首席科學(xué)家吳恩達(dá)負(fù)責(zé)的百度研究院。百度研究院此前已經(jīng)擁有了三大實(shí)驗(yàn)室：硅谷人工智能實(shí)驗(yàn)室、北京深度學(xué)習(xí)實(shí)驗(yàn)室（原深度學(xué)習(xí)研究院）和北京大數(shù)據(jù)實(shí)驗(yàn)室。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

百度 AR 技術(shù)架構(gòu)圖

據(jù)吳中勤介紹，百度移動(dòng)端的 AR 技術(shù)共分圖像識(shí)別、三維感知與跟蹤、人機(jī)交互、三維渲染與虛實(shí)融合四大部分：

物體識(shí)別是AR的基礎(chǔ)功能，通過攝像頭識(shí)別場景中的物體，觸發(fā)相關(guān)AR，并在云端找到相應(yīng)的虛擬物體與信息。目前主要 AR 技術(shù)非常依賴圖像識(shí)別技術(shù)，從圖像識(shí)別來說，百度有整個(gè)互聯(lián)網(wǎng)的大幾百億的圖片數(shù)據(jù)，而且識(shí)別的速度非?？?，如果大家使用過我們拍照識(shí)別的軟件，可以知道它能夠以非常快的速度（大概小幾百毫秒）返回結(jié)果，在四五百億的圖片庫里面進(jìn)行快速的檢索。

三維感知與跟蹤則通過自主研發(fā)的相機(jī)追蹤算法為AR提供快速穩(wěn)定的相機(jī)姿態(tài)估算結(jié)果，適應(yīng)AR技術(shù)在移動(dòng)設(shè)備上的運(yùn)行要求。我們?cè)诟櫵俣壬峡梢宰龅?10 毫秒級(jí)的快速跟蹤，完全可以做離線的計(jì)算，同時(shí)還有比較強(qiáng)的抗干擾能力，就是對(duì)畫面的遮擋，對(duì)物體部分的遮擋可以快速的響應(yīng)還有快速的重定位，當(dāng)攝像頭移開的時(shí)候可以計(jì)算到攝像頭重新定位的方位。

人機(jī)交技術(shù)可利用語音和手勢減少用戶觸屏操作，為用戶帶來更好的交互體驗(yàn)。比如說語音識(shí)別，百度的語音識(shí)別擁有非常高的精確度，達(dá)到97%。

跨平臺(tái)的三維渲染引擎可以將虛擬三維物體渲染到現(xiàn)實(shí)環(huán)境中，從而實(shí)現(xiàn)虛實(shí)融合效果。我們的3D渲染目前可以做到跨平臺(tái)，體量可以做到 1M 左右，這樣互聯(lián)網(wǎng)上大部分移動(dòng) APP 都可以集成這樣一個(gè) SDK 和 AR 服務(wù)。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

百度 ARLab 負(fù)責(zé)人吳中勤

AR 平臺(tái)

百度 AR 的產(chǎn)品主要是以平臺(tái)的形式面向行業(yè)合作伙伴，推出了DuMix 產(chǎn)品體系。這個(gè)體系主要包含 AR SDK 和 AR 編輯器。其中 AR SDK 支持 iOS 和 Android，包括渲染引擎和底層算法；AR 編輯器包括 AR 行業(yè)模板和 3D 快速建模工具。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

DuMix 產(chǎn)品體系

據(jù)吳中勤介紹，百度 AR SDK 可以支持實(shí)際物體的 AR，也可以支持整個(gè)以 AR 驅(qū)動(dòng)的互動(dòng)游戲，比如說沒有觸發(fā)物，基于手部、人臉會(huì)有特殊的一些互動(dòng)效果。百度里面目前幾個(gè)比較大體量的移動(dòng) APP 都已經(jīng)支持這樣的效果，大家陸續(xù)都會(huì)在各個(gè)場合看到百度系的軟件具備這樣的能力。

DuMix 可以支持各種各樣的應(yīng)用場景，百度在現(xiàn)場列舉了 AR 游戲、AR 娛樂和 AR 旅游。并以品牌營銷為例，介紹了一個(gè) Dumix 的應(yīng)用流程（見下圖）。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

吳恩達(dá)：AI 技術(shù)是 AR 的核心

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

吳恩達(dá)這次是專程從美國回來參加百度 AR 復(fù)原北京老城門活動(dòng)的，他對(duì)雷鋒網(wǎng)透露，自己 60% 時(shí)間在硅谷，40% 在中國。吳恩達(dá)對(duì) AR 非?？春?，并且他認(rèn)為 AI 技術(shù)是 AR 的核心，而百度內(nèi)部認(rèn)為人工智能是新的電能。他說：

今天最核心的人工智能技術(shù)就是圖像技術(shù)，因?yàn)樾枰褂脠D像技術(shù)來理解這張圖里面的內(nèi)容到底是什么，也需要用圖像技術(shù)來做視覺定位，才可以實(shí)時(shí)把虛擬技術(shù)放進(jìn)去，如果有人臉也可以疊加虛擬內(nèi)容。

未來人工智能還有好幾個(gè)技術(shù)會(huì)對(duì) AR 非常重要，因?yàn)槿绻隳弥謾C(jī)去看AR的內(nèi)容，如果你想跟你的手機(jī)交互，最重要、最方便的方式就是自己講話，所以我們團(tuán)隊(duì)也在探索怎么樣用語音識(shí)別讓你一邊看增強(qiáng)現(xiàn)實(shí)內(nèi)容，一邊跟他交互。

我們已經(jīng)跟很多公司合作，為用戶提供了很多非常有意思的增強(qiáng)現(xiàn)實(shí)的內(nèi)容，其實(shí)我覺得AR的未來是有非常大的潛力。今天AR為歷史領(lǐng)域帶來非常有意義的體驗(yàn)，我希望未來AR也可以在很多領(lǐng)域，包括教育、醫(yī)療、理療、旅游、生活等等也為人機(jī)交互帶來改變，讓大家更自然、更方便的探索世界。

我覺得今天AR的技術(shù)已經(jīng)做的不錯(cuò)，不過我們還有很大的空間把這些AR技術(shù)做的更好。

百度成立第四大實(shí)驗(yàn)室 AR Lab，吳恩達(dá)認(rèn)為 AI 技術(shù)是 AR 的核心

在接受媒體采訪時(shí)，吳恩達(dá)表示百度開始 AR 方面的工作大概是兩年前，并認(rèn)為相比眼鏡，手機(jī)會(huì)是更方便 AR 應(yīng)用平臺(tái)。

在國外有人做 AR 或者 VR 的硬件，我覺得如果我們想為很多用戶提供 AR 體驗(yàn)，可以把 AR 體驗(yàn)放進(jìn)手機(jī)端，用戶比較方便，不需要買好幾千塊的這種東西。

在提到中美 AR 發(fā)展對(duì)比時(shí)，他認(rèn)為 AR 技術(shù)在中國的發(fā)展會(huì)比美國快。

我覺得AR在中國比美國發(fā)展要快，有兩個(gè)想法。首先，美國很多人都是先使用PC，習(xí)慣用PC后來才開始用手機(jī)，所以很多手機(jī)的創(chuàng)新工作都是在中國先看到。

另外一個(gè)原因就是中國有比較多人聚在一個(gè)城市里，AR 也是手機(jī)端的一個(gè)例子，因?yàn)橹袊娜吮容^多，在地鐵有不少人坐地鐵，所以把 AR 的圖象切進(jìn)去地鐵，就可以給非常多人體驗(yàn)。

AR：BAT 的新戰(zhàn)場

AR 正成為下一個(gè)大技術(shù)熱點(diǎn) ，目前，不僅是百度，BAT 三巨頭都在積極布局 AR 技術(shù)。

阿里這邊，支付寶推 AR 實(shí)景紅包，淘寶對(duì) VR 購物進(jìn)行了探索，阿里還投資了 AR 初創(chuàng)公司 Magic Leap；
騰訊方面，QQ 除了也推 AR 實(shí)景紅包，還玩過 AR 火炬等各種應(yīng)用，有超過 1 億用戶參與，而根據(jù)雷鋒網(wǎng)獲得的消息，騰訊今年還將推出名為 QAR 的 AR 開放平臺(tái)，將 AR 集成到旗下各大應(yīng)用中去。

百度的 AR 開放平臺(tái)，加上騰訊 AR 開放平臺(tái) QAR，以及阿里在 AR 領(lǐng)域的眾多探索，顯示出，BAT 又在 AR 領(lǐng)域聚首了。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章