0
本文作者: 劉芳平 | 2017-01-17 07:59 |
地鐵 2 號線百度 AR 專列,廣告位上都是北京城門的老照片
伴著北京 2017 年的第一場雪,百度再次召集媒體開了一次 AR 復(fù)原北京老城門的活動,此前媒體曾被邀請去參觀百度用 AR 復(fù)原朝陽門。
不同的是,這次百度復(fù)原了老北京九大城門中的另外八座城門,還新增了兩個玩法,并邀請了百度首席科學(xué)家吳恩達參加,同時宣布成立百度 AR Lab,要打造一個 AR 平臺。
百度這次選擇了北京西直門的 2 號線和 13 號線換乘大廳、地鐵 2 號線的一輛百度 AR 專列上,展示老北京內(nèi)城九大城門的 100 年前老照片。九大城門分別是正陽門、德勝門、崇文門、朝陽門、西直門、東直門、阜成門、宣武門、安定門。
吳恩達在北京地鐵西直門站
百度提供了三種 AR 玩法:
方法一:掃一掃
打開手機百度App,點擊拍照按鈕,在通用模式下對準(zhǔn)九大城門的老照片拍照,點擊“發(fā)現(xiàn)AR動畫”,然后繼續(xù)對準(zhǔn)手繪的城門觸發(fā)圖,便可看到已經(jīng)消逝的北京老北京九大城門復(fù)現(xiàn)出來。
方法二:搜一搜
打開手機百度App,搜索九大城門關(guān)鍵詞,點擊搜索結(jié)果中信息卡片(阿拉丁卡片),攝像頭自動調(diào)起,對準(zhǔn)任何紋理豐富的物體(如手心、鍵盤、雜志、公交卡等等),即可看到九大城門的AR效果(見下圖)。
手機百度搜索“正陽門”,手心觸發(fā)AR
方法三:實景觸發(fā)
正陽門的實景觸發(fā)也已經(jīng)實現(xiàn),并采用 SLAM 技術(shù)(Simultaneous Localization And Mapping,即時定位與地圖構(gòu)建技術(shù))。只需用手機或平板對準(zhǔn)正陽門,就能觸發(fā) 3D AR 內(nèi)容(見下圖)。不過這次只演示了 Demo ,用戶還無法使用。
百度此次展示的 AR 技術(shù)比復(fù)原朝陽門時更進一步,上一次用戶只能用手機百度對準(zhǔn)老城門的畫作來觸發(fā) AR,這次是直接對準(zhǔn)老照片,識別難度更高。同時還新增了搜一搜和實景觸發(fā)兩種玩法,背后分別對應(yīng)的是 UDT 技術(shù)和 SLAM 技術(shù)。
SLAM 技術(shù)
本次在正陽門實景觸發(fā)測試中,百度采用了自主研發(fā)的 SLAM 技術(shù)。SLAM 技術(shù)是機器人(計算機)在未知的環(huán)境下,利用傳感器 (camera, laser, IMU 等) 來估計自身的姿態(tài) (包括位置和朝向),同時建立周圍環(huán)境的地圖。SLAM 在無人車、無人機和 AR 上都有非常重要的應(yīng)用。百度研發(fā)的 SLAM 技術(shù)可以做到低功耗、高實時性,支持多種數(shù)據(jù)源,比如單目、雙目、RGBD 等。
SLAM 與 IMU 技術(shù)的區(qū)別:
手機端 IMU (Inertial Measurement Unit) 慣性測量單元誤差較大,只適合估計手機朝向(3 自由度),比如橫屏/豎屏,傾斜等方向,不能用來估計位置計算。SLAM 不僅能估計手機三維朝向,還能估計手機的三維位置(6 自由度)。
SLAM技術(shù)與IMU技術(shù)區(qū)別圖
對于 AR 來講,傳統(tǒng)的虛實結(jié)合是在二維圖像上疊加虛擬三維物體。視覺 SLAM 算法可以使得 AR 系統(tǒng)理解周圍的三維環(huán)境,從而把虛擬的物體放到合適的位置。更進一步,虛擬物體可以與現(xiàn)實的三維環(huán)境發(fā)生交互,產(chǎn)生更有趣的交互方式。
SLAM的核心有兩個部分:
第一部分是估計計算機的姿態(tài)(計算機在三維空間中的位置和朝向信息)。
第二部分是建立周圍環(huán)境的三維地圖(稀疏或者稠密的三維點云)。
對于 AR 廣告,SLAM 可以讓廣告不再受限于預(yù)先制定好的海報、平面包裝等。例如,用戶可以在家里打開手機百度,查看一款網(wǎng)上的沙發(fā)和客廳是否搭配,或者可口可樂公司做一款A(yù)R廣告,讓運動員圍繞可樂罐跑步等。
百度 SLAM 技術(shù)基本情況與上線時間
百度 ARLab 負責(zé)人吳中勤向雷鋒網(wǎng)介紹了百度 SLAM 技術(shù)的基本情況,并透露未來三個月這項技術(shù)將上線到手機百度,他說:
其實 SLAM 這套技術(shù)百度最早有積累的,我們最早有一個無人機的團隊,在那個團隊里面我們要解決無人測試導(dǎo)航定位的問題,一定要先上這一套技術(shù),當(dāng)時我們開始了研發(fā)。無人機那個項目做了一段時間之后,就覺得它的場景比較偏少,所以我們同時還有一個無人車的項目,其實無人車的項目里面我們 SLAM 得到了最大的應(yīng)用發(fā)揮。
這一次的這套技術(shù)其實跟那個框架有類似的地方,它的特點就是不像無人車一樣具有這么好的傳感器和這么豐富的電源,所以更多的使用一些額外的技術(shù)。比如說我們這邊使用的技術(shù)就會更加考慮視覺幀與幀之間的關(guān)聯(lián)和空間中的定位。它對性能的要求特別高,而手機本身的計算能力不是特別強,同時支持多幀的采樣,這個角度我們做了大量工作。
我們技術(shù)上基本上準(zhǔn)備好了,后面有很多優(yōu)化工作讓他體驗更好,等大小和體積這方面打磨好,我們就會在大概三個月的時間上線這樣一個功能。
UDT 技術(shù)
傳統(tǒng)基于圖像跟蹤的 AR 技術(shù)需要預(yù)先確定一張圖片,用戶必須有一張完全相同的圖像,才能展示AR。通過 UDT (User Defined Target) 用戶自定義目標(biāo)技術(shù),這個限制被去掉,讓用戶隨手找一張有紋理的圖案即可展示AR效果(如公交卡,圖書,手心、鍵盤等)。UDT利用多線程、GPU等加速算法,可以實時估計圖像中的復(fù)雜特征信息,從而計算出空間三維位置。
借著展示復(fù)原老北京九大城門這個機會,百度今天宣布成立第四大實驗室——增強現(xiàn)實實驗室(AR Lab),由吳中勤負責(zé),屬于由首席科學(xué)家吳恩達負責(zé)的百度研究院。百度研究院此前已經(jīng)擁有了三大實驗室:硅谷人工智能實驗室、北京深度學(xué)習(xí)實驗室(原深度學(xué)習(xí)研究院)和北京大數(shù)據(jù)實驗室。
百度 AR 技術(shù)架構(gòu)圖
據(jù)吳中勤介紹,百度移動端的 AR 技術(shù)共分圖像識別、三維感知與跟蹤、人機交互、三維渲染與虛實融合四大部分:
物體識別是AR的基礎(chǔ)功能,通過攝像頭識別場景中的物體,觸發(fā)相關(guān)AR,并在云端找到相應(yīng)的虛擬物體與信息。目前主要 AR 技術(shù)非常依賴圖像識別技術(shù),從圖像識別來說,百度有整個互聯(lián)網(wǎng)的大幾百億的圖片數(shù)據(jù),而且識別的速度非常快,如果大家使用過我們拍照識別的軟件,可以知道它能夠以非??斓乃俣龋ù蟾判装俸撩耄┓祷亟Y(jié)果,在四五百億的圖片庫里面進行快速的檢索。
三維感知與跟蹤則通過自主研發(fā)的相機追蹤算法為AR提供快速穩(wěn)定的相機姿態(tài)估算結(jié)果,適應(yīng)AR技術(shù)在移動設(shè)備上的運行要求。我們在跟蹤速度上可以做到 10 毫秒級的快速跟蹤,完全可以做離線的計算,同時還有比較強的抗干擾能力,就是對畫面的遮擋,對物體部分的遮擋可以快速的響應(yīng)還有快速的重定位,當(dāng)攝像頭移開的時候可以計算到攝像頭重新定位的方位。
人機交技術(shù)可利用語音和手勢減少用戶觸屏操作,為用戶帶來更好的交互體驗。比如說語音識別,百度的語音識別擁有非常高的精確度,達到97%。
跨平臺的三維渲染引擎可以將虛擬三維物體渲染到現(xiàn)實環(huán)境中,從而實現(xiàn)虛實融合效果。我們的3D渲染目前可以做到跨平臺,體量可以做到 1M 左右,這樣互聯(lián)網(wǎng)上大部分移動 APP 都可以集成這樣一個 SDK 和 AR 服務(wù)。
百度 ARLab 負責(zé)人吳中勤
AR 平臺
百度 AR 的產(chǎn)品主要是以平臺的形式面向行業(yè)合作伙伴,推出了DuMix 產(chǎn)品體系。這個體系主要包含 AR SDK 和 AR 編輯器。其中 AR SDK 支持 iOS 和 Android,包括渲染引擎和底層算法;AR 編輯器包括 AR 行業(yè)模板和 3D 快速建模工具。
DuMix 產(chǎn)品體系
據(jù)吳中勤介紹,百度 AR SDK 可以支持實際物體的 AR,也可以支持整個以 AR 驅(qū)動的互動游戲,比如說沒有觸發(fā)物,基于手部、人臉會有特殊的一些互動效果。百度里面目前幾個比較大體量的移動 APP 都已經(jīng)支持這樣的效果,大家陸續(xù)都會在各個場合看到百度系的軟件具備這樣的能力。
DuMix 可以支持各種各樣的應(yīng)用場景,百度在現(xiàn)場列舉了 AR 游戲、AR 娛樂和 AR 旅游。并以品牌營銷為例,介紹了一個 Dumix 的應(yīng)用流程(見下圖)。
吳恩達這次是專程從美國回來參加百度 AR 復(fù)原北京老城門活動的,他對雷鋒網(wǎng)透露,自己 60% 時間在硅谷,40% 在中國。吳恩達對 AR 非??春?,并且他認(rèn)為 AI 技術(shù)是 AR 的核心,而百度內(nèi)部認(rèn)為人工智能是新的電能。他說:
今天最核心的人工智能技術(shù)就是圖像技術(shù),因為需要使用圖像技術(shù)來理解這張圖里面的內(nèi)容到底是什么,也需要用圖像技術(shù)來做視覺定位,才可以實時把虛擬技術(shù)放進去,如果有人臉也可以疊加虛擬內(nèi)容。
未來人工智能還有好幾個技術(shù)會對 AR 非常重要,因為如果你拿著手機去看AR的內(nèi)容,如果你想跟你的手機交互,最重要、最方便的方式就是自己講話,所以我們團隊也在探索怎么樣用語音識別讓你一邊看增強現(xiàn)實內(nèi)容,一邊跟他交互。
我們已經(jīng)跟很多公司合作,為用戶提供了很多非常有意思的增強現(xiàn)實的內(nèi)容,其實我覺得AR的未來是有非常大的潛力。今天AR為歷史領(lǐng)域帶來非常有意義的體驗,我希望未來AR也可以在很多領(lǐng)域,包括教育、醫(yī)療、理療、旅游、生活等等也為人機交互帶來改變,讓大家更自然、更方便的探索世界。
我覺得今天AR的技術(shù)已經(jīng)做的不錯,不過我們還有很大的空間把這些AR技術(shù)做的更好。
在接受媒體采訪時,吳恩達表示百度開始 AR 方面的工作大概是兩年前,并認(rèn)為相比眼鏡,手機會是更方便 AR 應(yīng)用平臺。
在國外有人做 AR 或者 VR 的硬件,我覺得如果我們想為很多用戶提供 AR 體驗,可以把 AR 體驗放進手機端,用戶比較方便,不需要買好幾千塊的這種東西。
在提到中美 AR 發(fā)展對比時,他認(rèn)為 AR 技術(shù)在中國的發(fā)展會比美國快。
我覺得AR在中國比美國發(fā)展要快,有兩個想法。首先,美國很多人都是先使用PC,習(xí)慣用PC后來才開始用手機,所以很多手機的創(chuàng)新工作都是在中國先看到。
另外一個原因就是中國有比較多人聚在一個城市里,AR 也是手機端的一個例子,因為中國的人比較多,在地鐵有不少人坐地鐵,所以把 AR 的圖象切進去地鐵,就可以給非常多人體驗。
AR 正成為下一個大技術(shù)熱點 ,目前,不僅是百度,BAT 三巨頭都在積極布局 AR 技術(shù)。
阿里這邊,支付寶推 AR 實景紅包,淘寶對 VR 購物進行了探索,阿里還投資了 AR 初創(chuàng)公司 Magic Leap;
騰訊方面,QQ 除了也推 AR 實景紅包,還玩過 AR 火炬等各種應(yīng)用,有超過 1 億用戶參與,而根據(jù)雷鋒網(wǎng)獲得的消息,騰訊今年還將推出名為 QAR 的 AR 開放平臺,將 AR 集成到旗下各大應(yīng)用中去。
百度的 AR 開放平臺,加上騰訊 AR 開放平臺 QAR,以及阿里在 AR 領(lǐng)域的眾多探索,顯示出,BAT 又在 AR 領(lǐng)域聚首了。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。