丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

本文作者: 蔣寶尚 2020-03-16 15:28
導(dǎo)語(yǔ):已經(jīng)開(kāi)源!

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

物體檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域最廣泛的研究主題之一,雖然2D 物體檢測(cè)已在工業(yè)界得到了比較成熟的應(yīng)用,然而實(shí)現(xiàn) 3D 物體檢測(cè)目前還困難重重。

一方面是由于現(xiàn)有的3D 數(shù)據(jù)非常匱乏,另一方面則是因?yàn)閱蝹€(gè)類(lèi)別下的物體外觀和形狀本身就非常多樣化。

在當(dāng)前條件下,如何基于現(xiàn)有的 2D 圖像數(shù)據(jù)來(lái)做3D 檢測(cè)呢?

日前,谷歌發(fā)布了一個(gè)針對(duì)日常物體的移動(dòng)實(shí)時(shí) 3D 物體檢測(cè)管道——MediaPipe Objectron。

該管道可以檢測(cè)2D圖像中的物體,然后通過(guò)機(jī)器學(xué)習(xí)模型估計(jì)物體的姿勢(shì)和大小,再在谷歌最新開(kāi)發(fā)的3D數(shù)據(jù)集上對(duì)模型進(jìn)行訓(xùn)練。

其中,MediaPipe 是一個(gè)開(kāi)源跨平臺(tái)框架,用于構(gòu)建管道來(lái)處理不同模式的感知數(shù)據(jù),而Objectron則是在MediaPipe中實(shí)現(xiàn),能夠在移動(dòng)設(shè)備中實(shí)時(shí)計(jì)算面向檢測(cè)物體的3D 邊框。

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

(雷鋒網(wǎng))

單個(gè)圖像的 3D 物體檢測(cè)。MediaPipe Objectron在移動(dòng)設(shè)備上實(shí)時(shí)確定日常對(duì)象的位置、方位和大小。

獲取現(xiàn)實(shí)世界 3D 訓(xùn)練數(shù)據(jù)

隨著依賴于激光雷達(dá)等 3D 捕獲傳感器的自動(dòng)駕駛汽車(chē)研究工作的日益普及,目前已有大量的街道場(chǎng)景 3D 數(shù)據(jù),然而針對(duì)更細(xì)粒度的日常物體的帶有真實(shí) 3D 標(biāo)注的數(shù)據(jù)集極度有限。

為了解決這一問(wèn)題,谷歌使用移動(dòng)增強(qiáng)現(xiàn)實(shí)會(huì)話數(shù)據(jù)開(kāi)發(fā)了一個(gè)新的數(shù)據(jù)管道。隨著ARCore 、ARKit等工具的出現(xiàn),數(shù)億部智能手機(jī)現(xiàn)在具備了AR 功能,能夠在 AR會(huì)話期間捕捉到額外的信息,包括攝像機(jī)姿勢(shì)、稀疏的3D點(diǎn)云、估計(jì)的照明和平面。為了標(biāo)注真實(shí)數(shù)據(jù),谷歌還開(kāi)發(fā)了能夠與AR會(huì)話數(shù)據(jù)一同使用的新標(biāo)注工具,讓標(biāo)注者可以快速地給物體標(biāo)注 3D 邊框。

該工具使用分屏視圖顯示 2D 視頻幀,其中左側(cè)放置3D邊框,右側(cè)顯示3D點(diǎn)云、攝像機(jī)位置和檢測(cè)到的平面視圖。標(biāo)注者以3D 視圖來(lái)繪制3D 邊框,并通過(guò)查看其在2D 視頻幀中的投影來(lái)檢驗(yàn)其位置。

針對(duì)靜態(tài)物體,只需要在單個(gè)幀中標(biāo)注物體,然后利用AR 對(duì)話數(shù)據(jù)中真實(shí)的攝像機(jī)姿勢(shì)信息將其位置傳送到所有幀中,從而提高整個(gè)流程的效率。

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

(雷鋒網(wǎng))

3D物體檢測(cè)的真實(shí)世界數(shù)據(jù)標(biāo)注。右圖:使用檢測(cè)到的平面和點(diǎn)云在3D 世界中標(biāo)注3D邊框。左圖:標(biāo)注的3D 邊框的投影覆蓋在視頻幀的頂部,從而使得驗(yàn)證標(biāo)注變得更簡(jiǎn)單。

AR 合成數(shù)據(jù)生成

在提高預(yù)測(cè)準(zhǔn)確性方面,現(xiàn)在常用的一種方法是使用合成數(shù)據(jù)來(lái)補(bǔ)充現(xiàn)實(shí)世界的數(shù)據(jù)。然而這種做法往往會(huì)產(chǎn)生質(zhì)量差、不現(xiàn)實(shí)的數(shù)據(jù),而在真實(shí)渲染的情況下,則需要進(jìn)行大量的嘗試和消耗計(jì)算成本。

谷歌提出的新方法,叫做AR 合成數(shù)據(jù)生成(AR Synthetic Data Generation),將虛擬物體放置到已有 AR 會(huì)話數(shù)據(jù)的場(chǎng)景中,可以利用攝像機(jī)姿勢(shì)、檢測(cè)到的平面以及估計(jì)的照明情況來(lái)生成物理世界中可能存在以及照明條件能夠與場(chǎng)景匹配的位置。

這種方法可以生成高質(zhì)量的合成數(shù)據(jù),并且渲染的物體不僅順應(yīng)場(chǎng)景幾何體,還能夠無(wú)縫匹配適應(yīng)現(xiàn)實(shí)場(chǎng)景。通過(guò)結(jié)合現(xiàn)實(shí)世界的數(shù)據(jù)和 AR 合成數(shù)據(jù),能夠提高約10%的準(zhǔn)確度。

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

(雷鋒網(wǎng))

AR合成數(shù)據(jù)生成的例子。虛擬的白棕色麥片盒被渲染到真實(shí)場(chǎng)景中,挨著一本真實(shí)的藍(lán)色書(shū)。

一個(gè)針對(duì)3D目標(biāo)檢測(cè)的機(jī)器學(xué)習(xí)Pipeline

谷歌建立了一個(gè)單級(jí)模型,能夠從RGB圖像中預(yù)測(cè)物體的姿態(tài)和物理大小。具體而言,模型的主干包含基于MobileNetv2構(gòu)建的編解碼器體系結(jié)構(gòu),并采用多任務(wù)學(xué)習(xí)方法通過(guò)檢測(cè)和回歸聯(lián)合預(yù)測(cè)目標(biāo)的形狀。形狀預(yù)測(cè)依賴數(shù)據(jù)標(biāo)注的質(zhì)量,如果數(shù)據(jù)中沒(méi)有形狀的標(biāo)注,那么此選項(xiàng)可以不選。

對(duì)于檢測(cè)任務(wù),使用標(biāo)注好的邊界框,并用高斯擬合。其中,中心在框的中間,標(biāo)準(zhǔn)差與框的大小成正比。檢測(cè)的目標(biāo)就是預(yù)測(cè)這種概率分布,其概率分布的峰值表示目標(biāo)的中心位置。

為了獲得邊界框的最終3D坐標(biāo),谷歌利用了一種完善的姿勢(shì)估計(jì)算法(EPnP),這個(gè)算法能夠在無(wú)需了解目標(biāo)大小的情況下,恢復(fù)目標(biāo)的3D 邊界框,只要有了3D邊界框,就可以輕松計(jì)算目標(biāo)的姿勢(shì)和大小。

下圖是模型的網(wǎng)絡(luò)架構(gòu)和后處理,經(jīng)驗(yàn)證模型可以輕松的在移動(dòng)設(shè)備上實(shí)時(shí)運(yùn)行,例如在Adreno 650移動(dòng)GPU上為26FPS。

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

圖注:3D目標(biāo)檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)和后處理

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

(雷鋒網(wǎng))

圖注:網(wǎng)絡(luò)樣本結(jié)果:左邊是帶有估計(jì)邊界框的原始2D圖像,中間是基于高斯分布的目標(biāo)檢測(cè)。右邊是預(yù)測(cè)分割掩碼。

在MediaPipe上檢測(cè)和跟蹤

讓模型實(shí)際應(yīng)用時(shí),由于針對(duì)的是移動(dòng)設(shè)備捕獲的每一幀,而這些幀的3D邊界框可能是模糊的,所以模型可能會(huì)被干擾。為了解決這一問(wèn)題,谷歌借鑒了其之前2D目標(biāo)檢測(cè)的方案,也即使用了之前的檢測(cè)+跟蹤框架。

此方案能夠減少模型在每一幀上運(yùn)行網(wǎng)絡(luò)的需要,允許重復(fù)使用,同時(shí)保持pipeline移動(dòng)設(shè)備上的實(shí)時(shí)更新。此外,還能跨幀保留目標(biāo)屬性,確保預(yù)測(cè)在時(shí)間上一致,從而。減少抖動(dòng)為了提高移動(dòng)設(shè)備pipeline,每隔幾幀只運(yùn)行一次模型推理。

另外,所采用的預(yù)測(cè)方法是實(shí)時(shí)運(yùn)動(dòng)跟蹤和運(yùn)動(dòng)靜止跟蹤的結(jié)合,當(dāng)做出新預(yù)測(cè)時(shí)候,會(huì)將檢測(cè)結(jié)果和跟蹤結(jié)果合并。為了鼓勵(lì)研究、開(kāi)發(fā)人員使用谷歌的pipeline建模,其將在MediaPipe Objectron上發(fā)布基于設(shè)備的實(shí)時(shí)3D目標(biāo)檢測(cè)的pipeline,內(nèi)容包括端到端的demo移動(dòng)應(yīng)用,以及兩類(lèi)訓(xùn)練模型,這兩類(lèi)訓(xùn)練模式是鞋子和椅子。

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

項(xiàng)目已經(jīng)開(kāi)源,下面附上Github地址和博客:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

你們還在做2D的物體檢測(cè)嗎?谷歌已經(jīng)開(kāi)始玩轉(zhuǎn) 3D 了

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)