0
本文作者: 付靜 | 2021-03-12 18:12 |
幾個月前,顯示屏霸主三星聯(lián)合首爾大學(xué),設(shè)計出了一款超薄交互式全息顯示屏。
只要按方向鍵,屏幕上的海龜立即就朝特定方向游起來了。
三星表示,這款顯示屏可以從多個角度提供高分辨率的、真實度極高的 3D 視頻,有朝一日還會集成到手機(jī)。
雷鋒網(wǎng)編輯本以為這已經(jīng)夠硬核了,沒想到的是,在索尼爸爸的支(資)持下,MIT 的一組研究人員宣稱已經(jīng)用手機(jī)生成了 3D 全息圖!
想要對一張圖片上的任意物體進(jìn)行對焦,只需短短幾毫秒。
2021 年 3 月 10 日,相關(guān)研究成果發(fā)表于 Nature,題為 Towards real-time photorealistic 3D holography with deep neural networks(利用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)逼真的實時三維全息)。
首先來了解一下所謂的「全息」。
本質(zhì)上,全息投影是一種 3D 技術(shù),英文名稱為 Holographic Projection,其中 holo 源于希臘語,意為“完全的信息”。
“完全的信息”要傳遞,需要下面這兩步:
拍攝:利用干涉原理(即:兩列或以上的波在空間中重疊時發(fā)生疊加,形成新的波形),將被攝物體在激光輻照下形成的物光束和射到全息底片上的激光參考光束進(jìn)行疊加,產(chǎn)生干涉并記錄下來。經(jīng)過一定處理后得到全息照片。
成像:利用衍射原理(即:波遇到障礙物時會偏離原來的直線傳播),利用相干激光照射全息圖,一張線性記錄的正弦型全息圖的衍射光波可給出兩個象,圖像的立體感增強(qiáng),也有了真實的視覺效果。
其原理可以這樣簡單理解:全息圖的每個像素上散射了光波,這些光波相互作用,就能產(chǎn)生一種深度上的錯覺,呈現(xiàn)出一種立體感。
基于此,全息投影又稱虛擬成像。
正如 IEEE Spectrum 所說:
全息圖本質(zhì)上就像一個觀察 3D 場景的 2D 窗口。
值得一提的是,人們在觀看 3D 全息圖像時不會覺得眼睛疲勞,這與傳統(tǒng)的 3D 顯示(使用 2D 圖像產(chǎn)生深度錯覺)不同。
即便三星已經(jīng)設(shè)計出了全息顯示屏,使得全息投影技術(shù)在硬件上有了重要突破,但不可否認(rèn),要在電子設(shè)備上顯示全息數(shù)據(jù),仍是一項重大挑戰(zhàn)。
IEEE Spectrum 表示,每個全息圖都意味著編碼大量的數(shù)據(jù),只有這樣才能打造出深度錯覺。因此,生成全息視頻通常需要一臺超算的算力。
此前就有科研團(tuán)隊嘗試過一些解決策略,希望減少所需的計算量,例如用簡單的查找表取代復(fù)雜的物理模擬——然而,這往往以犧牲圖像質(zhì)量為代價。
而 MIT 的思路則是設(shè)計卷積神經(jīng)網(wǎng)絡(luò)。
具體來講,他們打造了一種基于深度學(xué)習(xí)的 CGH(computer-generated holography,計算機(jī)生成全息術(shù),可通過對衍射和干涉的數(shù)值模擬實現(xiàn)高空間角度分辨率的三維投影)管道,該管道能夠從單一 RGB(注:工業(yè)界的一種顏色標(biāo)準(zhǔn),通過對紅(R)、綠(G)、藍(lán)(B)三色通道的變化及其相互間的疊加來得到各式各樣的顏色)深度圖像實時合成逼真的彩色 3D 全息圖。
研究團(tuán)隊使用了一系列可訓(xùn)練的張量來模擬人類處理視覺信息的過程,建立了一個包含著 4000 對(每一對都是一張 RGB 深度照片及其對應(yīng)的 3D 全息圖,如下圖所示)計算機(jī)生成圖像的數(shù)據(jù)庫。
最終,研究團(tuán)隊做到了在短短幾毫秒內(nèi)就能創(chuàng)建出無斑點(diǎn)、自然、高分辨率的 3D 全息圖。
據(jù)了解,卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)存不到 620 KB,能保證單個消費(fèi)級圖形處理單元平均每秒生成 60 幅分辨率 1920 × 1080 的全息圖。
利用低功耗的人工智能加速芯片,該卷積神經(jīng)網(wǎng)絡(luò)能在移動設(shè)備(在 iPhone 11 Pro 上每秒生成 1.1 張全息圖)和邊界設(shè)備(在谷歌 edge TPU 上每秒生成 2 張全息圖)上交互運(yùn)行。
MIT 的方法究竟有何重要意義,其實可以通過下面這個比喻來理解:
計算機(jī)生成全息圖的過程就像是在切蛋糕。
使用查找表生成全息圖,就像是在切蛋糕之前標(biāo)記每塊蛋糕的邊界一樣。使用物理模擬來計算空間中每個點(diǎn)的外觀,類似于用 8 次精確切割切出 8 塊蛋糕。盡管通過省掉計算切割位置的步驟可以省一些時間,但這依然是個耗時的大工程。而 MIT 利用深度學(xué)習(xí),本質(zhì)上實現(xiàn)了用 3 次精確切割就將蛋糕切成 8 塊。
未來,研究團(tuán)隊或許還將增添眼動追蹤技術(shù)加快系統(tǒng)運(yùn)行速度,這項成果后續(xù)也將在 VR、AR 耳機(jī)等領(lǐng)域中得到應(yīng)用。
該論文來自 MIT 計算機(jī)科學(xué)與人工智能實驗室(CSAIL)& 電子工程與計算機(jī)科學(xué)系,通訊作者為 Liang Shi 和 Wojciech Matusik。
雷鋒網(wǎng)注意到,Wojciech Matusik 為 MIT CSAIL & 電子工程與計算機(jī)科學(xué)系教授。
Wojciech Matusik 教授主要研究領(lǐng)域為計算機(jī)圖形學(xué)、計算設(shè)計和制造。他于 1997 年獲加州大學(xué)伯克利分校 EECS(電子工程與計算機(jī)科學(xué))學(xué)士學(xué)位,于 2001 年獲 MIT EECS 碩士學(xué)位,于 2013 年獲 MIT 計算機(jī)圖形學(xué)博士學(xué)位。
對于上述研究,Wojciech Matusik 教授表示:
這是一個巨大的飛躍,它可以完全改變?nèi)藗儗θ⑿g(shù)的態(tài)度。我們覺得神經(jīng)網(wǎng)絡(luò)就是為此而生的。
另外論文一作為 Liang Shi(史亮)。
他是由 Wojciech Matusik 教授指導(dǎo)的一名在讀博士生,2014 年于北京航空航天大學(xué)獲得光電子工程學(xué)士學(xué)位,2016 年于斯坦福大學(xué)獲得電子工程碩士學(xué)位,主要研究領(lǐng)域包括 VR/AR、計算攝影/顯示/制作、機(jī)器學(xué)習(xí)和計算機(jī)圖形學(xué)。
引用來源:
https://www.nature.com/articles/s41586-020-03152-0
https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram
https://cdfg.csail.mit.edu/wojciech
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。