1
本文作者: Deeperblue | 2016-09-18 15:24 |
雷鋒網(wǎng)注:本文由Deeperblue發(fā)布雷鋒網(wǎng)。
在百度上搜索 “VR 寒冬” 有 1,660,000 個結果。
《資本變臉:6 個月,VR 從狂歡到慘淡》(極客公園, 2016 年 09 月 07 日),《吸引了無數(shù)資本和創(chuàng)業(yè)者的 VR 行業(yè),似乎已進入寒冬》(中國企業(yè)家,2016 年 08 月 26 日),《 VR 創(chuàng)業(yè)公司的寒冬來了?聽聽資本大咖怎么說!》(網(wǎng)易新聞,2016 年 05 月 27日),《小心被套! VR 將迎來寒冬》(搜狐新聞,2016 年 05 月 11 日)……
人們猶記得 2015 年下半年到 2016 年年初的 VR 熱:從創(chuàng)業(yè)者到投資人,大家都對 VR 有著無限的熱情與希望。而從計算機背景出生轉行做 VR 的人真不在少數(shù):他們正是看準了這塊 “熱土”, 從大公司走出,一頭鉆進 VR 行業(yè)。
行業(yè)缺少優(yōu)質標的,關鍵性技術節(jié)點遠未突破,VR 如同一個牙牙學語的嬰兒,尚在襁褓之中,遠未成熟。與其說 VR 凜冬已到,不如說之前的泡沫正在合理地被擠破。
這里的 “關鍵性技術節(jié)點” 其中之一,就是空間音頻技術。在今天,人們更愿意叫它 3D 音頻。
蘋果音樂和 VR 工作室 Vrse 聯(lián)手為 U2 樂隊制作了一段 VR 音樂視頻《Song for Someone》。圖為 MV 片段中 U2 在空無一人的多倫多體育場的演唱。
正如著名 VR 制作公司 Jaunt 的音頻首席工程師亞當·桑默(Adam Somers)說的:“(在 VR 這件事上面),聽覺占了五成,視覺占剩下五成?!?/p>
聽覺決定了人類對空間的定位、對物體距離的感知等等。視覺給出一個線索,聽覺則去證實這個線索是否真實存在。如果少了視覺的沉浸感,那么一切畫面的真實性就蕩然無存。不解決聽覺問題,虛擬現(xiàn)實就不能成為虛擬現(xiàn)實??梢赃@么說,3D 音頻決定了我們念叨著的 VR 時代是否真正到來。
什么是 3D 音頻?簡單來說,3D 音頻是對聲音最逼真的模擬技術,能讓聽眾完全還原到與現(xiàn)場相似的聲場。類似的叫法還有全景聲方案、Immersive Audio(沉浸式音頻)。你能到完全聽到逼真到 “現(xiàn)實” 的聲音,而不是 “現(xiàn)實主義” 的。
目前世界范圍內最成熟的空間音頻制作公司之一,VisiSonics 的創(chuàng)始人之一拉瑪尼 · 杜瑞斯沃米(Ramani Duraiswami)有一句話:“當你聽到的聲音是極度真實的時候,耳機就消失了?!?/p>
人耳對聲音信號有一套自己的分析系統(tǒng),來得以對聲音進行分析與定位。從空間任意一點傳到人耳(鼓膜前)的信號都可以用一個濾波系統(tǒng)來描述,音源+濾波器(傳遞函數(shù))得到的就是聲音到達兩耳鼓膜前的信號。
HRTF 圖示
人耳對聲音信號有一套自己的分析系統(tǒng),來得以對聲音進行分析與定位。
我們不必關心聲音是如何傳遞到雙耳的,而只需要知道:音源與到達我們雙耳之前的信號是有差別的;并且我們的左耳和右耳聽到的聲音是不一樣的。這可能是源于我們的進化,視覺沒有辦法在黑夜中定位,而耳朵可以通過左右耳的聲音不同,進行定位與防御。
這個濾波器(傳遞函數(shù))叫 HRTF ( head-related transfer function )。如果我們有空間所有方位到雙耳的濾波器組,就能得到一個濾波矩陣,從而還原來自整個空間方位的聲音信號。
HRTF 是極具個人性的。每個人成長中都會形成一套自己對聽力的感知。并且,我們每個人的頭部大小不一樣、耳間距不一樣,耳朵的輪廓、里面的旋渦狀也不一樣。加上,我們在成長當中養(yǎng)成了自己獨特的聽力習慣??梢赃@么說,每個人聽到的同樣物體發(fā)出的聲音,其實都有細微差別。
科學家對此的探索不是今天的新事。在將近一個世紀之前,1933 年,AT&T 貝爾實驗室就把這項技術帶到了芝加哥世博會上。這家公司的人聲研究部做了一個機械化的仿真人頭——他們把這個假人取名叫 “Oscar”。Oscar 的耳朵里裝上了兩個麥克風,坐在展示房間中,錄取周圍的聲音。Oscar 聽到什么,他就能錄到什么。
AT&T 貝爾實驗室提供的解決方案叫做雙耳錄音技術(Binaural Audio)。
雙耳錄音技術模擬人類真正的頭部的形狀、左右耳的耳間距,可以收錄到近乎于真正的人類聽到的聲音。這是一種有效的“笨方法”,物理層面上即還原了 HRTF。沿著這條路徑,德國麥克風公司紐曼 (Neumann) 在 1973 年到 1992 年間,連續(xù)在雙耳錄音技術上做出了各種突破——更好的收音設備、把麥克風放置于仿真假人耳內鼓膜上等等。
1933年,AT&T實驗室的雙耳錄音技術仿真人,Oscar
雙耳錄音技術在這個世紀中一直處于緩慢的速度發(fā)展,原因在于,沒有強大的產(chǎn)業(yè)需求。一直等到這一波 VR 熱潮的來臨,它才重上舞臺。 由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 帶來的 VR 普及,3D 音頻技術迎來了它的 “文藝復興” ——于是它又被稱作了 VR 音頻。
VR 需要有 3D 音頻才能產(chǎn)生更真實的沉浸感。Jaunt 的音頻首席工程師 Adam Somers 在接受 THE VERGE 采訪時這樣描述:“在沉浸感這件事上面,聽覺占了五成,視覺占剩下五成?!?/p>
Jaunt 是美國著名的 VR 制作公司,去年得到上海華人文化產(chǎn)業(yè)基金(CMC)與迪斯尼的 6500 萬美金投資。
然而,雙耳錄音技術本身不能支持收聽的時候轉動頭部。玩家在玩 VR 游戲的時候,如果有聲音從后面?zhèn)鱽?,人的本能反應是轉頭向后看。這時候如果聲音繼續(xù)在你的前方,那么會大大降低沉浸感。
另一種還原真實聲場的技術也不能支持收聽的時候轉動頭部,叫環(huán)繞立體聲 ( surround audio ) 。環(huán)繞立體聲用多個物理揚聲器來打造一個 360 度的聲場,來自不同方向的聲音通過不同的音箱/揚聲器來播放。該項技術最著名的公司是 DTS 和杜比(Dolby)。
比如一家環(huán)繞立體聲影院,它會在觀眾的周圍放置很多音箱/揚聲器。如果畫面左邊出現(xiàn)了爆炸,那么左邊的音箱會發(fā)出聲響,而不是右邊。由于播放器的位置固定,聽眾只有在固定的點,才能聽到模擬得最真實的聲場。
真正的沉浸體驗,來自于高中低音頻在空間內全方位的還原,即以人頭為中心收錄一個球形內所有角度的聲音,并進行還原。
計算成為了重中之重。
在雙耳錄音技術取到的聲音之后,還原 HRTF,然后進行計算,把各個方向的 HRTF 還原,才能合成一套隨著轉頭、位置移動聲場自然發(fā)生變化的空間音頻。
在這三個環(huán)節(jié)中——收音、錄音;計算、渲染 ( processing, rendering ) ;回放——技術壁壘最強的地方在于計算環(huán)節(jié)。
核心算法是考驗各家空間音頻公司的能力指標。Two Big Ears 的公司廣告語說明了一切:"We do mathematics so you can focus on being awesome."(我們做數(shù)學,你來好好做酷的事情。)這家位于愛爾蘭的公司目前在空間音頻技術上處于領先地位。
有些團隊則為了減輕計算量,用了一些比較笨的辦法。比如 3dio,他們創(chuàng)造出收音設備,可以盡可能地在同一時間錄到各個方向的 HRTF 。
3dio 公司生產(chǎn)的四對仿真人耳的收音設備
The Verge 在短片 Hear New York in 3D Audio 中展示他們所用的收音設備——仿真人耳,這個收音設備能夠模擬聲音在耳朵這種獨特物理結構下的的傳輸過程,進而重現(xiàn)紐約街頭的實景聲音。
通常,三個指標可以用來判斷一家公司 3D 音頻核心算法技術水平:
1. Localization : 指的是聲音的定位。環(huán)繞立體聲對于聲音的平面 360 度有較好的模擬效果,而對于上下 360 度則難以模擬。VR 音頻的難點也在于做出上下 360 度的聲音模擬。能做到上下逼真的則技術更為先進。
2. Propagation : 聲音在封閉空間中,不是只傳輸一次,而是有無數(shù)次的反射(bounce back),我們可以用回音來理解。Propagation 用來描述是否能讓用戶感覺到自己的確在一個真實的空間中,這種真實感越強越好。
3. Occlusion : 聲音在傳輸過程中,如果中間有一個障礙物,這個障礙物會對聲音的傳播產(chǎn)生影響。如果一個 VR 音頻技術可以對障礙物對于聲音的影響模擬得很好,則是一個做得好的 VR 音頻。
除去以上三點,目前空間音頻最前沿的解決方案是 Ambisonic 技術。于是,能不能做 Ambisonic 也是判斷一家公司技術高低的指標。
Ambisonic 同樣是一種聲場模擬手段,但它更考驗團隊物理、數(shù)學和計算機的綜合能力。如果我們把空間中某一個接收聲音的位置想象成一個充著氣的氣球,那么空間中各處傳來的聲波會對這只氣球表面產(chǎn)生作用力。
Ambisonic 利用這個簡單道理,在空間中擺放一堆揚聲器,來模擬對應現(xiàn)實情況下各處聲波對這只氣球的作用力,然后計算,還原 HRTF。
通過 Ambisonic 得到的音頻數(shù)據(jù),是最全面的數(shù)據(jù),它可以降解到任何其他音頻格式。打個比方,Ambisonic 如果是圖像中的 jpg , 則杜比 7.0 、杜比 5.1 等等音頻格式相當于像素。
3D 音頻技術勢必會改變所有的應用場景。整個空間音頻產(chǎn)業(yè)有兩個機會:
第一個機會是做音頻引擎 ( audio engine ),其核心在于 HRTF 函數(shù)、Propagation 等技術,即如何在游戲里盡可能逼真地還原出立體聲來。目前簡單的做法是,在 VR 游戲中放置不同的虛擬音箱,并配合 Oculus Audio SDK ( 實現(xiàn)了 HRTF 以及其他效果,包括 reflection 等),就可以實現(xiàn)空間音頻。
而不簡單的做法有很多,需要團隊具有強大的計算能力,成立于 2013 年愛丁堡的 Two Big Ears 是其中翹楚。他們所做的 plug-in 可能是目前行業(yè)中技術最好的 plug-in 之一。
第二個機會是實現(xiàn) 3D 音頻在現(xiàn)實生活中的運用,即怎么配合全景視頻錄制帶多個角度的 VR 音頻。這樣用戶觀看全景視頻的時候如果轉頭,聲音會進行動態(tài)調整。就應用場景來說,對于虛擬演唱會,3D音頻技術尤其重要。
從目前整個全球市場來考量,3D 音頻由于其自身技術難度,還沒有出現(xiàn)提供完美解決方案的公司與團隊,大牌音頻公司 DTS 所做的技術已經(jīng)比較接近,但最終版本仍沒有公之于眾,并且面臨著價格極高的可能性。
以下這張圖列舉了世界范圍內,最被關注的七家 3D 音頻技術團隊:
VisiSonics:
VisiSonic 起步最早,團隊來自美國馬里蘭大學的實驗室,2015年10月與 Oculus 達成合作。Oculus 購買了他們的技術,叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他們設計出了一個 3D 音頻視頻同步錄制的設備,由一個柱型加頂部球型裝置組成,球型裝置上有 64 個麥克風。硬件層面上,技術拔尖并保持世界領先地位。
Two Big Ears:
位于蘇格蘭愛丁堡的團隊,最近剛剛被 Facebook 收購。他們的核心技術是做 3D 音頻引擎,名字叫做 3Dception 。就 plug-in 層面上來講,這支團隊是目前世界范圍內技術最好的團隊。在被 Facebook 收購前,據(jù)傳HTC Vive 音頻的計算渲染用的就是這支團隊。
3dio sound:
這家公司是目前市面上可見的空間音頻收音錄制領域最好的公司。他們出品了有八個耳朵的收音裝置。
Thrive Audio:
這家公司與 Tilt Brush 一同被 Google 收購,屬于 Google VR 戰(zhàn)略布局的一部分。團隊來自愛爾蘭的都柏林圣三一學院。他們聲稱已經(jīng)申請了兩個專利。
Mint Muse:
一支之前在美國圣地亞哥、最近剛剛搬遷到上海的團隊。主創(chuàng)團隊來自高通。他們主攻渲染質量、算法優(yōu)化、時延等領域,設計制作空間音頻后期制作、coding 以及軟件插件工具,目前不涉及硬件生產(chǎn)。這支團隊面向的解決人群是錄音師,他們正在開發(fā)一款專業(yè) VR 全景聲調音軟件,讓調音師可以在編輯全景聲過程中實時監(jiān)聽成品效果,簡化整個工作流。
Waves:
這是一家位于以色列的空間音頻技術公司,之前做專業(yè) studio 的工具,比如插件與音效,是很多著名 studio 的合作伙伴,如 Abbey Road 。
Impulsonic:
一支孵化于美國北卡羅來納大學計算機系的團隊。主要針對 VR 游戲與應用的 3D 音頻開發(fā),產(chǎn)品叫 Phonon。成立于 2012 年。創(chuàng)始人阿尼什 · 錢達克(Anish Chandak)博士說創(chuàng)立之初他的想法就非常簡單:“幫助游戲設計師與開發(fā)者更容易做出高質量的空間音頻?!?大部分收入來自于 Phonon 的 license 收入。他們去年接受美國國家科學基金的投資,研究同時應用于一些政府項目。
大部分做 VR 游戲的工作室還沒有開始大規(guī)模使用 3D 音頻技術——原因主要是 “窮”。既然“寒冬” 來了,那么也就更窮了。事實上,這些沒有好內容的游戲工作室還用著環(huán)繞立體聲技術;只有少數(shù)極客風格的工作室開始應用一些空間音頻技術。3D 音頻技術仍舊是一件挺前沿的事兒。
然而,3D 音頻對于整個 VR 產(chǎn)業(yè)來講,是基礎的技術性板塊。
擁有核心技術,才可能在應用層面上等待下一個突破點。做無人機的大疆(DJI)就是一個例子,早在無人機變成商業(yè)模式之前,大疆的主創(chuàng)團隊已經(jīng)在飛行控制這一個技術點上做了長時間的研究與努力。
如果 VR 終有一天值得每一個用戶去花時間使用,那么它勢必在技術方方面面上已經(jīng)成熟到可以 “沉浸式體驗” 的時候。
等待回春,先從 3D 音頻開始。
參考文獻:
i. Rumsey, Francis (2001). Spatial Audio. Focal Press.pp. 62–64. ISBN 0 240 51623 0.
ii. Blauert, J. (1997) Spatial hearing:the psychophysics of human sound localization. MIT Press.
iii. Begault, D.R. (1994) 3D sound forvirtual reality and multimedia. AP Professional.
iv. Eric Benjamin, Richard Lee, andAaron Heller, Is My Decoder Ambisonic?, 125th AESConvention, San Francisco 2008
v. https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-env-modeling
雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關注)注:本文為deeperblue授權雷鋒網(wǎng)發(fā)布,轉載可聯(lián)系微信:295513406。不得刪減內容。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。