如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

本文作者： Deeperblue

2016-09-18 15:24

導(dǎo)語(yǔ)：人們說(shuō)：VR 的寒冬來(lái)了。核心技術(shù)瓶頸突破之前，VR 還將在泡沫收縮過(guò)后進(jìn)行理智思考。而 3D 音頻，作為 VR 產(chǎn)業(yè)的關(guān)鍵性技術(shù)節(jié)點(diǎn)，值得在今天被關(guān)注。

雷鋒網(wǎng)注：本文由Deeperblue發(fā)布雷鋒網(wǎng)。

在百度上搜索 “VR 寒冬” 有 1,660,000 個(gè)結(jié)果。

《資本變臉：6 個(gè)月，VR 從狂歡到慘淡》（極客公園， 2016 年 09 月 07 日），《吸引了無(wú)數(shù)資本和創(chuàng)業(yè)者的 VR 行業(yè)，似乎已進(jìn)入寒冬》（中國(guó)企業(yè)家，2016 年 08 月 26 日），《 VR 創(chuàng)業(yè)公司的寒冬來(lái)了？聽(tīng)聽(tīng)資本大咖怎么說(shuō)！》（網(wǎng)易新聞，2016 年 05 月 27日），《小心被套！ VR 將迎來(lái)寒冬》（搜狐新聞，2016 年 05 月 11 日）……

人們猶記得 2015 年下半年到 2016 年年初的 VR 熱：從創(chuàng)業(yè)者到投資人，大家都對(duì) VR 有著無(wú)限的熱情與希望。而從計(jì)算機(jī)背景出生轉(zhuǎn)行做 VR 的人真不在少數(shù)：他們正是看準(zhǔn)了這塊 “熱土”，從大公司走出，一頭鉆進(jìn) VR 行業(yè)。

行業(yè)缺少優(yōu)質(zhì)標(biāo)的，關(guān)鍵性技術(shù)節(jié)點(diǎn)遠(yuǎn)未突破，VR 如同一個(gè)牙牙學(xué)語(yǔ)的嬰兒，尚在襁褓之中，遠(yuǎn)未成熟。與其說(shuō) VR 凜冬已到，不如說(shuō)之前的泡沫正在合理地被擠破。

這里的 “關(guān)鍵性技術(shù)節(jié)點(diǎn)” 其中之一，就是空間音頻技術(shù)。在今天，人們更愿意叫它 3D 音頻。

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

蘋果音樂(lè)和 VR 工作室 Vrse 聯(lián)手為 U2 樂(lè)隊(duì)制作了一段 VR 音樂(lè)視頻《Song for Someone》。圖為 MV 片段中 U2 在空無(wú)一人的多倫多體育場(chǎng)的演唱。

正如著名 VR 制作公司 Jaunt 的音頻首席工程師亞當(dāng)·桑默（Adam Somers）說(shuō)的：“（在 VR 這件事上面），聽(tīng)覺(jué)占了五成，視覺(jué)占剩下五成?！?/p>

聽(tīng)覺(jué)決定了人類對(duì)空間的定位、對(duì)物體距離的感知等等。視覺(jué)給出一個(gè)線索，聽(tīng)覺(jué)則去證實(shí)這個(gè)線索是否真實(shí)存在。如果少了視覺(jué)的沉浸感，那么一切畫(huà)面的真實(shí)性就蕩然無(wú)存。不解決聽(tīng)覺(jué)問(wèn)題，虛擬現(xiàn)實(shí)就不能成為虛擬現(xiàn)實(shí)?？梢赃@么說(shuō)，3D 音頻決定了我們念叨著的 VR 時(shí)代是否真正到來(lái)。

首先科普一下3D音頻

什么是 3D 音頻？簡(jiǎn)單來(lái)說(shuō)，3D 音頻是對(duì)聲音最逼真的模擬技術(shù)，能讓聽(tīng)眾完全還原到與現(xiàn)場(chǎng)相似的聲場(chǎng)。類似的叫法還有全景聲方案、Immersive Audio（沉浸式音頻）。你能到完全聽(tīng)到逼真到 “現(xiàn)實(shí)” 的聲音，而不是 “現(xiàn)實(shí)主義” 的。

目前世界范圍內(nèi)最成熟的空間音頻制作公司之一，VisiSonics 的創(chuàng)始人之一拉瑪尼 · 杜瑞斯沃米（Ramani Duraiswami）有一句話：“當(dāng)你聽(tīng)到的聲音是極度真實(shí)的時(shí)候，耳機(jī)就消失了?！?/p>

人耳對(duì)聲音信號(hào)有一套自己的分析系統(tǒng)，來(lái)得以對(duì)聲音進(jìn)行分析與定位。從空間任意一點(diǎn)傳到人耳（鼓膜前）的信號(hào)都可以用一個(gè)濾波系統(tǒng)來(lái)描述，音源+濾波器（傳遞函數(shù)）得到的就是聲音到達(dá)兩耳鼓膜前的信號(hào)。

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

HRTF 圖示

人耳對(duì)聲音信號(hào)有一套自己的分析系統(tǒng)，來(lái)得以對(duì)聲音進(jìn)行分析與定位。

我們不必關(guān)心聲音是如何傳遞到雙耳的，而只需要知道：音源與到達(dá)我們雙耳之前的信號(hào)是有差別的；并且我們的左耳和右耳聽(tīng)到的聲音是不一樣的。這可能是源于我們的進(jìn)化，視覺(jué)沒(méi)有辦法在黑夜中定位，而耳朵可以通過(guò)左右耳的聲音不同，進(jìn)行定位與防御。

這個(gè)濾波器（傳遞函數(shù)）叫 HRTF ( head-related transfer function )。如果我們有空間所有方位到雙耳的濾波器組，就能得到一個(gè)濾波矩陣，從而還原來(lái)自整個(gè)空間方位的聲音信號(hào)。

HRTF 是極具個(gè)人性的。每個(gè)人成長(zhǎng)中都會(huì)形成一套自己對(duì)聽(tīng)力的感知。并且，我們每個(gè)人的頭部大小不一樣、耳間距不一樣，耳朵的輪廓、里面的旋渦狀也不一樣。加上，我們?cè)诔砷L(zhǎng)當(dāng)中養(yǎng)成了自己獨(dú)特的聽(tīng)力習(xí)慣。可以這么說(shuō)，每個(gè)人聽(tīng)到的同樣物體發(fā)出的聲音，其實(shí)都有細(xì)微差別。

如何還原人耳真實(shí)聽(tīng)到的聲音？

科學(xué)家對(duì)此的探索不是今天的新事。在將近一個(gè)世紀(jì)之前，1933 年，AT&T 貝爾實(shí)驗(yàn)室就把這項(xiàng)技術(shù)帶到了芝加哥世博會(huì)上。這家公司的人聲研究部做了一個(gè)機(jī)械化的仿真人頭——他們把這個(gè)假人取名叫 “Oscar”。Oscar 的耳朵里裝上了兩個(gè)麥克風(fēng)，坐在展示房間中，錄取周圍的聲音。Oscar 聽(tīng)到什么，他就能錄到什么。

AT&T 貝爾實(shí)驗(yàn)室提供的解決方案叫做雙耳錄音技術(shù)（Binaural Audio）。

雙耳錄音技術(shù)模擬人類真正的頭部的形狀、左右耳的耳間距，可以收錄到近乎于真正的人類聽(tīng)到的聲音。這是一種有效的“笨方法”，物理層面上即還原了 HRTF。沿著這條路徑，德國(guó)麥克風(fēng)公司紐曼 (Neumann) 在 1973 年到 1992 年間，連續(xù)在雙耳錄音技術(shù)上做出了各種突破——更好的收音設(shè)備、把麥克風(fēng)放置于仿真假人耳內(nèi)鼓膜上等等。

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

1933年，AT&T實(shí)驗(yàn)室的雙耳錄音技術(shù)仿真人，Oscar

雙耳錄音技術(shù)在這個(gè)世紀(jì)中一直處于緩慢的速度發(fā)展，原因在于，沒(méi)有強(qiáng)大的產(chǎn)業(yè)需求。一直等到這一波 VR 熱潮的來(lái)臨，它才重上舞臺(tái)。由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 帶來(lái)的 VR 普及，3D 音頻技術(shù)迎來(lái)了它的 “文藝復(fù)興” ——于是它又被稱作了 VR 音頻。

3D 音頻技術(shù)到底難在哪兒？

VR 需要有 3D 音頻才能產(chǎn)生更真實(shí)的沉浸感。Jaunt 的音頻首席工程師 Adam Somers 在接受 THE VERGE 采訪時(shí)這樣描述：“在沉浸感這件事上面，聽(tīng)覺(jué)占了五成，視覺(jué)占剩下五成?！?/p>

Jaunt 是美國(guó)著名的 VR 制作公司，去年得到上海華人文化產(chǎn)業(yè)基金（CMC）與迪斯尼的 6500 萬(wàn)美金投資。

然而，雙耳錄音技術(shù)本身不能支持收聽(tīng)的時(shí)候轉(zhuǎn)動(dòng)頭部。玩家在玩 VR 游戲的時(shí)候，如果有聲音從后面?zhèn)鱽?lái)，人的本能反應(yīng)是轉(zhuǎn)頭向后看。這時(shí)候如果聲音繼續(xù)在你的前方，那么會(huì)大大降低沉浸感。

另一種還原真實(shí)聲場(chǎng)的技術(shù)也不能支持收聽(tīng)的時(shí)候轉(zhuǎn)動(dòng)頭部，叫環(huán)繞立體聲 ( surround audio ) 。環(huán)繞立體聲用多個(gè)物理?yè)P(yáng)聲器來(lái)打造一個(gè) 360 度的聲場(chǎng)，來(lái)自不同方向的聲音通過(guò)不同的音箱/揚(yáng)聲器來(lái)播放。該項(xiàng)技術(shù)最著名的公司是 DTS 和杜比（Dolby）。

比如一家環(huán)繞立體聲影院，它會(huì)在觀眾的周圍放置很多音箱/揚(yáng)聲器。如果畫(huà)面左邊出現(xiàn)了爆炸，那么左邊的音箱會(huì)發(fā)出聲響，而不是右邊。由于播放器的位置固定，聽(tīng)眾只有在固定的點(diǎn)，才能聽(tīng)到模擬得最真實(shí)的聲場(chǎng)。

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

真正的沉浸體驗(yàn)，來(lái)自于高中低音頻在空間內(nèi)全方位的還原，即以人頭為中心收錄一個(gè)球形內(nèi)所有角度的聲音，并進(jìn)行還原。

如何解決沉浸體驗(yàn)這個(gè)問(wèn)題？

計(jì)算成為了重中之重。

在雙耳錄音技術(shù)取到的聲音之后，還原 HRTF，然后進(jìn)行計(jì)算，把各個(gè)方向的 HRTF 還原，才能合成一套隨著轉(zhuǎn)頭、位置移動(dòng)聲場(chǎng)自然發(fā)生變化的空間音頻。

在這三個(gè)環(huán)節(jié)中——收音、錄音；計(jì)算、渲染 ( processing, rendering ) ；回放——技術(shù)壁壘最強(qiáng)的地方在于計(jì)算環(huán)節(jié)。

核心算法是考驗(yàn)各家空間音頻公司的能力指標(biāo)。Two Big Ears 的公司廣告語(yǔ)說(shuō)明了一切："We do mathematics so you can focus on being awesome."（我們做數(shù)學(xué)，你來(lái)好好做酷的事情。）這家位于愛(ài)爾蘭的公司目前在空間音頻技術(shù)上處于領(lǐng)先地位。

有些團(tuán)隊(duì)則為了減輕計(jì)算量，用了一些比較笨的辦法。比如 3dio，他們創(chuàng)造出收音設(shè)備，可以盡可能地在同一時(shí)間錄到各個(gè)方向的 HRTF 。

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

3dio 公司生產(chǎn)的四對(duì)仿真人耳的收音設(shè)備

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

The Verge 在短片 Hear New York in 3D Audio 中展示他們所用的收音設(shè)備——仿真人耳，這個(gè)收音設(shè)備能夠模擬聲音在耳朵這種獨(dú)特物理結(jié)構(gòu)下的的傳輸過(guò)程，進(jìn)而重現(xiàn)紐約街頭的實(shí)景聲音。

通常，三個(gè)指標(biāo)可以用來(lái)判斷一家公司 3D 音頻核心算法技術(shù)水平：

1. Localization : 指的是聲音的定位。環(huán)繞立體聲對(duì)于聲音的平面 360 度有較好的模擬效果，而對(duì)于上下 360 度則難以模擬。VR 音頻的難點(diǎn)也在于做出上下 360 度的聲音模擬。能做到上下逼真的則技術(shù)更為先進(jìn)。

2. Propagation : 聲音在封閉空間中，不是只傳輸一次，而是有無(wú)數(shù)次的反射(bounce back)，我們可以用回音來(lái)理解。Propagation 用來(lái)描述是否能讓用戶感覺(jué)到自己的確在一個(gè)真實(shí)的空間中，這種真實(shí)感越強(qiáng)越好。

3. Occlusion : 聲音在傳輸過(guò)程中，如果中間有一個(gè)障礙物，這個(gè)障礙物會(huì)對(duì)聲音的傳播產(chǎn)生影響。如果一個(gè) VR 音頻技術(shù)可以對(duì)障礙物對(duì)于聲音的影響模擬得很好，則是一個(gè)做得好的 VR 音頻。

除去以上三點(diǎn)，目前空間音頻最前沿的解決方案是 Ambisonic 技術(shù)。于是，能不能做 Ambisonic 也是判斷一家公司技術(shù)高低的指標(biāo)。

Ambisonic 同樣是一種聲場(chǎng)模擬手段，但它更考驗(yàn)團(tuán)隊(duì)物理、數(shù)學(xué)和計(jì)算機(jī)的綜合能力。如果我們把空間中某一個(gè)接收聲音的位置想象成一個(gè)充著氣的氣球，那么空間中各處傳來(lái)的聲波會(huì)對(duì)這只氣球表面產(chǎn)生作用力。

Ambisonic 利用這個(gè)簡(jiǎn)單道理，在空間中擺放一堆揚(yáng)聲器，來(lái)模擬對(duì)應(yīng)現(xiàn)實(shí)情況下各處聲波對(duì)這只氣球的作用力，然后計(jì)算，還原 HRTF。

通過(guò) Ambisonic 得到的音頻數(shù)據(jù)，是最全面的數(shù)據(jù)，它可以降解到任何其他音頻格式。打個(gè)比方，Ambisonic 如果是圖像中的 jpg , 則杜比 7.0 、杜比 5.1 等等音頻格式相當(dāng)于像素。

如何評(píng)價(jià) 3D 音頻技術(shù)的行業(yè)現(xiàn)狀？

3D 音頻技術(shù)勢(shì)必會(huì)改變所有的應(yīng)用場(chǎng)景。整個(gè)空間音頻產(chǎn)業(yè)有兩個(gè)機(jī)會(huì)：

第一個(gè)機(jī)會(huì)是做音頻引擎 ( audio engine )，其核心在于 HRTF 函數(shù)、Propagation 等技術(shù)，即如何在游戲里盡可能逼真地還原出立體聲來(lái)。目前簡(jiǎn)單的做法是，在 VR 游戲中放置不同的虛擬音箱，并配合 Oculus Audio SDK ( 實(shí)現(xiàn)了 HRTF 以及其他效果，包括 reflection 等），就可以實(shí)現(xiàn)空間音頻。

而不簡(jiǎn)單的做法有很多，需要團(tuán)隊(duì)具有強(qiáng)大的計(jì)算能力，成立于 2013 年愛(ài)丁堡的 Two Big Ears 是其中翹楚。他們所做的 plug-in 可能是目前行業(yè)中技術(shù)最好的 plug-in 之一。

第二個(gè)機(jī)會(huì)是實(shí)現(xiàn) 3D 音頻在現(xiàn)實(shí)生活中的運(yùn)用，即怎么配合全景視頻錄制帶多個(gè)角度的 VR 音頻。這樣用戶觀看全景視頻的時(shí)候如果轉(zhuǎn)頭，聲音會(huì)進(jìn)行動(dòng)態(tài)調(diào)整。就應(yīng)用場(chǎng)景來(lái)說(shuō)，對(duì)于虛擬演唱會(huì)，3D音頻技術(shù)尤其重要。

從目前整個(gè)全球市場(chǎng)來(lái)考量，3D 音頻由于其自身技術(shù)難度，還沒(méi)有出現(xiàn)提供完美解決方案的公司與團(tuán)隊(duì)，大牌音頻公司 DTS 所做的技術(shù)已經(jīng)比較接近，但最終版本仍沒(méi)有公之于眾，并且面臨著價(jià)格極高的可能性。

以下這張圖列舉了世界范圍內(nèi)，最被關(guān)注的七家 3D 音頻技術(shù)團(tuán)隊(duì)：

如果沒(méi)有它，VR 注定是場(chǎng) “鬧劇”

VisiSonics：

VisiSonic 起步最早，團(tuán)隊(duì)來(lái)自美國(guó)馬里蘭大學(xué)的實(shí)驗(yàn)室，2015年10月與 Oculus 達(dá)成合作。Oculus 購(gòu)買了他們的技術(shù)，叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他們?cè)O(shè)計(jì)出了一個(gè) 3D 音頻視頻同步錄制的設(shè)備，由一個(gè)柱型加頂部球型裝置組成，球型裝置上有 64 個(gè)麥克風(fēng)。硬件層面上，技術(shù)拔尖并保持世界領(lǐng)先地位。

Two Big Ears：

位于蘇格蘭愛(ài)丁堡的團(tuán)隊(duì)，最近剛剛被 Facebook 收購(gòu)。他們的核心技術(shù)是做 3D 音頻引擎，名字叫做 3Dception 。就 plug-in 層面上來(lái)講，這支團(tuán)隊(duì)是目前世界范圍內(nèi)技術(shù)最好的團(tuán)隊(duì)。在被 Facebook 收購(gòu)前，據(jù)傳HTC Vive 音頻的計(jì)算渲染用的就是這支團(tuán)隊(duì)。

3dio sound：

這家公司是目前市面上可見(jiàn)的空間音頻收音錄制領(lǐng)域最好的公司。他們出品了有八個(gè)耳朵的收音裝置。

Thrive Audio：

這家公司與 Tilt Brush 一同被 Google 收購(gòu)，屬于 Google VR 戰(zhàn)略布局的一部分。團(tuán)隊(duì)來(lái)自愛(ài)爾蘭的都柏林圣三一學(xué)院。他們聲稱已經(jīng)申請(qǐng)了兩個(gè)專利。

Mint Muse:

一支之前在美國(guó)圣地亞哥、最近剛剛搬遷到上海的團(tuán)隊(duì)。主創(chuàng)團(tuán)隊(duì)來(lái)自高通。他們主攻渲染質(zhì)量、算法優(yōu)化、時(shí)延等領(lǐng)域，設(shè)計(jì)制作空間音頻后期制作、coding 以及軟件插件工具，目前不涉及硬件生產(chǎn)。這支團(tuán)隊(duì)面向的解決人群是錄音師，他們正在開(kāi)發(fā)一款專業(yè) VR 全景聲調(diào)音軟件，讓調(diào)音師可以在編輯全景聲過(guò)程中實(shí)時(shí)監(jiān)聽(tīng)成品效果，簡(jiǎn)化整個(gè)工作流。

Waves：

這是一家位于以色列的空間音頻技術(shù)公司，之前做專業(yè) studio 的工具，比如插件與音效，是很多著名 studio 的合作伙伴，如 Abbey Road 。

Impulsonic：

一支孵化于美國(guó)北卡羅來(lái)納大學(xué)計(jì)算機(jī)系的團(tuán)隊(duì)。主要針對(duì) VR 游戲與應(yīng)用的 3D 音頻開(kāi)發(fā)，產(chǎn)品叫 Phonon。成立于 2012 年。創(chuàng)始人阿尼什 · 錢達(dá)克（Anish Chandak）博士說(shuō)創(chuàng)立之初他的想法就非常簡(jiǎn)單：“幫助游戲設(shè)計(jì)師與開(kāi)發(fā)者更容易做出高質(zhì)量的空間音頻。” 大部分收入來(lái)自于 Phonon 的 license 收入。他們?nèi)ツ杲邮苊绹?guó)國(guó)家科學(xué)基金的投資，研究同時(shí)應(yīng)用于一些政府項(xiàng)目。

大部分做 VR 游戲的工作室還沒(méi)有開(kāi)始大規(guī)模使用 3D 音頻技術(shù)——原因主要是 “窮”。既然“寒冬” 來(lái)了，那么也就更窮了。事實(shí)上，這些沒(méi)有好內(nèi)容的游戲工作室還用著環(huán)繞立體聲技術(shù)；只有少數(shù)極客風(fēng)格的工作室開(kāi)始應(yīng)用一些空間音頻技術(shù)。3D 音頻技術(shù)仍舊是一件挺前沿的事兒。

然而，3D 音頻對(duì)于整個(gè) VR 產(chǎn)業(yè)來(lái)講，是基礎(chǔ)的技術(shù)性板塊。

擁有核心技術(shù)，才可能在應(yīng)用層面上等待下一個(gè)突破點(diǎn)。做無(wú)人機(jī)的大疆（DJI）就是一個(gè)例子，早在無(wú)人機(jī)變成商業(yè)模式之前，大疆的主創(chuàng)團(tuán)隊(duì)已經(jīng)在飛行控制這一個(gè)技術(shù)點(diǎn)上做了長(zhǎng)時(shí)間的研究與努力。

如果 VR 終有一天值得每一個(gè)用戶去花時(shí)間使用，那么它勢(shì)必在技術(shù)方方面面上已經(jīng)成熟到可以 “沉浸式體驗(yàn)” 的時(shí)候。

等待回春，先從 3D 音頻開(kāi)始。

參考文獻(xiàn)：
i.  Rumsey, Francis (2001). Spatial Audio. Focal Press.pp. 62–64. ISBN 0 240 51623 0.
ii.  Blauert, J. (1997) Spatial hearing:the psychophysics of human sound localization. MIT Press.
iii. Begault, D.R. (1994) 3D sound forvirtual reality and multimedia. AP Professional.
iv.  Eric Benjamin, Richard Lee, andAaron Heller, Is My Decoder Ambisonic?, 125th AESConvention, San Francisco 2008
v. https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-env-modeling

雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)注：本文為deeperblue授權(quán)雷鋒網(wǎng)發(fā)布，轉(zhuǎn)載可聯(lián)系微信：295513406。不得刪減內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。