0
本文作者: 劉芳平 | 2016-12-27 15:18 | 專題:雷峰網(wǎng)公開課 |
雖然VR行業(yè)的許多人對消費級全景相機不屑一顧,認(rèn)為它們拍攝的不是真正的VR內(nèi)容,但我們且先按下關(guān)于VR內(nèi)容定義的討論,回到用戶角度來看。
事實上,消費級全景相機生產(chǎn)的內(nèi)容確實可以用VR頭顯觀看,這類相機也是最親民的VR拍攝工具。從YouTube、優(yōu)酷上的360度視頻,到各大直播平臺推出VR直播產(chǎn)品,再到普通人用360度視頻記錄自己的生活,都需要用到它們。
在從業(yè)者紛紛抱怨VR內(nèi)容短缺的今天,消費級全景相機是最容易擴充內(nèi)容庫的工具,將其排除在外顯然并不明智。
但話又說回來,對低質(zhì)量VR內(nèi)容的容忍同樣會給VR行業(yè)造成傷害,顯然,當(dāng)下UGC全景視頻內(nèi)容的質(zhì)量仍然有待提高,而更好的創(chuàng)作工具是推動內(nèi)容質(zhì)量提高的關(guān)鍵。
于是,本期公開課雷鋒網(wǎng)邀請了完美幻境創(chuàng)始人趙博,為大家講解如何打造出色的消費級全景相機。
趙博,完美幻境創(chuàng)始人,哈爾濱工業(yè)大學(xué)電子信息專業(yè)碩士,曾在華為擔(dān)任研發(fā)工程師,后加入航天信息,參與和編寫了國家級大型項目全國外來人口管理系統(tǒng)和全國港澳通行證項目的系統(tǒng)設(shè)計方案,并帶領(lǐng)團隊完成了中國首臺電子港澳通行證制證管理系統(tǒng)和中國首套外來人口居住證管理系統(tǒng)的硬件設(shè)備和軟件,鑄就了為數(shù)億級人口研發(fā)產(chǎn)品的能力。
完美幻境團隊組建于2013年,先后獲得英特爾兩輪融資和金浦、天善等投資,專注視覺領(lǐng)域的產(chǎn)品研發(fā),目前主攻全景相機軟硬件產(chǎn)品和VR全景直播的解決方案。即將上市的兩款產(chǎn)品分別是針對企業(yè)級的6K相片,4K30fps的直播拍攝一體機和一款超小超薄的消費級全景相機。
以下內(nèi)容整理自公開課分享。
簡單分:消費類全景相機、行業(yè)應(yīng)用的企業(yè)級全景相機。
消費類相機分為手機配件試的全景相機和WiFi獨立工作的全景相機,這類相機主打性價比,需要在畫質(zhì)、功耗、產(chǎn)品形態(tài)上做一些平衡。
行業(yè)應(yīng)用的全景相機分為光場全景相機、3D全景和全景相機,主打高分辨率、高幀率、全面的參數(shù)設(shè)定和后期處理等功能,價格上相比消費級也更加昂貴。
目前消費級全景相機各個公司全球出貨量總和也不到百萬,說明這個市場還非常早期,市場沒有被完全教育。因此產(chǎn)品定義要綜合考慮性價比、受眾人群特點和消費能力等因素。
3D需要輸出設(shè)備觀看, 目前只有頭盔在市場進行推廣,裸眼3D還沒形成規(guī)模,未來半年到1年,3D不會很快形成主流。
再就是全景長視頻佩戴頭盔應(yīng)用場景不是很理想,觀看者不停晃動頭部看一個2小時的全景視頻是不合理的。全景短視頻和全景相片市場更容易接受。無論是短視頻還是照片都不需要頭盔,并且目前3d主要是近景3D 而目前全景以拍攝環(huán)境和遠景居多,所以廠商綜合考慮以上因素暫時不推3D全景。
全景相機的工作流程一般是:
1)圖像獲取,通過相機取得圖像。通常需要根據(jù)失真較大的魚眼鏡頭和失真較小的窄視角鏡頭決定算法處理方式。單鏡頭和多鏡頭相機在算法處理上也會有一定差別。
2)魚眼圖像矯正。若相機鏡頭為魚眼鏡頭,則圖像需要進行特定的畸變展開處理。3圖片匹配。根據(jù)素材圖片中相互重疊的部分估算圖片間匹配關(guān)系。主要匹配方式分兩種:
A.與特征無關(guān)的匹配方式。最常見的即為相關(guān)性匹配。
B.根據(jù)特征進行匹配的方式。最常見的即為根據(jù)SIFT、SURF等素材圖片中局部特征點,匹配相鄰圖片中的特征點,估算圖像間投影變換矩陣。
4)圖片拼接。根據(jù)步驟3所得圖片相互關(guān)系,將相鄰圖片拼接至一起。
5)圖像融合。對拼接得到的全景圖進行融合處理。
6)全景圖像投射。將合成后的全景圖投射至球面、柱面或立方體上并建立合適的視點,實現(xiàn)全方位的視圖瀏覽。
這里面的4和5簡單細化一下:拼接不同鏡頭之間有幾何的差異和顏色的差異 幾何拼接好的方案是估算一個合理景深 在景深上保證幾何誤差為零 ,總體在各個景深上平均很好,幾何拼接在后處理上會采用更好的算法使得在不同景深上仍然可以做到幾何誤差全局最小。
顏色誤差是靠后端調(diào)整去解決光暈和順光逆光下的顏色差異。如果以上兩點同時解決,還需要優(yōu)化鏡頭間的拼接縫,優(yōu)化拼接縫要靠一個混合算法解決。
拼接上沒有區(qū)別3D全景要解決不同觀察方向上景深的真實性問題,大部分的解決方案實際上在景深的估算上都是不真實的,不同的拼接方案,技術(shù)方案和理論體系不一樣 所以3d全景的拼接方案也是完全不同的,拼接算法是不一樣的。
VR視頻內(nèi)容的終極形態(tài)應(yīng)該是全景+3D自帶景深的,但是今天各個公司還是理性的選擇從全景視頻切入市場,一方面受限于VR市場尚在培育期,輸出端頭盔還沒有真正爆發(fā),另一方面受限于商業(yè)模式的選擇。選擇消費類市場和專業(yè)好級市場,適配的硬件是完全不同的。目前市場上生產(chǎn)全景視頻內(nèi)容的專業(yè)級產(chǎn)品只有Jaunt是120幀,單眼分辨率8K×4K。
GoPro、Odyssey、諾基亞的OZO、等專業(yè)級多鏡頭全景相機普遍都會8K,30fps,雙目的消費級全景相機有2K,3K,4K,幀率普遍是30fps,如果脫離VR頭盔使用,低于90fps的幀率是可以的,分辨率上面全景4k是一個最低標(biāo)準(zhǔn),今天我們看到的4K全景相機其實很多是3K分辨率的。
我們以主流VR眼鏡搭配主流手機為例,眼鏡視野100度,手機分辨率1920×1080,分屏后單目的像素為960x1080,水平像素為960,按照球形投影近似估算,每角度約需要填充10個像素,360度則需要3600個像素。3840×1920分辨率的4K視頻即可滿足此需求。
硬件方面,隨著手機和VR眼鏡的性能提升,視頻的分辨率要求也將進一步提升。但是目前H.264編碼的視頻格式最大只能支持4K分辨率視頻,同時主流手機對更高分辨率視頻解碼能力也有限,因而更高級別的視頻錄制,短期內(nèi)在普通場景下不具有太大的實用性。
目前市面上的雙目全景相機,如果標(biāo)稱單目視頻采集分辨率可達4K(3840×2160),則單目一般可輸出直徑2160像素的內(nèi)切圓,雙目視頻合并輸出可以到4320×2160,但是這種視頻對整幀像素的利用率較低(理想情況下也僅能達到78.5%)且考慮到視頻重合率,圖像邊緣畸變帶來的畫質(zhì)損失,實際拼接后的視頻的像素只能達到3K級別,僅能滿足手機全景預(yù)覽的需求,并不能滿足真正的VR頭顯觀賞需求。所以今天3k-4k的畫質(zhì)對于移動VR場景來說是足夠的,如果脫離頭盔的話,幀率也不需要120fps這么高。
至于通過頭盔現(xiàn)實的全景視頻,幀數(shù)與刷新率要保持一致。假設(shè)幀數(shù)是刷新率的1/10,那就是意味著顯卡每10次向顯示器輸出的畫面是用一幅畫面。
相反,如果幀數(shù)是刷新率的10倍,那么畫面每改變10次,其中只有1次是被顯卡發(fā)送并在顯示器上顯示的。這就意味著,高于刷新率的幀數(shù)都是無效幀數(shù),對畫面效果沒有任何提升,反而可能導(dǎo)致畫面異常。
目前能引爆行業(yè)的內(nèi)容并不多見,120幀的出現(xiàn)我們認(rèn)為還是會率先在優(yōu)質(zhì)高清PGC內(nèi)容里出現(xiàn),高幀率下捕捉的動作和視覺效果,目前是仁者見仁智者見智,李安的120幀的2d電影也是褒貶不一,但是科技的進步趨勢是無法阻擋的,我個人認(rèn)為未來一年主要是畫質(zhì) 跟分辨率關(guān)系最密切 120幀在未來3-5年隨著頭盔的刷新率增大會有大量應(yīng)用。目前市場還是在解決0和1的問題,先從畫質(zhì)著手,等到時機成熟在考慮增加幀率。
目前市場上提到的VR直播只要是全景視頻直播和180度3D直播,消費級全景相機雖然都支持直播功能,但是真正商業(yè)化落地其實很少,并且受目前網(wǎng)絡(luò)帶寬的限制,4Mbps/s幾乎已經(jīng)是上限了。大家肉眼看到的效果與優(yōu)酷app里面的720p的傳統(tǒng)視頻效果差不多。目前完美幻境的解決方式是通過高水平的壓縮和更好的投影格式來提高直播視頻的質(zhì)量。
如果要基于H.264編碼優(yōu)化的話,以下幾點可以供參考:
1)優(yōu)化H.264的首幀,改寫播放器邏輯讓播放器拿到第一個關(guān)鍵幀后就給予顯示。
GOP 的第一幀通常都是關(guān)鍵幀,由于加載的數(shù)據(jù)較少,可以達到 “首幀秒開”。如果直播服務(wù)器支持 GOP 緩存,意味著播放器在和服務(wù)器建立連接后可立即拿到數(shù)據(jù),從而省卻跨地域和跨運營商的回源傳輸時間。GOP 體現(xiàn)了關(guān)鍵幀的周期,也就是兩個關(guān)鍵幀之間的距離,即一個幀組的最大幀數(shù)。
假設(shè)一個視頻的恒定幀率是 24fps(即1秒24幀圖像),關(guān)鍵幀周期為 2s,那么一個 GOP 就是 48 張圖像。一般而言,每一秒視頻至少需要使用一個關(guān)鍵幀。增加關(guān)鍵幀個數(shù)可改善畫質(zhì)(GOP 通常為 FPS 的倍數(shù)),但是同時增加了帶寬和網(wǎng)絡(luò)負(fù)載。這意味著,客戶端播放器下載一個GOP,但是因為GOP存在一定數(shù)據(jù)體積,因此如果播放端網(wǎng)絡(luò)環(huán)境差,有可能無法快速下載完該GOP,進而影響觀感體驗。
如果不能更改播放器行為邏輯為首幀秒開,直播服務(wù)器也可以做一些取巧處理,比如從緩存 GOP 改成緩存雙關(guān)鍵幀(減少圖像數(shù)量),這樣可以極大程度地減少播放器加載 GOP 要傳輸?shù)膬?nèi)容體積。
2)在 APP 業(yè)務(wù)邏輯層面方面優(yōu)化。
比如提前做好 DNS 解析(省卻幾十毫秒),和提前做好測速選線(擇取最優(yōu)線路)。經(jīng)過這樣的預(yù)處理后,在點擊播放按鈕時,將極大提高下載性能。
一方面,可以圍繞傳輸層面做性能優(yōu)化;另一方面,可以圍繞客戶播放行為做業(yè)務(wù)邏輯優(yōu)化。兩者可以有效的互為補充,作為秒開的優(yōu)化空間。
上面回答的是秒開的問題,針對直播首次加載的播放體驗,如何保障直播持續(xù)播放過程中的畫面和聲音視聽流暢呢?因為,一個直播畢竟不是一個 HTTP 一樣的一次性請求,而是一個 Socket 層面的長連接維持,直到主播主動終止推流。
卡頓的定義即播放時畫面滯幀,觸發(fā)了人們的視覺感受。在不考慮終端設(shè)備性能差異的情況下,針對網(wǎng)絡(luò)傳輸層面的原因,我們看看如何保障一個持續(xù)的直播不卡頓。
這其實是一個直播過程中傳輸網(wǎng)絡(luò)不可靠時的容錯問題。例如,播放端臨時斷網(wǎng)了,但又快速恢復(fù)了,針對這種場景,播放端如果不做容錯處理,很難不出現(xiàn)黑屏或是重新加載播放的現(xiàn)象。
為了容忍這種網(wǎng)絡(luò)錯誤,并達到讓終端用戶無感知,客戶端播放器可以考慮構(gòu)建一個FIFO(先進先出)的緩沖隊列,解碼器從播放緩存隊列讀取數(shù)據(jù),緩存隊列從直播服務(wù)器源源不斷的下載數(shù)據(jù)。通常,緩存隊列的容量是以時間為單位(比如3s),在播放端網(wǎng)絡(luò)不可靠時,客戶端緩存區(qū)可以起到“斷網(wǎng)無感”的過渡作用。
顯然,這只是一個“緩兵之計”,如果直播服務(wù)器邊緣節(jié)點出現(xiàn)故障,而此時客戶端播放器又是長連接,在無法收到對端的連接斷開信號,客戶端的緩沖區(qū)容量再大也不管用了,這個時候就需要結(jié)合客戶端業(yè)務(wù)邏輯來做調(diào)度。
重要的是客戶端結(jié)合服務(wù)端,可以做精準(zhǔn)調(diào)度。在初始化直播推流之前,例如基于 IP 地理位置和運營商的精確調(diào)度,分配線路質(zhì)量最優(yōu)的邊緣接入節(jié)點。在直播推流的過程中,可以實時監(jiān)測幀率反饋等質(zhì)量數(shù)據(jù),基于直播流的質(zhì)量動態(tài)調(diào)整線路。
3)優(yōu)化IBP幀。
視頻壓縮中,每幀代表一幅靜止的圖像。而在實際壓縮時,會采取各種算法減少數(shù)據(jù)的容量,其中IPB就是最常見的。I幀是關(guān)鍵幀,屬于幀內(nèi)壓縮。就是和AVI的壓縮是一樣的。 P是向前搜索幀,B是雙向搜索幀,他們都是基于I幀來壓縮數(shù)據(jù),一般的相機只有I幀或者是P幀,不會有B幀(B幀是一個動畫幀,影視設(shè)備才有,普通的手機或者是硬件基本不會有),如果推流的時候有音視頻不同步,一般是視頻里面插了一個B幀,因為多一個幀就多一個網(wǎng)絡(luò)數(shù)據(jù)。
4)優(yōu)化網(wǎng)絡(luò)結(jié)點。
因為推流對網(wǎng)絡(luò)結(jié)點要求很高,做VR直播的時候要提前溝通好網(wǎng)絡(luò)結(jié)點,看終端推流端到終端的延時大概要多久,然后優(yōu)化網(wǎng)絡(luò)結(jié)點。
以上這4點供大家做參考,但是我們覺得未來h.265編碼會逐步取代H.264編碼成為主流,H265編碼可以壓縮一半的碼率,但是更好的投影格式可以降低80%的帶寬,結(jié)合算法的優(yōu)化綜合最高可以降低90%。
完美幻境的VR音頻主要合作伙伴是北京時代拓靈,劉恩和他的團隊專注做VR音頻的軟硬件。我跟劉恩聊得也比較多,首先是為何需要全景聲?打造沉浸感音頻起到非常多的作用,特別是VR/AR下面,體驗需要實時互動的情況。
全景聲的技術(shù):有ambisonic(Google/Facebook), 人工頭,Object Audio (杜比)幾類技術(shù)。
目前看了以Google主推的開放式Ambisonic,特別是一階(FOA)是一個比較經(jīng)濟實惠且發(fā)展空間大的一種,因此FOA全景聲技術(shù)未來一段時間會比較流行,目前安卓7.0和YouTube直接就支持了。
因此建議全景相機在考慮經(jīng)濟性、效果、硬件體積、音頻兼容性方面應(yīng)該推薦使用Ambisonic的全景聲為首要選擇。
目前已有的ambisonic可以是3麥克方案,或者4麥克方案。經(jīng)過測試可以使用定向麥克或者全向麥克均有不錯效果。具體選擇方案需要根據(jù)自己全景相機需求決定。
在具體實施中有一個很大問題就是降噪技術(shù),即采集時候防止收到本機自帶散熱風(fēng)扇干擾,經(jīng)過測算,采用定向麥克可以在軟件和硬件上達到超過20杜比的降噪效果,即至少超過10倍的降噪效果,應(yīng)該說風(fēng)扇影響較小了。
全景功能集成到手機中是大趨勢,我們也會在積極跟蹤產(chǎn)業(yè)鏈這個方向上的突破和進展。
當(dāng)下最突出的問題是鏡頭和產(chǎn)品體驗。手機很薄,要做到鏡頭不能凸出太多,雙鏡頭全景所必須的魚眼鏡頭做到5mm左右的TTL。這是有相當(dāng)?shù)脑O(shè)計難度和工藝難度的。
同時手機用sensor像素尺寸都很小,對鏡頭解析力要求很高。因此我們需要在清晰度和尺寸上做很多權(quán)衡,現(xiàn)在還沒有一個好的答案。在產(chǎn)品體驗上,凸出的魚眼鏡頭也會導(dǎo)致鏡頭更加破碎或磨花,用戶實際使用要時刻小心翼翼,也極大損害了用戶體驗。
手機配件類全景相機產(chǎn)品,在當(dāng)前階段,是最符合市場需求的產(chǎn)品形態(tài),定位于存量手機用戶市場,用戶也容易接受。當(dāng)市場成熟度進一步提高之后,全景手機會更加水到渠成。
無論是手機配件全景相機還是獨立全景相機都會有市場,只是份額大小不同罷了。
簡單說是更好的用戶體驗,包含了:拍攝的畫質(zhì),后處理的功能,功耗,產(chǎn)品形態(tài),針對特定人群的使用特點的app體驗,等等;畫質(zhì)會越來越高,功耗越來越低,幀率也會更高,同時直播功能會更強大。
Q1:目前全景相機的方案芯片主要有哪些?
趙博:國外大廠芯片:高通、安霸、三星、NVIDIA;
國內(nèi)芯片可以選擇:聯(lián)詠、全志、聯(lián)發(fā)科等。
Q2:360度全景相機如何解決白平衡問題?
趙博:一個參考的做法是采用其中一個相機作為master,其余的相機跟定master進行白平衡調(diào)節(jié);另一個參考做法是統(tǒng)計每路相機的色溫數(shù)據(jù),再平均得出白平衡參數(shù)。
Q3:使用3ds MAX + VRay 輸出全景圖,其相機成像原理是怎樣的?
趙博:用3D渲染軟件輸出的全景圖,從本質(zhì)上講和拍攝真實場景的全景圖理論基礎(chǔ)是一致的。
都是以一個空間點為中心,向三維空間發(fā)出射線,打在一個單位球體上的射線積分形成的畫面。
Q4:全景相機用在安防視頻監(jiān)控和行車監(jiān)控的市場前景?
趙博:但是這個市場我不認(rèn)為創(chuàng)業(yè)公司適合做,因為深入理解客戶需求,針對客戶需求開發(fā)產(chǎn)品,目前已經(jīng)有一些巨頭公司在開始做。
如果創(chuàng)業(yè)團隊一定要選擇切入的話,需要對市場做進一步細分。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。