0
本文作者: 蔣鴻昌 | 2017-04-27 21:08 |
雷鋒網(wǎng)「新智造」按:雷鋒網(wǎng)正在啟動“新智造成長榜2017”評選活動,我們將對人工智能與機器人行業(yè)進行大規(guī)模報道、梳理和調(diào)研,并聯(lián)合數(shù)十家著名投資機構(gòu)根據(jù)這些創(chuàng)新公司的技術(shù)實力、商業(yè)能力和成長性進行深度評選,最終從多個領(lǐng)域分別選出一些極具潛力成長性的創(chuàng)新公司。本文為雷鋒網(wǎng)「新智造」對一家VR創(chuàng)業(yè)公司的報道,報道對象為量子視覺,講述其如何創(chuàng)造性地使用深度學(xué)習(xí)改進圖像拼接,并開發(fā)出一體化的VR攝影機。如果你想?yún)⑴c我們的評選,可點擊「報名」鏈接,或通過郵箱xinzhizao@leiphone.com聯(lián)系我們!
從2014年Facebook收購Oculus,到2016年下半年資本冷遇,VR熱潮如煙花般絢爛而短暫。在這樣的一個時期,一家VR創(chuàng)業(yè)公司的發(fā)布會就顯得非??少F,尤其是這家公司發(fā)布的是一款貨真價實的高端硬件:20目攝像頭,可以拍攝10K、360度3D視頻的VR攝像機,售價98000元。
這款叫AURA的VR攝影機出自量子視覺,一家由三個計算機博士組建的公司,把學(xué)到的技術(shù)應(yīng)用到行業(yè)中的具體需求的想法,讓他們?nèi)齻€走到了一起。
日前,量子視覺CEO張聰接受了雷鋒網(wǎng)新智造的采訪。在他看來,過去兩年,資本和創(chuàng)業(yè)者對VR的熱情,很大程度上源于過去一貫的成功經(jīng)驗:在某個行業(yè)里有深厚資源的人,往往會第一時間講新出現(xiàn)的技術(shù)加以應(yīng)用,集合自己的行業(yè),就能產(chǎn)生巨大的價值。但這個邏輯目前無法在VR成形的原因是,從底層技術(shù)上來說,VR的很多方面都還是缺失的。張聰向雷鋒網(wǎng)新智造介紹了AURA背后的技術(shù)積累,以及量子視覺的創(chuàng)業(yè)故事。
從計算機視覺博士到VR創(chuàng)業(yè)者
在上海交通大學(xué)讀博士期間,張聰以研究助理(RA)的身份去了香港中文大學(xué),師從王曉剛教授和湯曉鷗教授,兩位在華人世界里最權(quán)威的圖像識別研究者。
張聰說,研究圖像,是讓他開心的事情。數(shù)學(xué)、物理領(lǐng)域推公式、證明效率更高的研究不同,直觀的圖像是能讓張聰興奮起來的東西。所以,本科學(xué)習(xí)電子工程,博士他就轉(zhuǎn)去做計算機視覺和機器學(xué)習(xí)了。
2012年,多倫多大學(xué)計算機系教授Geoffrey Hinton的學(xué)生用老師在6年前提出的Deep Learning理論,參加計算機視覺最知名的比賽ImageNet并拿下冠軍。自此開始,深度學(xué)習(xí)開始成為計算機視覺的通行研究方法,香港中文大學(xué)就是最早一批轉(zhuǎn)到新方法的機構(gòu)。張聰說,用深度學(xué)習(xí)處理計算機視覺的問題,很多領(lǐng)域的第一篇論文就出自他所在的實驗室。
但畢業(yè)后,張聰并沒有去做計算機視覺相關(guān)的工作。他的理由和當(dāng)初選圖像作為研究方向如出一轍:VR這種更直觀的體驗,帶來的興奮度是遠遠超過圖片的。
他還有個“私心”,如果去做計算機視覺,和香港中文大學(xué)淵源頗深的商湯科技是最好的選擇,實際上他也完全有機會進去,“但商湯里100多個博士,你進去了又能怎樣呢?”
30歲前一直待在學(xué)校、實驗室,張聰想讓自己學(xué)到的技術(shù)能給這個世界帶來一點東西,甚至創(chuàng)造商業(yè)財富,在這個過程中,個人價值也能得到最大的實現(xiàn)。
2015年5月,運動相機制造商GoPro宣布收購專注于全景圖像拼接的法國創(chuàng)業(yè)公司Kolor,這讓張聰找到了靈感。將圖片和視頻拼接成全景圖像,是VR的第一步,從這次并購來看,市場對拼接軟件是有需求的。
張聰堅信VR是朝陽產(chǎn)業(yè),而且是他和兩個合伙人,也是同一個實驗室的韓慶龍和黃之燊能夠?qū)⒆约核鶎W(xué)應(yīng)用進來的領(lǐng)域。三個人,韓慶龍研究方向是視頻編碼和圖像處理,黃之燊主攻深度圖像解析和圖形變換,張聰?shù)拈L項是深度學(xué)習(xí)。于是,圖像拼接成了他們創(chuàng)業(yè)的方向。
“其實我們的機會成本挺高的,如果我們現(xiàn)在去找AI的工作,七、八十萬的年薪總是逃不掉的?!?/p>
升級拼接:把“抹平”拼縫改進為像素級匹配
量子視覺把圖像拼接作為創(chuàng)業(yè)的第一步,來自他的團隊的底氣。Kolor被收購后,他們也試著開發(fā)了拼接軟件,并用幾臺小蟻相機搭建了全景相機,拍完照片一看,“效果已經(jīng)比Kolor好了”。
張聰告訴雷鋒網(wǎng)新智造,背后的秘密來自算法的升級。圖像拼接要處理的一個很重要的問題是“抹平”拼縫,通俗來講,將圖像拼接起來,進行畸變校正后,兩個圖像的拼接處因為灰度的細微差別等原因,會產(chǎn)生“拼接縫”。為了讓拼接更完美,就需要抹平這些縫隙。
Kolor使用的是一種很經(jīng)典的拼接算法,基于一些特征點做校正和變換,然后使用Multi-Band的方式,讓圖像拼接處平滑地過渡。這種算法在八十年代就已經(jīng)被提出,因為能兼顧拼縫附近的局域細節(jié)和大尺度上兩張圖片的宏觀特征(如光照)而被廣泛采用。
量子視覺則改用了一種新的算法,原理上是將兩個拼接的圖像進行像素級的匹配,這樣就不存在縫隙的問題,圖像拼接效果也更完美。匹配像素的過程在學(xué)術(shù)里就是光流的問題,所以,這一套方法也被稱為光流法拼接。
光流法拼接的另一個好處是可以實現(xiàn)更好的3D效果。過去,要拍攝有3D效果的全景視頻,需要幾組平行的雙目攝像頭,通過左右兩個畫面的視差產(chǎn)生3D效果。但這種方法的問題是只有攝像頭正對的畫面3D效果是比較好的。光流法則是基于點云計算出來深度信息,從而實現(xiàn)每個角度都有的3D效果。這個過程設(shè)計基于估計的深度和重建,要用到深度學(xué)習(xí)技術(shù),這正是張聰?shù)膹婍棥?/p>
在找松禾資本和IDG融資時,量子視覺已經(jīng)在使用光流拼接法。張聰說,投資人是看不懂這種方法的,但可以明顯感受到拼接的圖像質(zhì)量更高。
2016年4月的F8大會上,F(xiàn)acebook發(fā)布了360度3D全景相機Surround 360,并開源了硬件設(shè)計和拼接算法。張聰發(fā)現(xiàn),擁有最多的權(quán)威VR專家的Facebook,使用的也是光流法拼接,F(xiàn)acebook使用的框架也和量子視覺有很多相似的地方。
(Facebook的Surround 360)
Facebook開源,意味著所有人都可以使用這種方法去做圖像拼接,這當(dāng)然引起了量子視覺的擔(dān)心。不過仔細研究,張聰更多的是踏實,一方面,是和權(quán)威專家的不約而同帶來的學(xué)術(shù)認同感;另一方面,F(xiàn)acebook的實際拍攝經(jīng)驗并不多,它的方案更多的是提供了一個通用的、開源的,能夠引導(dǎo)大家的算法,在真正的生產(chǎn)和內(nèi)容制作環(huán)節(jié),F(xiàn)acebook的方案中的一些模塊是有問題的。
“我們有這種原發(fā)的能力,可以基于我們的相機和實際情況進行調(diào)整。算法依舊有一個很大的改進空間?!?/p>
Aura:可以拍10K 、360度3D視頻的專業(yè)級VR攝影機
拿到第一輪融資后,張聰就升級了用小蟻相機搭建的全景相機,改用了4個索尼α7以及20個GoPro組成的方案。他告訴雷鋒網(wǎng)新智造,進行圖像拼接時,除了算法,硬件的排布也非常重要,所以,他們的研發(fā),就是不斷迭代算法,改進硬件排布,兩邊不斷相互迭代的過程。
方案做好后,量子視覺要去市場試水。他們最有名的作品,是拍攝黃曉明的新劇《萬水千山總是情》的VR宣傳片,以及張楚的第一只全景MV《晃動一下》。張聰還透露了VR視頻制作的“潛規(guī)則”:不少團隊號稱可以制作VR視頻,但他們接活兒后會再找有能力的外包?!包S曉明的片子,到我們已經(jīng)是第六道了。”
(《萬水千山總是情》VR宣傳片)
視頻的效果還不錯,但拍攝的過程讓張聰堅定了自己做一款VR攝影機的念頭。使用單反或者GoPro拼接的方案,最大的問題是操作太麻煩了,每個相機的參數(shù),包括同步、存儲,甚至是拍攝完成后將素材拷貝下來,都是一個繁瑣務(wù)必的過程,“你要把SD卡一個一個拔下來,拷貝素材,再放到軟件里拼接?!边@樣的方案,也根本無法給任何第三方使用。
從2016年3月份開始,量子視覺就開始了研發(fā)一體化VR攝影機的進程。把多個攝像頭通過特定的排布方式集中到一個球形上,同時要考慮散熱、結(jié)構(gòu)、電池續(xù)航和量產(chǎn),每個環(huán)節(jié)都是“坑”。不過,深圳是硬件創(chuàng)業(yè)者的天堂,而且,早在有這個念頭之前,量子視覺就招募了前火樂科技研發(fā)總監(jiān)曾作為,堅果G1智能家庭影院、堅果P1便攜智能投影等暢銷產(chǎn)品,就出自他手。
2016年十一期間,量子視覺就做出了直徑20厘米,排球大小,有著20目攝像頭的全景攝影機,并和暴風(fēng)體育合作,用在中國網(wǎng)球公開賽的VR直播中。此后,經(jīng)過再次迭代以及配套軟件的開發(fā),量子視覺在今年3月21日正式發(fā)布了這款相機——AURA專業(yè)級VR攝影機。
AURA由20枚鏡頭組成,水平方向為16枚視場角90度的廣角鏡頭,頂端和底部則為4個視場角為190度的魚眼鏡頭,可連續(xù)拍攝1個小時,使用外部供電方案則可以實現(xiàn)長達10小時的連續(xù)拍攝。AURA可以支持目前主流的 H.264、H.265 視頻編碼標準,最大可以輸出25fps的10K 3D影像、60fps的10K 2D影像以及120fps的6K 2D影像。它還可以進行VR直播,實時輸出6K、30fps的3D VR直播畫面,并通過RTSP協(xié)議進行有線或無線實時監(jiān)看。
AURA還有配套的實時監(jiān)控軟件AURA WORK和后期制作軟件AURA STUDIO,可以實現(xiàn)實時監(jiān)看,以及一鍵快速素材導(dǎo)出、拼接、剪輯等,大大提高了高質(zhì)量VR視頻的制作效率。
“我自己也覺得,我們公司的模式很重,又要做硬件又要做軟件,但這是因為整個生態(tài)鏈不成熟。我們堅持做下來,反而會成為壁壘?!?/p>
VR+行業(yè)還不成立,市場需要有專注底層技術(shù)的創(chuàng)業(yè)公司
現(xiàn)在,VR遇冷在張聰看來并不奇怪。去年VR被資本熱捧的原因很簡單,大家默認VR是一個成熟的東西,和各個行業(yè)結(jié)合,就可以產(chǎn)生巨大的價值。
不過現(xiàn)在來看,這個邏輯并不成立。其中最大的問題是在根本的底層技術(shù)上,VR的很多方面都是缺失的,整個生態(tài)鏈還處于非常不成熟的階段。以VR直播為例,在直播時,需要有實時拼接能力和推流能力的高清攝影方案,但同時,網(wǎng)絡(luò)的上行帶寬、CDN分發(fā)以及用戶的接收端,都還存在很大的問題。
因為高端設(shè)備價格昂貴,加上VR內(nèi)容,尤其是VR視頻體驗糟糕,C端市場的缺失是VR行業(yè)面臨的有一個大問題?,F(xiàn)在,已經(jīng)很少再有明星嘗試VR版的視頻內(nèi)容。
在這樣的情況下,更需要有專注底層技術(shù)的創(chuàng)業(yè)公司,這也是量子視覺推出可以拍攝10K視頻的VR攝影機的原因。通常來說,人眼的視角區(qū)域不到70度。在360度的全景視頻,需要10K的分辨率,才能在人眼所視范圍內(nèi),達到每只眼4K的觀看效果。
“我最開始創(chuàng)業(yè)的時候,就沒覺得VR會很快火起來,因為我當(dāng)時看大家做的東西都一塌糊涂?!睆埪敯堰@個看做技術(shù)創(chuàng)業(yè)者最好的機會,而將技術(shù)壁壘快速轉(zhuǎn)化為商業(yè)壁壘后,有造血能力的VR公司會在一兩年內(nèi)迎來春天。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。