0
本文作者: 蔣鴻昌 | 2017-04-27 21:08 |
雷鋒網(wǎng)「新智造」按:雷鋒網(wǎng)正在啟動“新智造成長榜2017”評選活動,我們將對人工智能與機(jī)器人行業(yè)進(jìn)行大規(guī)模報(bào)道、梳理和調(diào)研,并聯(lián)合數(shù)十家著名投資機(jī)構(gòu)根據(jù)這些創(chuàng)新公司的技術(shù)實(shí)力、商業(yè)能力和成長性進(jìn)行深度評選,最終從多個(gè)領(lǐng)域分別選出一些極具潛力成長性的創(chuàng)新公司。本文為雷鋒網(wǎng)「新智造」對一家VR創(chuàng)業(yè)公司的報(bào)道,報(bào)道對象為量子視覺,講述其如何創(chuàng)造性地使用深度學(xué)習(xí)改進(jìn)圖像拼接,并開發(fā)出一體化的VR攝影機(jī)。如果你想?yún)⑴c我們的評選,可點(diǎn)擊「報(bào)名」鏈接,或通過郵箱xinzhizao@leiphone.com聯(lián)系我們!
從2014年Facebook收購Oculus,到2016年下半年資本冷遇,VR熱潮如煙花般絢爛而短暫。在這樣的一個(gè)時(shí)期,一家VR創(chuàng)業(yè)公司的發(fā)布會就顯得非常可貴,尤其是這家公司發(fā)布的是一款貨真價(jià)實(shí)的高端硬件:20目攝像頭,可以拍攝10K、360度3D視頻的VR攝像機(jī),售價(jià)98000元。
這款叫AURA的VR攝影機(jī)出自量子視覺,一家由三個(gè)計(jì)算機(jī)博士組建的公司,把學(xué)到的技術(shù)應(yīng)用到行業(yè)中的具體需求的想法,讓他們?nèi)齻€(gè)走到了一起。
日前,量子視覺CEO張聰接受了雷鋒網(wǎng)新智造的采訪。在他看來,過去兩年,資本和創(chuàng)業(yè)者對VR的熱情,很大程度上源于過去一貫的成功經(jīng)驗(yàn):在某個(gè)行業(yè)里有深厚資源的人,往往會第一時(shí)間講新出現(xiàn)的技術(shù)加以應(yīng)用,集合自己的行業(yè),就能產(chǎn)生巨大的價(jià)值。但這個(gè)邏輯目前無法在VR成形的原因是,從底層技術(shù)上來說,VR的很多方面都還是缺失的。張聰向雷鋒網(wǎng)新智造介紹了AURA背后的技術(shù)積累,以及量子視覺的創(chuàng)業(yè)故事。
從計(jì)算機(jī)視覺博士到VR創(chuàng)業(yè)者
在上海交通大學(xué)讀博士期間,張聰以研究助理(RA)的身份去了香港中文大學(xué),師從王曉剛教授和湯曉鷗教授,兩位在華人世界里最權(quán)威的圖像識別研究者。
張聰說,研究圖像,是讓他開心的事情。數(shù)學(xué)、物理領(lǐng)域推公式、證明效率更高的研究不同,直觀的圖像是能讓張聰興奮起來的東西。所以,本科學(xué)習(xí)電子工程,博士他就轉(zhuǎn)去做計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)了。
2012年,多倫多大學(xué)計(jì)算機(jī)系教授Geoffrey Hinton的學(xué)生用老師在6年前提出的Deep Learning理論,參加計(jì)算機(jī)視覺最知名的比賽ImageNet并拿下冠軍。自此開始,深度學(xué)習(xí)開始成為計(jì)算機(jī)視覺的通行研究方法,香港中文大學(xué)就是最早一批轉(zhuǎn)到新方法的機(jī)構(gòu)。張聰說,用深度學(xué)習(xí)處理計(jì)算機(jī)視覺的問題,很多領(lǐng)域的第一篇論文就出自他所在的實(shí)驗(yàn)室。
但畢業(yè)后,張聰并沒有去做計(jì)算機(jī)視覺相關(guān)的工作。他的理由和當(dāng)初選圖像作為研究方向如出一轍:VR這種更直觀的體驗(yàn),帶來的興奮度是遠(yuǎn)遠(yuǎn)超過圖片的。
他還有個(gè)“私心”,如果去做計(jì)算機(jī)視覺,和香港中文大學(xué)淵源頗深的商湯科技是最好的選擇,實(shí)際上他也完全有機(jī)會進(jìn)去,“但商湯里100多個(gè)博士,你進(jìn)去了又能怎樣呢?”
30歲前一直待在學(xué)校、實(shí)驗(yàn)室,張聰想讓自己學(xué)到的技術(shù)能給這個(gè)世界帶來一點(diǎn)東西,甚至創(chuàng)造商業(yè)財(cái)富,在這個(gè)過程中,個(gè)人價(jià)值也能得到最大的實(shí)現(xiàn)。
2015年5月,運(yùn)動相機(jī)制造商GoPro宣布收購專注于全景圖像拼接的法國創(chuàng)業(yè)公司Kolor,這讓張聰找到了靈感。將圖片和視頻拼接成全景圖像,是VR的第一步,從這次并購來看,市場對拼接軟件是有需求的。
張聰堅(jiān)信VR是朝陽產(chǎn)業(yè),而且是他和兩個(gè)合伙人,也是同一個(gè)實(shí)驗(yàn)室的韓慶龍和黃之燊能夠?qū)⒆约核鶎W(xué)應(yīng)用進(jìn)來的領(lǐng)域。三個(gè)人,韓慶龍研究方向是視頻編碼和圖像處理,黃之燊主攻深度圖像解析和圖形變換,張聰?shù)拈L項(xiàng)是深度學(xué)習(xí)。于是,圖像拼接成了他們創(chuàng)業(yè)的方向。
“其實(shí)我們的機(jī)會成本挺高的,如果我們現(xiàn)在去找AI的工作,七、八十萬的年薪總是逃不掉的?!?/p>
升級拼接:把“抹平”拼縫改進(jìn)為像素級匹配
量子視覺把圖像拼接作為創(chuàng)業(yè)的第一步,來自他的團(tuán)隊(duì)的底氣。Kolor被收購后,他們也試著開發(fā)了拼接軟件,并用幾臺小蟻相機(jī)搭建了全景相機(jī),拍完照片一看,“效果已經(jīng)比Kolor好了”。
張聰告訴雷鋒網(wǎng)新智造,背后的秘密來自算法的升級。圖像拼接要處理的一個(gè)很重要的問題是“抹平”拼縫,通俗來講,將圖像拼接起來,進(jìn)行畸變校正后,兩個(gè)圖像的拼接處因?yàn)榛叶鹊募?xì)微差別等原因,會產(chǎn)生“拼接縫”。為了讓拼接更完美,就需要抹平這些縫隙。
Kolor使用的是一種很經(jīng)典的拼接算法,基于一些特征點(diǎn)做校正和變換,然后使用Multi-Band的方式,讓圖像拼接處平滑地過渡。這種算法在八十年代就已經(jīng)被提出,因?yàn)槟芗骖櫰纯p附近的局域細(xì)節(jié)和大尺度上兩張圖片的宏觀特征(如光照)而被廣泛采用。
量子視覺則改用了一種新的算法,原理上是將兩個(gè)拼接的圖像進(jìn)行像素級的匹配,這樣就不存在縫隙的問題,圖像拼接效果也更完美。匹配像素的過程在學(xué)術(shù)里就是光流的問題,所以,這一套方法也被稱為光流法拼接。
光流法拼接的另一個(gè)好處是可以實(shí)現(xiàn)更好的3D效果。過去,要拍攝有3D效果的全景視頻,需要幾組平行的雙目攝像頭,通過左右兩個(gè)畫面的視差產(chǎn)生3D效果。但這種方法的問題是只有攝像頭正對的畫面3D效果是比較好的。光流法則是基于點(diǎn)云計(jì)算出來深度信息,從而實(shí)現(xiàn)每個(gè)角度都有的3D效果。這個(gè)過程設(shè)計(jì)基于估計(jì)的深度和重建,要用到深度學(xué)習(xí)技術(shù),這正是張聰?shù)膹?qiáng)項(xiàng)。
在找松禾資本和IDG融資時(shí),量子視覺已經(jīng)在使用光流拼接法。張聰說,投資人是看不懂這種方法的,但可以明顯感受到拼接的圖像質(zhì)量更高。
2016年4月的F8大會上,F(xiàn)acebook發(fā)布了360度3D全景相機(jī)Surround 360,并開源了硬件設(shè)計(jì)和拼接算法。張聰發(fā)現(xiàn),擁有最多的權(quán)威VR專家的Facebook,使用的也是光流法拼接,F(xiàn)acebook使用的框架也和量子視覺有很多相似的地方。
(Facebook的Surround 360)
Facebook開源,意味著所有人都可以使用這種方法去做圖像拼接,這當(dāng)然引起了量子視覺的擔(dān)心。不過仔細(xì)研究,張聰更多的是踏實(shí),一方面,是和權(quán)威專家的不約而同帶來的學(xué)術(shù)認(rèn)同感;另一方面,F(xiàn)acebook的實(shí)際拍攝經(jīng)驗(yàn)并不多,它的方案更多的是提供了一個(gè)通用的、開源的,能夠引導(dǎo)大家的算法,在真正的生產(chǎn)和內(nèi)容制作環(huán)節(jié),F(xiàn)acebook的方案中的一些模塊是有問題的。
“我們有這種原發(fā)的能力,可以基于我們的相機(jī)和實(shí)際情況進(jìn)行調(diào)整。算法依舊有一個(gè)很大的改進(jìn)空間?!?/p>
Aura:可以拍10K 、360度3D視頻的專業(yè)級VR攝影機(jī)
拿到第一輪融資后,張聰就升級了用小蟻相機(jī)搭建的全景相機(jī),改用了4個(gè)索尼α7以及20個(gè)GoPro組成的方案。他告訴雷鋒網(wǎng)新智造,進(jìn)行圖像拼接時(shí),除了算法,硬件的排布也非常重要,所以,他們的研發(fā),就是不斷迭代算法,改進(jìn)硬件排布,兩邊不斷相互迭代的過程。
方案做好后,量子視覺要去市場試水。他們最有名的作品,是拍攝黃曉明的新劇《萬水千山總是情》的VR宣傳片,以及張楚的第一只全景MV《晃動一下》。張聰還透露了VR視頻制作的“潛規(guī)則”:不少團(tuán)隊(duì)號稱可以制作VR視頻,但他們接活兒后會再找有能力的外包。“黃曉明的片子,到我們已經(jīng)是第六道了。”
(《萬水千山總是情》VR宣傳片)
視頻的效果還不錯(cuò),但拍攝的過程讓張聰堅(jiān)定了自己做一款VR攝影機(jī)的念頭。使用單反或者GoPro拼接的方案,最大的問題是操作太麻煩了,每個(gè)相機(jī)的參數(shù),包括同步、存儲,甚至是拍攝完成后將素材拷貝下來,都是一個(gè)繁瑣務(wù)必的過程,“你要把SD卡一個(gè)一個(gè)拔下來,拷貝素材,再放到軟件里拼接?!边@樣的方案,也根本無法給任何第三方使用。
從2016年3月份開始,量子視覺就開始了研發(fā)一體化VR攝影機(jī)的進(jìn)程。把多個(gè)攝像頭通過特定的排布方式集中到一個(gè)球形上,同時(shí)要考慮散熱、結(jié)構(gòu)、電池續(xù)航和量產(chǎn),每個(gè)環(huán)節(jié)都是“坑”。不過,深圳是硬件創(chuàng)業(yè)者的天堂,而且,早在有這個(gè)念頭之前,量子視覺就招募了前火樂科技研發(fā)總監(jiān)曾作為,堅(jiān)果G1智能家庭影院、堅(jiān)果P1便攜智能投影等暢銷產(chǎn)品,就出自他手。
2016年十一期間,量子視覺就做出了直徑20厘米,排球大小,有著20目攝像頭的全景攝影機(jī),并和暴風(fēng)體育合作,用在中國網(wǎng)球公開賽的VR直播中。此后,經(jīng)過再次迭代以及配套軟件的開發(fā),量子視覺在今年3月21日正式發(fā)布了這款相機(jī)——AURA專業(yè)級VR攝影機(jī)。
AURA由20枚鏡頭組成,水平方向?yàn)?6枚視場角90度的廣角鏡頭,頂端和底部則為4個(gè)視場角為190度的魚眼鏡頭,可連續(xù)拍攝1個(gè)小時(shí),使用外部供電方案則可以實(shí)現(xiàn)長達(dá)10小時(shí)的連續(xù)拍攝。AURA可以支持目前主流的 H.264、H.265 視頻編碼標(biāo)準(zhǔn),最大可以輸出25fps的10K 3D影像、60fps的10K 2D影像以及120fps的6K 2D影像。它還可以進(jìn)行VR直播,實(shí)時(shí)輸出6K、30fps的3D VR直播畫面,并通過RTSP協(xié)議進(jìn)行有線或無線實(shí)時(shí)監(jiān)看。
AURA還有配套的實(shí)時(shí)監(jiān)控軟件AURA WORK和后期制作軟件AURA STUDIO,可以實(shí)現(xiàn)實(shí)時(shí)監(jiān)看,以及一鍵快速素材導(dǎo)出、拼接、剪輯等,大大提高了高質(zhì)量VR視頻的制作效率。
“我自己也覺得,我們公司的模式很重,又要做硬件又要做軟件,但這是因?yàn)檎麄€(gè)生態(tài)鏈不成熟。我們堅(jiān)持做下來,反而會成為壁壘?!?/p>
VR+行業(yè)還不成立,市場需要有專注底層技術(shù)的創(chuàng)業(yè)公司
現(xiàn)在,VR遇冷在張聰看來并不奇怪。去年VR被資本熱捧的原因很簡單,大家默認(rèn)VR是一個(gè)成熟的東西,和各個(gè)行業(yè)結(jié)合,就可以產(chǎn)生巨大的價(jià)值。
不過現(xiàn)在來看,這個(gè)邏輯并不成立。其中最大的問題是在根本的底層技術(shù)上,VR的很多方面都是缺失的,整個(gè)生態(tài)鏈還處于非常不成熟的階段。以VR直播為例,在直播時(shí),需要有實(shí)時(shí)拼接能力和推流能力的高清攝影方案,但同時(shí),網(wǎng)絡(luò)的上行帶寬、CDN分發(fā)以及用戶的接收端,都還存在很大的問題。
因?yàn)楦叨嗽O(shè)備價(jià)格昂貴,加上VR內(nèi)容,尤其是VR視頻體驗(yàn)糟糕,C端市場的缺失是VR行業(yè)面臨的有一個(gè)大問題。現(xiàn)在,已經(jīng)很少再有明星嘗試VR版的視頻內(nèi)容。
在這樣的情況下,更需要有專注底層技術(shù)的創(chuàng)業(yè)公司,這也是量子視覺推出可以拍攝10K視頻的VR攝影機(jī)的原因。通常來說,人眼的視角區(qū)域不到70度。在360度的全景視頻,需要10K的分辨率,才能在人眼所視范圍內(nèi),達(dá)到每只眼4K的觀看效果。
“我最開始創(chuàng)業(yè)的時(shí)候,就沒覺得VR會很快火起來,因?yàn)槲耶?dāng)時(shí)看大家做的東西都一塌糊涂?!睆埪敯堰@個(gè)看做技術(shù)創(chuàng)業(yè)者最好的機(jī)會,而將技術(shù)壁壘快速轉(zhuǎn)化為商業(yè)壁壘后,有造血能力的VR公司會在一兩年內(nèi)迎來春天。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。