1
本文作者: 宗仁 | 2016-08-26 17:32 | 專題:雷峰網(wǎng)公開課 |
相信不少學(xué)者在面對(duì)艱深的科研課題的時(shí)候,心中都有過(guò)那么一絲疑惑:這東西何時(shí)能實(shí)現(xiàn)產(chǎn)業(yè)化,真正造福社會(huì)?盡管心中的信念不會(huì)因此動(dòng)搖,但疑惑仍然長(zhǎng)時(shí)間的存在著。一項(xiàng)新技術(shù)從在實(shí)驗(yàn)室中誕生,到最終投入大規(guī)模使用,這其中經(jīng)歷的艱難和磨難會(huì)遠(yuǎn)遠(yuǎn)多于常人的想象。學(xué)術(shù)研究和商業(yè)化應(yīng)用可以說(shuō)是幾乎同樣困難的兩個(gè)課題。有人醉心于探索科技最前沿的方向和理論,但也有人更希望自己能幫助將這些技術(shù)落地到具體的產(chǎn)品中去,真正的為大家服務(wù)。這些人中的很多最后都去到了相關(guān)公司的實(shí)驗(yàn)室中貢獻(xiàn)出自己的一份力量,也有些自己創(chuàng)業(yè),開始了一條屬于自己的技術(shù)產(chǎn)業(yè)化道路。不過(guò)這其中的暗坑之多,恐怕只有親身經(jīng)歷過(guò)的人才能理解。雷鋒網(wǎng)雷鋒網(wǎng)
本期雷鋒網(wǎng)硬創(chuàng)公開課我們請(qǐng)來(lái)了極視角CTO黃纓寧,來(lái)為我們解答這個(gè)問(wèn)題。黃纓寧, 畢業(yè)于北京大學(xué)機(jī)器感知與智能實(shí)驗(yàn)室,師從長(zhǎng)江學(xué)者特聘教授查紅彬教授。曾作為主要成員參與多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的國(guó)家自然科學(xué)基金項(xiàng)目并發(fā)表論文,獲得相關(guān)專利。
曾在百度進(jìn)行數(shù)據(jù)挖掘工作并與大數(shù)據(jù)部共同發(fā)布電影票房預(yù)測(cè)系統(tǒng),后獲谷歌總部無(wú)人駕駛錄取?,F(xiàn)為極視角CTO,負(fù)責(zé)計(jì)算機(jī)視覺(jué)相關(guān)項(xiàng)目的調(diào)研、設(shè)計(jì)與開發(fā),機(jī)器學(xué)習(xí)及深度學(xué)習(xí)平臺(tái)搭建,技術(shù)架構(gòu)的設(shè)計(jì)與項(xiàng)目開發(fā)的管理把控。主導(dǎo)了CK,中國(guó)電信,上海公園,華潤(rùn)大疆等CV項(xiàng)目的技術(shù)實(shí)現(xiàn)。致力于打造中國(guó)第一個(gè)計(jì)算機(jī)視覺(jué)的PAAS云平臺(tái),讓CV的從業(yè)者能在實(shí)際應(yīng)用中釋放自己的洪荒之力,推動(dòng)計(jì)算機(jī)視覺(jué)技術(shù)在生產(chǎn)環(huán)境中的落地。
如果你也想跟我們近萬(wàn)學(xué)霸精英用戶做近距離交流,也想成為我們的產(chǎn)業(yè)界首席科學(xué)家分享嘉賓,請(qǐng)發(fā)郵件至lizongren@leiphone.com
實(shí)驗(yàn)室里做的主要是計(jì)算機(jī)視覺(jué),基于計(jì)算機(jī)視覺(jué)的行為分析。做過(guò)ADAS,基于行車環(huán)境的車速控制,也做一些高階行為的檢測(cè),比如共同關(guān)注的識(shí)別和質(zhì)量判斷,這對(duì)兒童早期自閉癥的發(fā)現(xiàn)是一個(gè)重要參考。計(jì)算機(jī)視覺(jué),機(jī)器學(xué)習(xí),模式識(shí)別,三維視覺(jué),壓縮感知,數(shù)值計(jì)算與優(yōu)化等都是一些專業(yè)課程。
專業(yè)外課程就選擇多了,選過(guò)心理學(xué),這塊還是挺有意思的,很多心理的過(guò)程都會(huì)在肢體表情和互動(dòng)中表現(xiàn)出來(lái),而表現(xiàn)出來(lái)的這些feature很多都能通過(guò)計(jì)算機(jī)視覺(jué)的方法捕捉,換言之,心理學(xué)可以提供整體模型思路,而我就是用計(jì)算機(jī)的語(yǔ)言把這個(gè)翻譯出來(lái)。當(dāng)時(shí)也選了偏生物一點(diǎn)的講大腦構(gòu)造和視覺(jué)形成的課,那里就有深度學(xué)習(xí)的思路在。許多科學(xué)的發(fā)展就是仿生學(xué),所以說(shuō)要走進(jìn)自己,了解自己。還選過(guò)漢服文化,有段時(shí)間沒(méi)周末都會(huì)穿漢服在園子里晃悠,挺有意思的。
做數(shù)據(jù)挖掘這事是這么考慮的。處理信號(hào)的方法論都是一致的,只是說(shuō)輸入的類別不一樣,以前做的是基于視覺(jué),但不代表就這套方法論就只能handle視覺(jué)。數(shù)據(jù)挖掘中用也到很多機(jī)器學(xué)習(xí)和模式識(shí)別的東西。
其實(shí)不完全一致。當(dāng)時(shí)研究偏高層行為識(shí)別與建模一些,但是在真正通用環(huán)境下的行為識(shí)別和分析還是挺難的。視覺(jué)上升到做行為分析經(jīng)歷的環(huán)節(jié)非常多,檢測(cè),跟蹤,姿態(tài),識(shí)別,場(chǎng)景理解,每一步都是行為分析中的一個(gè)模塊,搭建起來(lái)整個(gè)系統(tǒng)的累計(jì)噪聲不容小覷。
而這些偏中低層一點(diǎn)的視覺(jué)任務(wù)由于現(xiàn)實(shí)環(huán)境比實(shí)驗(yàn)室環(huán)境復(fù)雜很多,噪聲會(huì)大很多,難以達(dá)到通用兼商用。 到一些基礎(chǔ)的算法能通用的時(shí)候,做行為就會(huì)簡(jiǎn)單很多,不然累計(jì)的誤差太大。
如果加入非科研機(jī)構(gòu)就算投入產(chǎn)業(yè)界的話,我覺(jué)得這個(gè)條件還挺簡(jiǎn)單的,就是享受做出能被人使用的產(chǎn)品的快感。記得曾經(jīng)老師讓我發(fā)Paper,發(fā)完后和老師說(shuō),我覺(jué)得這個(gè)不是那么有意義,挺迷茫,感覺(jué)做研究就是為了發(fā)Paper一樣,但看不到一些直接的影響。
老師覺(jué)得學(xué)界對(duì)世界的貢獻(xiàn)的多數(shù)方式就是有人看到你的研究并推動(dòng)其邊界延伸哪怕一點(diǎn)點(diǎn),最后反饋到產(chǎn)業(yè)界,給這個(gè)世界帶來(lái)實(shí)質(zhì)性的影響。而我個(gè)人,更享受這種直接改變帶來(lái)的快感吧。
其實(shí)也還好,本來(lái)就想去的。
是個(gè)很有意思的問(wèn)題,讓我想采樣做個(gè)相關(guān)性分析了。比如Caffe作者的賈揚(yáng)清,Caffe其實(shí)是他博士期間的一個(gè)作品,但這個(gè)框架非常優(yōu)秀,不僅在學(xué)術(shù)界也在工業(yè)界收到了廣泛的關(guān)注,Google和Facebook向他拋橄欖枝也就不奇怪。
而且這樣的巨頭,能提供的資源是海量的,你可以在里面繼續(xù)學(xué)術(shù)研究,會(huì)有人把你的技術(shù)變現(xiàn)的。所以這是個(gè)先后問(wèn)題,基本在學(xué)界做得風(fēng)生水起的,總會(huì)有產(chǎn)業(yè)界的人聞香而來(lái)。而自主創(chuàng)業(yè)的那些,我想他們心里可能和我一樣,希望能直接的對(duì)這個(gè)世界make a little change 。
學(xué)不優(yōu)而投身創(chuàng)業(yè)的,需要具備哪些條件?
認(rèn)識(shí)一個(gè)架構(gòu)大神是學(xué)醫(yī)出身的,可能他學(xué)醫(yī)學(xué)得不夠好,但是不想當(dāng)首架的程序員不是好醫(yī)生呀。學(xué)習(xí)這事并不能讓人全面的表現(xiàn)自己,我可能計(jì)算機(jī)學(xué)的不好,但想從事it類創(chuàng)業(yè)也不是沒(méi)機(jī)會(huì),關(guān)鍵是發(fā)掘自己的閃光點(diǎn),找到適合自己的崗位。
創(chuàng)業(yè)這個(gè)事情還真不適合每個(gè)人,首先你得有毅力,還得樂(lè)觀,有自信,其次你得更能吃苦耐勞。如果純粹是為了財(cái)富自由選擇創(chuàng)業(yè)就還是別來(lái)了,你得對(duì)自己所創(chuàng)的業(yè)認(rèn)同和熱愛(ài),還要具有責(zé)任感,能對(duì)一起奮斗的兄弟負(fù)責(zé)。 有這些基本素質(zhì),我覺(jué)得就差不離能出來(lái)試試了,還要記得帶上一幫不離不棄和你打拼的兄弟。肯定會(huì)有來(lái)自各方的壓力,也會(huì)不斷受到來(lái)自外界的表?yè)P(yáng)和批評(píng),但記得要樂(lè)觀,堅(jiān)持,有使命感。
我們做研究的時(shí)候有時(shí)會(huì)忽略前置步驟的完成情況,而驗(yàn)證模型創(chuàng)新部分的方法論,證明這個(gè)步驟是work的。但產(chǎn)業(yè)界沒(méi)有這樣的假設(shè),比如你做人臉識(shí)別,那從檢測(cè)到對(duì)齊到特征提取和檢索匹配每一步的誤差都是需要盡量降低的,這就是工程,人家不會(huì)看你中間這個(gè)方法多么work和精妙就買單,看的是整體。
再有在imagenet的battle中,你能看到很多學(xué)術(shù)機(jī)構(gòu)和公司都是會(huì)堆機(jī)器來(lái)拼出這個(gè)精度的。但真正做產(chǎn)品不能是這個(gè)思路,比如我們公司賣的是云上服務(wù),那服務(wù)成本越低,用戶越可以接受,畢竟中國(guó)的環(huán)境本來(lái)對(duì)軟件付費(fèi)就不太接受,而運(yùn)算量越大,付給云的成本也會(huì)越大,這個(gè)會(huì)直接反應(yīng)到服務(wù)成本上。
所以我們追求精度的同時(shí)必須要盡可能減少運(yùn)算量。假設(shè)有些東西我明明知道能達(dá)到四個(gè)9準(zhǔn)確度,但運(yùn)算量要翻十倍,我們就會(huì)問(wèn)自己,三個(gè)9或者兩個(gè)9是否也可以接受。
產(chǎn)業(yè)界只會(huì)更辛苦,要權(quán)衡的東西多很多,精度,效率,產(chǎn)品,模式。等于多維限制條件求最優(yōu)解,沒(méi)有在學(xué)術(shù)界那么目標(biāo)明確的直奔主題,酣暢淋漓吧。但我來(lái)到產(chǎn)業(yè)界發(fā)現(xiàn)一點(diǎn)最大的好處,就是能拿到許多實(shí)際場(chǎng)景中的數(shù)據(jù)。
來(lái)了公司之后上了挺多產(chǎn)品的,覺(jué)得能通過(guò)計(jì)算機(jī)視覺(jué)幫助他們節(jié)省人力成本提高效率當(dāng)然是一件非常開心和有成就感的事情。有一天某公園項(xiàng)目上了我們的客流計(jì)數(shù)后覺(jué)得這個(gè)非常實(shí)用,比之前上的某品牌靠譜很多,要知道那個(gè)廠商也是在這個(gè)行業(yè)里做得不錯(cuò)的。之前他們都對(duì)算法分析出來(lái)的數(shù)據(jù)持懷疑態(tài)度,想用不敢全用,經(jīng)過(guò)幾期隨機(jī)實(shí)際驗(yàn)證后完全信賴了我們的數(shù)據(jù),我知道以后非常開心。這說(shuō)明我們的產(chǎn)品是落地的,實(shí)用的,不是概念或者套著人工智能的花架子。當(dāng)然,被客戶表?yè)P(yáng)優(yōu)于競(jìng)爭(zhēng)對(duì)手也非常開心。
青年科學(xué)家也談不上,坑也談不上,方法論談不上,這幾個(gè)詞都太大,只能說(shuō)說(shuō)幾點(diǎn)經(jīng)驗(yàn)之談吧。
從學(xué)界出來(lái),有時(shí)對(duì)一些東西摳的很深很精細(xì),花費(fèi)了很多的時(shí)間,也不是說(shuō)這樣不好,就是會(huì)放慢成長(zhǎng)速度。對(duì)于初創(chuàng)公司,變化響應(yīng)一定要快,要?jiǎng)?chuàng)新。對(duì)于產(chǎn)品而言不一定要絕對(duì)完美再推出,但一定要有特色,要有核心競(jìng)爭(zhēng)力。在從無(wú)到有的這個(gè)時(shí)期,小細(xì)節(jié)的把控不如大趨勢(shì)的把控,避免陷入局部最優(yōu)難以自拔吧。先有了,才能再打磨精細(xì)。
第二個(gè)就是在組建團(tuán)隊(duì)這一塊,以前單兵作戰(zhàn),或者小團(tuán)伙作戰(zhàn),都是實(shí)驗(yàn)室的人,氣味相投,合作也愉快。到了公司,有些人可能技術(shù)很好但目標(biāo)不一致,有些人可能非常勤奮但給不了產(chǎn)出,這些都不是合適的隊(duì)友,調(diào)整不好時(shí)處理要果決。在人才上要舍得花錢,人才比其他人更知道自己的價(jià)值,打造一個(gè)高效的團(tuán)隊(duì)對(duì)公司能創(chuàng)造成幾何倍數(shù)的價(jià)值,而且強(qiáng)者的團(tuán)隊(duì)才能培養(yǎng)更多的強(qiáng)者。還要了解每個(gè)人的核心訴求,知道如何去激勵(lì)他們,如何讓他們互助的成長(zhǎng)起來(lái)。
第三個(gè)就是建立文化,要形成一定的儀式感。《人類簡(jiǎn)史》上說(shuō),50人以下的社群可以靠口口相傳的信息維持起來(lái),50人以上就要一起相信同一個(gè)故事,比如我們都相信國(guó)家這個(gè)概念,于是我們組成了這個(gè)國(guó)家的公民群體。建立好文化了,很多東西都能自己run起來(lái),人與人之間也有了簡(jiǎn)歷初始信賴的依據(jù)。說(shuō)的比較多是管理層面遇到的挑戰(zhàn)吧,技術(shù)的不同之前說(shuō)的比較多了。
CTO其實(shí)不是純技術(shù)崗,還是加了很多需求的。
在技術(shù)方面,需要把握方向,并且身先士卒的實(shí)踐。而且要保持自己技術(shù)上的先進(jìn)性,這樣才能在分析需求的時(shí)候能比較有把握的分析用什么技術(shù)路線,其實(shí)質(zhì)是什么,所以到現(xiàn)在為止我還會(huì)保持每周都要閱讀paper。同時(shí)要保持追蹤產(chǎn)業(yè)界及需求人群的動(dòng)向。作為CTO,雖然是算法出身,但所有和技術(shù)相關(guān)的事情都或多或少的需要安排和管理,就是做事無(wú)邊界,難以像以前一樣只做算法了。
管理方面呢,每天到你眼前的信息會(huì)有很多,需要明晰事情的緊急性和重要性。還有就是要知人善任,熟悉每個(gè)人的優(yōu)缺點(diǎn),他們需要什么樣的指導(dǎo)幫助或資源,打造高效團(tuán)隊(duì),讓團(tuán)隊(duì)團(tuán)結(jié)一心,一個(gè)隊(duì)伍工作起來(lái)要像一個(gè)人。
換,盡快換,前提是真的確定這個(gè)不work,就快刀斬亂麻。我認(rèn)識(shí)一個(gè)人,創(chuàng)業(yè)初期換了三個(gè)方向,第四次才找到方向,都是盡快試錯(cuò),不過(guò)他們背后資金雄厚,不然全員調(diào)整三次以上,基本就沒(méi)戲了。他們現(xiàn)在很好,已經(jīng)過(guò)C輪奔上市了。
如果沒(méi)有他們那么雄厚的資金方力撐到底,就不能這么作,要在起航前確定這是不是偽需求,很多公司就死于偽需求。因?yàn)閯?chuàng)業(yè)者的一個(gè)特質(zhì)就是樂(lè)觀,相信自己,你不相信自己別人怎么相信你,但很多就是盲目樂(lè)觀,一拍腦袋,我覺(jué)得這個(gè)能work,就全員開工了,但其實(shí)是個(gè)偽需求。
人的獲取信息的途徑80%以上是通過(guò)視覺(jué),圖像的信息量非常巨大又復(fù)雜。在深度學(xué)習(xí)以前,學(xué)界和產(chǎn)業(yè)界一直知道視覺(jué)的價(jià)值,然而很多東西都只停留在實(shí)驗(yàn)室,難以走進(jìn)市場(chǎng),達(dá)到現(xiàn)實(shí)場(chǎng)景下的商用精度。
為什么現(xiàn)在看Paper的時(shí)候做什么都要套個(gè)深度學(xué)習(xí),不僅因?yàn)樗?,而且因?yàn)樗麑?shí)在的把一些算法變成能在現(xiàn)實(shí)落地的。只要視覺(jué)技術(shù)能落地,產(chǎn)業(yè)就會(huì)在這里噴發(fā),而視覺(jué)領(lǐng)域一直沒(méi)有在業(yè)界井噴過(guò),現(xiàn)在火一把也不足為奇了。
遙想當(dāng)年畢業(yè)的時(shí)候,沒(méi)幾家公司會(huì)招計(jì)算機(jī)視覺(jué)工程師,所以我挺多師兄師姐都去做自然語(yǔ)言處理或者數(shù)據(jù)挖掘了,當(dāng)時(shí)火的是那一塊。
其實(shí)沒(méi)去成還是有點(diǎn)遺憾,但我收獲了其他的東西,我的男朋友,現(xiàn)在的老公。
人間處處皆修煉,我曾和他開玩笑說(shuō),如果我倆沒(méi)有任何外界壓力,在洱海旁開一個(gè)有wifi的小客棧,我們天天在閣樓上讀書和coding相信也能做出不錯(cuò)的甚至比現(xiàn)在好的研究。為什么這么說(shuō),我覺(jué)得當(dāng)純粹出于興趣的去做一件事情,內(nèi)在的動(dòng)力驅(qū)動(dòng)能帶出來(lái)的東西是難以想象的,所以環(huán)境很重要,內(nèi)心更重要。
至于來(lái)極視角,其實(shí)CEO一直和我有聯(lián)系,他提出這個(gè)paas平臺(tái)的時(shí)候我覺(jué)得很有意思。一般有硬件的時(shí)候就會(huì)有軟件的市場(chǎng),但市場(chǎng)上的攝像頭幾乎只傳輸視頻數(shù)據(jù),沒(méi)有額外分析能力,這點(diǎn)很奇怪。
世界上70%的硬盤裝的是視頻數(shù)據(jù),這么海量的數(shù)據(jù)里卻沒(méi)產(chǎn)生相應(yīng)的海量信息,因?yàn)槿鄙俅竽X分析這些數(shù)據(jù)。而paas平臺(tái)的意思就是做一個(gè)計(jì)算機(jī)視覺(jué)的App Store,只要攝像頭能連接極視角的平臺(tái),我就可以家里有老人的話,安裝一個(gè)老人摔倒監(jiān)控的算法,店鋪里攝像頭可以安裝客流的算法,這個(gè)就很有意思了,計(jì)算機(jī)視覺(jué)可以解決的問(wèn)題,深入的場(chǎng)景就多了,這些視頻也就不是躺在硬盤里的dead data,能真正的產(chǎn)生意義。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。