1
本文作者: 宗仁 | 2016-08-26 17:32 | 專題:雷峰網(wǎng)公開課 |
相信不少學(xué)者在面對艱深的科研課題的時候,心中都有過那么一絲疑惑:這東西何時能實現(xiàn)產(chǎn)業(yè)化,真正造福社會?盡管心中的信念不會因此動搖,但疑惑仍然長時間的存在著。一項新技術(shù)從在實驗室中誕生,到最終投入大規(guī)模使用,這其中經(jīng)歷的艱難和磨難會遠(yuǎn)遠(yuǎn)多于常人的想象。學(xué)術(shù)研究和商業(yè)化應(yīng)用可以說是幾乎同樣困難的兩個課題。有人醉心于探索科技最前沿的方向和理論,但也有人更希望自己能幫助將這些技術(shù)落地到具體的產(chǎn)品中去,真正的為大家服務(wù)。這些人中的很多最后都去到了相關(guān)公司的實驗室中貢獻(xiàn)出自己的一份力量,也有些自己創(chuàng)業(yè),開始了一條屬于自己的技術(shù)產(chǎn)業(yè)化道路。不過這其中的暗坑之多,恐怕只有親身經(jīng)歷過的人才能理解。雷鋒網(wǎng)雷鋒網(wǎng)
本期雷鋒網(wǎng)硬創(chuàng)公開課我們請來了極視角CTO黃纓寧,來為我們解答這個問題。黃纓寧, 畢業(yè)于北京大學(xué)機器感知與智能實驗室,師從長江學(xué)者特聘教授查紅彬教授。曾作為主要成員參與多個計算機視覺領(lǐng)域的國家自然科學(xué)基金項目并發(fā)表論文,獲得相關(guān)專利。
曾在百度進(jìn)行數(shù)據(jù)挖掘工作并與大數(shù)據(jù)部共同發(fā)布電影票房預(yù)測系統(tǒng),后獲谷歌總部無人駕駛錄取?,F(xiàn)為極視角CTO,負(fù)責(zé)計算機視覺相關(guān)項目的調(diào)研、設(shè)計與開發(fā),機器學(xué)習(xí)及深度學(xué)習(xí)平臺搭建,技術(shù)架構(gòu)的設(shè)計與項目開發(fā)的管理把控。主導(dǎo)了CK,中國電信,上海公園,華潤大疆等CV項目的技術(shù)實現(xiàn)。致力于打造中國第一個計算機視覺的PAAS云平臺,讓CV的從業(yè)者能在實際應(yīng)用中釋放自己的洪荒之力,推動計算機視覺技術(shù)在生產(chǎn)環(huán)境中的落地。
如果你也想跟我們近萬學(xué)霸精英用戶做近距離交流,也想成為我們的產(chǎn)業(yè)界首席科學(xué)家分享嘉賓,請發(fā)郵件至lizongren@leiphone.com
實驗室里做的主要是計算機視覺,基于計算機視覺的行為分析。做過ADAS,基于行車環(huán)境的車速控制,也做一些高階行為的檢測,比如共同關(guān)注的識別和質(zhì)量判斷,這對兒童早期自閉癥的發(fā)現(xiàn)是一個重要參考。計算機視覺,機器學(xué)習(xí),模式識別,三維視覺,壓縮感知,數(shù)值計算與優(yōu)化等都是一些專業(yè)課程。
專業(yè)外課程就選擇多了,選過心理學(xué),這塊還是挺有意思的,很多心理的過程都會在肢體表情和互動中表現(xiàn)出來,而表現(xiàn)出來的這些feature很多都能通過計算機視覺的方法捕捉,換言之,心理學(xué)可以提供整體模型思路,而我就是用計算機的語言把這個翻譯出來。當(dāng)時也選了偏生物一點的講大腦構(gòu)造和視覺形成的課,那里就有深度學(xué)習(xí)的思路在。許多科學(xué)的發(fā)展就是仿生學(xué),所以說要走進(jìn)自己,了解自己。還選過漢服文化,有段時間沒周末都會穿漢服在園子里晃悠,挺有意思的。
做數(shù)據(jù)挖掘這事是這么考慮的。處理信號的方法論都是一致的,只是說輸入的類別不一樣,以前做的是基于視覺,但不代表就這套方法論就只能handle視覺。數(shù)據(jù)挖掘中用也到很多機器學(xué)習(xí)和模式識別的東西。
其實不完全一致。當(dāng)時研究偏高層行為識別與建模一些,但是在真正通用環(huán)境下的行為識別和分析還是挺難的。視覺上升到做行為分析經(jīng)歷的環(huán)節(jié)非常多,檢測,跟蹤,姿態(tài),識別,場景理解,每一步都是行為分析中的一個模塊,搭建起來整個系統(tǒng)的累計噪聲不容小覷。
而這些偏中低層一點的視覺任務(wù)由于現(xiàn)實環(huán)境比實驗室環(huán)境復(fù)雜很多,噪聲會大很多,難以達(dá)到通用兼商用。 到一些基礎(chǔ)的算法能通用的時候,做行為就會簡單很多,不然累計的誤差太大。
如果加入非科研機構(gòu)就算投入產(chǎn)業(yè)界的話,我覺得這個條件還挺簡單的,就是享受做出能被人使用的產(chǎn)品的快感。記得曾經(jīng)老師讓我發(fā)Paper,發(fā)完后和老師說,我覺得這個不是那么有意義,挺迷茫,感覺做研究就是為了發(fā)Paper一樣,但看不到一些直接的影響。
老師覺得學(xué)界對世界的貢獻(xiàn)的多數(shù)方式就是有人看到你的研究并推動其邊界延伸哪怕一點點,最后反饋到產(chǎn)業(yè)界,給這個世界帶來實質(zhì)性的影響。而我個人,更享受這種直接改變帶來的快感吧。
其實也還好,本來就想去的。
是個很有意思的問題,讓我想采樣做個相關(guān)性分析了。比如Caffe作者的賈揚清,Caffe其實是他博士期間的一個作品,但這個框架非常優(yōu)秀,不僅在學(xué)術(shù)界也在工業(yè)界收到了廣泛的關(guān)注,Google和Facebook向他拋橄欖枝也就不奇怪。
而且這樣的巨頭,能提供的資源是海量的,你可以在里面繼續(xù)學(xué)術(shù)研究,會有人把你的技術(shù)變現(xiàn)的。所以這是個先后問題,基本在學(xué)界做得風(fēng)生水起的,總會有產(chǎn)業(yè)界的人聞香而來。而自主創(chuàng)業(yè)的那些,我想他們心里可能和我一樣,希望能直接的對這個世界make a little change 。
學(xué)不優(yōu)而投身創(chuàng)業(yè)的,需要具備哪些條件?
認(rèn)識一個架構(gòu)大神是學(xué)醫(yī)出身的,可能他學(xué)醫(yī)學(xué)得不夠好,但是不想當(dāng)首架的程序員不是好醫(yī)生呀。學(xué)習(xí)這事并不能讓人全面的表現(xiàn)自己,我可能計算機學(xué)的不好,但想從事it類創(chuàng)業(yè)也不是沒機會,關(guān)鍵是發(fā)掘自己的閃光點,找到適合自己的崗位。
創(chuàng)業(yè)這個事情還真不適合每個人,首先你得有毅力,還得樂觀,有自信,其次你得更能吃苦耐勞。如果純粹是為了財富自由選擇創(chuàng)業(yè)就還是別來了,你得對自己所創(chuàng)的業(yè)認(rèn)同和熱愛,還要具有責(zé)任感,能對一起奮斗的兄弟負(fù)責(zé)。 有這些基本素質(zhì),我覺得就差不離能出來試試了,還要記得帶上一幫不離不棄和你打拼的兄弟。肯定會有來自各方的壓力,也會不斷受到來自外界的表揚和批評,但記得要樂觀,堅持,有使命感。
我們做研究的時候有時會忽略前置步驟的完成情況,而驗證模型創(chuàng)新部分的方法論,證明這個步驟是work的。但產(chǎn)業(yè)界沒有這樣的假設(shè),比如你做人臉識別,那從檢測到對齊到特征提取和檢索匹配每一步的誤差都是需要盡量降低的,這就是工程,人家不會看你中間這個方法多么work和精妙就買單,看的是整體。
再有在imagenet的battle中,你能看到很多學(xué)術(shù)機構(gòu)和公司都是會堆機器來拼出這個精度的。但真正做產(chǎn)品不能是這個思路,比如我們公司賣的是云上服務(wù),那服務(wù)成本越低,用戶越可以接受,畢竟中國的環(huán)境本來對軟件付費就不太接受,而運算量越大,付給云的成本也會越大,這個會直接反應(yīng)到服務(wù)成本上。
所以我們追求精度的同時必須要盡可能減少運算量。假設(shè)有些東西我明明知道能達(dá)到四個9準(zhǔn)確度,但運算量要翻十倍,我們就會問自己,三個9或者兩個9是否也可以接受。
產(chǎn)業(yè)界只會更辛苦,要權(quán)衡的東西多很多,精度,效率,產(chǎn)品,模式。等于多維限制條件求最優(yōu)解,沒有在學(xué)術(shù)界那么目標(biāo)明確的直奔主題,酣暢淋漓吧。但我來到產(chǎn)業(yè)界發(fā)現(xiàn)一點最大的好處,就是能拿到許多實際場景中的數(shù)據(jù)。
來了公司之后上了挺多產(chǎn)品的,覺得能通過計算機視覺幫助他們節(jié)省人力成本提高效率當(dāng)然是一件非常開心和有成就感的事情。有一天某公園項目上了我們的客流計數(shù)后覺得這個非常實用,比之前上的某品牌靠譜很多,要知道那個廠商也是在這個行業(yè)里做得不錯的。之前他們都對算法分析出來的數(shù)據(jù)持懷疑態(tài)度,想用不敢全用,經(jīng)過幾期隨機實際驗證后完全信賴了我們的數(shù)據(jù),我知道以后非常開心。這說明我們的產(chǎn)品是落地的,實用的,不是概念或者套著人工智能的花架子。當(dāng)然,被客戶表揚優(yōu)于競爭對手也非常開心。
青年科學(xué)家也談不上,坑也談不上,方法論談不上,這幾個詞都太大,只能說說幾點經(jīng)驗之談吧。
從學(xué)界出來,有時對一些東西摳的很深很精細(xì),花費了很多的時間,也不是說這樣不好,就是會放慢成長速度。對于初創(chuàng)公司,變化響應(yīng)一定要快,要創(chuàng)新。對于產(chǎn)品而言不一定要絕對完美再推出,但一定要有特色,要有核心競爭力。在從無到有的這個時期,小細(xì)節(jié)的把控不如大趨勢的把控,避免陷入局部最優(yōu)難以自拔吧。先有了,才能再打磨精細(xì)。
第二個就是在組建團(tuán)隊這一塊,以前單兵作戰(zhàn),或者小團(tuán)伙作戰(zhàn),都是實驗室的人,氣味相投,合作也愉快。到了公司,有些人可能技術(shù)很好但目標(biāo)不一致,有些人可能非常勤奮但給不了產(chǎn)出,這些都不是合適的隊友,調(diào)整不好時處理要果決。在人才上要舍得花錢,人才比其他人更知道自己的價值,打造一個高效的團(tuán)隊對公司能創(chuàng)造成幾何倍數(shù)的價值,而且強者的團(tuán)隊才能培養(yǎng)更多的強者。還要了解每個人的核心訴求,知道如何去激勵他們,如何讓他們互助的成長起來。
第三個就是建立文化,要形成一定的儀式感。《人類簡史》上說,50人以下的社群可以靠口口相傳的信息維持起來,50人以上就要一起相信同一個故事,比如我們都相信國家這個概念,于是我們組成了這個國家的公民群體。建立好文化了,很多東西都能自己run起來,人與人之間也有了簡歷初始信賴的依據(jù)。說的比較多是管理層面遇到的挑戰(zhàn)吧,技術(shù)的不同之前說的比較多了。
CTO其實不是純技術(shù)崗,還是加了很多需求的。
在技術(shù)方面,需要把握方向,并且身先士卒的實踐。而且要保持自己技術(shù)上的先進(jìn)性,這樣才能在分析需求的時候能比較有把握的分析用什么技術(shù)路線,其實質(zhì)是什么,所以到現(xiàn)在為止我還會保持每周都要閱讀paper。同時要保持追蹤產(chǎn)業(yè)界及需求人群的動向。作為CTO,雖然是算法出身,但所有和技術(shù)相關(guān)的事情都或多或少的需要安排和管理,就是做事無邊界,難以像以前一樣只做算法了。
管理方面呢,每天到你眼前的信息會有很多,需要明晰事情的緊急性和重要性。還有就是要知人善任,熟悉每個人的優(yōu)缺點,他們需要什么樣的指導(dǎo)幫助或資源,打造高效團(tuán)隊,讓團(tuán)隊團(tuán)結(jié)一心,一個隊伍工作起來要像一個人。
換,盡快換,前提是真的確定這個不work,就快刀斬亂麻。我認(rèn)識一個人,創(chuàng)業(yè)初期換了三個方向,第四次才找到方向,都是盡快試錯,不過他們背后資金雄厚,不然全員調(diào)整三次以上,基本就沒戲了。他們現(xiàn)在很好,已經(jīng)過C輪奔上市了。
如果沒有他們那么雄厚的資金方力撐到底,就不能這么作,要在起航前確定這是不是偽需求,很多公司就死于偽需求。因為創(chuàng)業(yè)者的一個特質(zhì)就是樂觀,相信自己,你不相信自己別人怎么相信你,但很多就是盲目樂觀,一拍腦袋,我覺得這個能work,就全員開工了,但其實是個偽需求。
人的獲取信息的途徑80%以上是通過視覺,圖像的信息量非常巨大又復(fù)雜。在深度學(xué)習(xí)以前,學(xué)界和產(chǎn)業(yè)界一直知道視覺的價值,然而很多東西都只停留在實驗室,難以走進(jìn)市場,達(dá)到現(xiàn)實場景下的商用精度。
為什么現(xiàn)在看Paper的時候做什么都要套個深度學(xué)習(xí),不僅因為他火,而且因為他實在的把一些算法變成能在現(xiàn)實落地的。只要視覺技術(shù)能落地,產(chǎn)業(yè)就會在這里噴發(fā),而視覺領(lǐng)域一直沒有在業(yè)界井噴過,現(xiàn)在火一把也不足為奇了。
遙想當(dāng)年畢業(yè)的時候,沒幾家公司會招計算機視覺工程師,所以我挺多師兄師姐都去做自然語言處理或者數(shù)據(jù)挖掘了,當(dāng)時火的是那一塊。
其實沒去成還是有點遺憾,但我收獲了其他的東西,我的男朋友,現(xiàn)在的老公。
人間處處皆修煉,我曾和他開玩笑說,如果我倆沒有任何外界壓力,在洱海旁開一個有wifi的小客棧,我們天天在閣樓上讀書和coding相信也能做出不錯的甚至比現(xiàn)在好的研究。為什么這么說,我覺得當(dāng)純粹出于興趣的去做一件事情,內(nèi)在的動力驅(qū)動能帶出來的東西是難以想象的,所以環(huán)境很重要,內(nèi)心更重要。
至于來極視角,其實CEO一直和我有聯(lián)系,他提出這個paas平臺的時候我覺得很有意思。一般有硬件的時候就會有軟件的市場,但市場上的攝像頭幾乎只傳輸視頻數(shù)據(jù),沒有額外分析能力,這點很奇怪。
世界上70%的硬盤裝的是視頻數(shù)據(jù),這么海量的數(shù)據(jù)里卻沒產(chǎn)生相應(yīng)的海量信息,因為缺少大腦分析這些數(shù)據(jù)。而paas平臺的意思就是做一個計算機視覺的App Store,只要攝像頭能連接極視角的平臺,我就可以家里有老人的話,安裝一個老人摔倒監(jiān)控的算法,店鋪里攝像頭可以安裝客流的算法,這個就很有意思了,計算機視覺可以解決的問題,深入的場景就多了,這些視頻也就不是躺在硬盤里的dead data,能真正的產(chǎn)生意義。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。