丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

本文作者: 楊曉凡 2019-07-22 10:23
導(dǎo)語:從一線研究者身上一窺CV十年

雷鋒網(wǎng) AI 科技評論按:2007 年,清華大學(xué)計算機(jī)系學(xué)生李源憑論文《Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Life》獲得了當(dāng)年的 CVPR 最佳學(xué)生論文獎,這也是中國學(xué)生史上第一次拿到這項在計算機(jī)視覺領(lǐng)域代表著不小榮譽(yù)的獎項,清華新聞網(wǎng)為此事撰寫的新聞今天也還能看到。而后,李源在谷歌繼續(xù)從事計算機(jī)視覺研究近十年,并在去年離開谷歌,加入了中國人工智能創(chuàng)業(yè)企業(yè)地平線(Horizon Robotics),成為地平線應(yīng)用 AI 實驗室的負(fù)責(zé)人。

巧的是,今年 CVPR 2019 的最佳學(xué)生論文也出自中國作者,這篇論文也讓同樣參加此次大會的李源有所留意。李源作為在計算機(jī)視覺研究一線「拼殺」了十余年的老兵,也作為計算機(jī)視覺領(lǐng)域歷年發(fā)展、CVPR 歷年變遷的親歷者,我們好奇她的經(jīng)歷如何反映了這個領(lǐng)域的變化、她如何看待這個領(lǐng)域的進(jìn)展、如何看待計算機(jī)視覺的產(chǎn)業(yè)化,以及她對 CVPR 會議動向的理解。

雷鋒網(wǎng) AI 科技評論在 CVPR 2019 展區(qū)、地平線展臺對李源進(jìn)行了專訪。

專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

地平線團(tuán)隊在 CVPR 展臺合影,右一為李源

計算機(jī)視覺科研和產(chǎn)品老兵

雷鋒網(wǎng) AI 科技評論: 2007年獲得 CVPR 2007 最佳學(xué)生論文獎的時候,您還在攻讀南加州大學(xué)的博士學(xué)位,當(dāng)時的研究領(lǐng)域包括對象檢測和追蹤、對象整合、帶有人體動作理解的上下文知識。這些年來研究領(lǐng)域是否有所變化?

李源:我畢業(yè)了以后去了谷歌,在谷歌期間主要的研究領(lǐng)域是大規(guī)模圖像檢索、細(xì)粒度對象識別、對象檢測這些東西。谷歌的業(yè)務(wù)需要理解海量的圖像里面的內(nèi)容,包括一般的互聯(lián)網(wǎng)上的圖像,也包括個人的照片,方便做一些搜索相關(guān)的業(yè)務(wù),例如商品的搜索、Google Photos搜索等等。

現(xiàn)在在地平線,我負(fù)責(zé)的團(tuán)隊是做計算機(jī)視覺方面的研究,項目范圍比較廣, 從基礎(chǔ)的網(wǎng)絡(luò)架構(gòu)優(yōu)化,到各種檢測分割識別算法,再到針對特定應(yīng)用場景的算法都有涉及。舉例來說,網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,包括手工的、自動的(NAS),因為我們有自己的芯片,需要針對芯片來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu), 這方面有不少論文, 最近比如DenseNas;再比如檢測、分割、跟蹤和識別,這次 CVPR 我們有一篇關(guān)于分割的 Oral paper(arxiv.org/abs/1803.01534)。 當(dāng)前我們的研究方向在逐漸從單張圖像往視頻上轉(zhuǎn),從單傳感器往多傳感器轉(zhuǎn), 從2D往3D轉(zhuǎn)。

針對應(yīng)用場景的算法, 主要是和我們的駕駛以及 AIoT 兩大產(chǎn)品線合作, 用算法的改進(jìn)和創(chuàng)新加速產(chǎn)品落地. 我的團(tuán)隊里有幾位資深的 tech lead 都很厲害。所以我對這些領(lǐng)域不精通,但他們都很精通。對我自己來說,和他們合作是一個寶貴的學(xué)習(xí)的過程。

關(guān)于發(fā)論文, 我從畢業(yè)了以后就基本上做得非常的面向應(yīng)用,就是說發(fā)論文就不是我的目標(biāo)了。做的東西雖然是偏科研,就是研究還沒有被解決的問題,但是希望是能夠用到產(chǎn)品上的,比如說能帶來一些新的產(chǎn)品特性,或者改善現(xiàn)在的產(chǎn)品,所以很多時候需要考慮的問題并不光是算法上的創(chuàng)新。也比如說我在谷歌的時候有很多的問題都是來自于,面對缺少標(biāo)注的、帶有噪聲的、但是非常大量的數(shù)據(jù),要怎么做數(shù)據(jù)挖掘把它轉(zhuǎn)化成有用的數(shù)據(jù)。包括模型設(shè)計的時候要考慮到效率、如何部署,這些都是需要端到端地考慮的問題。

雷鋒網(wǎng) AI 科技評論:作為應(yīng)用 AI 實驗室的負(fù)責(zé)人,工作模式是如何的(相比于純學(xué)術(shù)研究)?

李源:我從畢業(yè)了以后就在做面向應(yīng)用的計算機(jī)視覺科研,工作模式也一直沒有太多的改變,就是剛才說的研究還沒有被解決的問題,并且希望是能夠用到產(chǎn)品上。

和產(chǎn)品線團(tuán)隊相比,由于我們隸屬平臺部門而不是某一個產(chǎn)品線,首先我們有很好的機(jī)會去了解不同產(chǎn)品線的需求,挖掘其中的共性,提高研發(fā)效率;第二我們可以更多的關(guān)注新算法,做有一定風(fēng)險的,或是更長線的投入。

雷鋒網(wǎng) AI 科技評論:具體說是先設(shè)定一個工程目標(biāo)然后確定技術(shù)瓶頸、定點突破?

李源:有時候是技術(shù)戰(zhàn)略預(yù)判了, 需求一開始不完全清晰但是有個大概方向, 先有錘子(牛逼的算法),然后去找釘子;有時候是先有釘子: 產(chǎn)品線說我要這個,但是現(xiàn)在做不了,然后我們?nèi)ピ戾N子;有時候是釘子錘子逐步磨合迭代出來;幾種狀況都有。所以還挺有意思的,因為你要對產(chǎn)品和技術(shù)都有判斷力,然后才能做決策,有時候還要考慮到資源, 比如自己的團(tuán)隊以及合作的團(tuán)隊各自擅長做什么。

雷鋒網(wǎng) AI 科技評論:有沒有想要分享的心得或者對年輕學(xué)者的建議?

李源:想不出來什么不老生常談的。一點是,每個人想做的事和適合做的事都不一樣,比較容易成功的事一般是自己擅長的(會不斷得到正反饋)或者是自己覺得很有熱情的,應(yīng)該去找到這樣的事情;二是,一起工作的人很重要,找到一個支持你信任你的領(lǐng)導(dǎo)/導(dǎo)師,和靠譜的、志同道合的人一起工作事半功倍,同時也慷慨的幫助你的伙伴。我離開谷歌的時候一個同事對我說,再牛逼的項目往往幾年后也面目全非,但是你給周圍的人留下的影響是永久的。谷歌是一個很牛逼的公司,但是我離開以后想念我的領(lǐng)導(dǎo)和同事多過谷歌的技術(shù);而地平線最讓我感動的也是這里的小伙伴們。

計算機(jī)視覺領(lǐng)域,發(fā)展得健康嗎?

專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

CVPR 2019 workshop 論文海報展區(qū)

雷鋒網(wǎng) AI 科技評論:領(lǐng)域內(nèi)都認(rèn)可深度學(xué)習(xí)是一個強(qiáng)大的工具,大多數(shù)問題都可以通過DNN端到端地解決,以至于很多學(xué)術(shù)論文也是在這個思路上的小修小補(bǔ),甚至有人認(rèn)為整個領(lǐng)域的研究風(fēng)氣都開始更關(guān)注于某些具體環(huán)境下的解決方案設(shè)計而不是深入的理論探究。您認(rèn)同這種觀點嗎?

李源:理論研究和包括你說的具體環(huán)境下解決方案,就是我們平時說的面向應(yīng)用的論文,其實兩種都需要,但是適合做這兩種事情的人也不一樣。

雷鋒網(wǎng) AI 科技評論:偏應(yīng)用的論文比重是否太高了。因為我們現(xiàn)在有深度學(xué)習(xí)這樣的工具,所以發(fā)這樣的論文其實比較簡單?

李源:CVPR上是比較高。我覺得這本質(zhì)上是一個需求、產(chǎn)出、成本的平衡。現(xiàn)在我們可以看到,第一,計算機(jī)視覺各方面的應(yīng)用需求是非常大的,相比10年前現(xiàn)在開始大量的落地了;二, 做一些面向應(yīng)用的論文本身風(fēng)險也相對低,平均下來對作者的要求也比基礎(chǔ)理論研究低。一個現(xiàn)實的問題就是, 如果你博士生在讀,可能會覺得做一面向應(yīng)用的論文可能更容易做出來,周期短,同時對工業(yè)界來說也更有吸引力。

如果我們覺得應(yīng)用論文和理論研究論文之間的比例是不理想的,覺得理論研究被輕視,那么要從整個社區(qū)來引導(dǎo)。

比如導(dǎo)師對學(xué)生的引導(dǎo),我記得朱松純老師有過一些訪談,非常有啟發(fā)性,很多同學(xué)看了以后都覺得很有收獲。我覺得我們需要多一些這樣的。再比如地平線的徐偉老師在我們硅谷的研究院是做通用人工智能 Artificial General Intelligence,這是一個非常長期的科研課題。我覺得需要整個社區(qū)里面比較有影響力的人去帶著大家做,或者鼓勵大家做。

另外就是會議的組織上對某些研究成果的激勵,其實除了 CVPR 以外有一些會議是更偏重基礎(chǔ)研究的,也算是各有側(cè)重吧.

現(xiàn)狀上我覺得還好,出現(xiàn)這個情況,也是因為現(xiàn)在計算機(jī)視覺的技術(shù)逐漸成熟, 應(yīng)用在蓬勃發(fā)展。


專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

雷鋒網(wǎng) AI 科技評論:開幕式上,程序主席 Derek Hoiem 展示了這個圖表,可以說現(xiàn)在是有記錄以來論文數(shù)量增速最快的時候。所有人都知道這樣的增速是不可能長期持續(xù)的,如果讓您大膽地猜測一下的話,增速放緩最有可能是從什么時候、從哪些課題開始的?

李源:一個技術(shù)有突破以后,肯定會呈現(xiàn)一個爆發(fā)式增長的曲線,比如從深度學(xué)習(xí)開始很多東西都開始行得通了。它最后肯定是要減緩的,因為慢慢地從這個突破到下一個突破之間飽和了。而后一個突破還沒出現(xiàn)的。

至于三年還是五年,很難做這樣準(zhǔn)確的預(yù)測?,F(xiàn)在有些問題已經(jīng)解決得差不多了,或者現(xiàn)有的技術(shù)已經(jīng)不足以繼續(xù)把它往上推了,就會變成增量式的,會看到每一篇論文的貢獻(xiàn)變小了。我覺得最有可能放緩的課題應(yīng)該可能就是單張圖像上2D的感知,例如圖像分類、檢測、分割。

雷鋒網(wǎng) AI 科技評論:計算機(jī)視覺前輩 Alexei Efros 談到未來五年的計算機(jī)視覺發(fā)展趨勢時,說他對多模態(tài)學(xué)習(xí)不太樂觀,比如視覺很難和語言結(jié)合,抽象程度相差太多,導(dǎo)致許多信息無法得到有效利用。您的看法如何?

李源:多模其實我還是很看好的,今年的最佳學(xué)生論文《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》就是多模。多模以前三四年前就開始流行,比如視覺問答(visual question answering)是 NLP+視覺,然后現(xiàn)在還有音頻+視覺。其實深度學(xué)習(xí)出來以后,語言、聲音、視覺的表征之間的距離被拉近了,所以我覺得這是一個很好的方向。

我們在地平線的團(tuán)隊有重點關(guān)注這個方向,例如語音圖像的結(jié)合?,F(xiàn)在不能要求它做得特別完美,但是已經(jīng)可以提升效果,比如說語音加上圖像以后命令詞識別錯誤率顯著降低。我們正在實現(xiàn)低功耗的硬件上的多模模型。純圖像的算法會漸漸飽和。從長期來看,人腦就是原生地對這些多模態(tài)的輸入有一個連貫一致的表征,對人的感知研究有一個領(lǐng)域就叫 multi-sensory integration,研究人怎么把這些感知結(jié)合起來。

雷鋒網(wǎng) AI 科技評論:這兩年 CVPR 展區(qū)里有大批自動駕駛企業(yè),這體現(xiàn)了企業(yè)認(rèn)為現(xiàn)階段的計算機(jī)視覺技術(shù)就能為自動駕駛給出良好解決方案的信心。那么,隨著計算機(jī)視覺技術(shù)的持續(xù)發(fā)展,下一個出現(xiàn)曙光的實際問題可能是什么?

李源:下一個出現(xiàn)曙光的,我要是知道我就去創(chuàng)業(yè)了(笑)。我其實不確定能不能很快看到下一個像自動駕駛一樣、有這么大影響力的東西,因為駕駛真的太普及了,每個人出門都要開車乘車,能不能找到一個這么單一而廣泛應(yīng)用的東西是很難說的。個人覺得會有更多的專用機(jī)器人普及,場景可能會碎片化一點, 技術(shù)會有共性. 比如工業(yè), 物流, 倉儲, 家用場景的機(jī)器人。擁有自動/輔助駕駛功能的汽車其實就是一種專用機(jī)器人,它恰好是一個應(yīng)用范圍特別廣、對人的生活的影響特別大的一種機(jī)器人。

計算機(jī)視覺技術(shù)走向成熟時的自動駕駛

專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

CVPR 2019 上地平線的展臺,同時展示了單攝像頭感知、水平 360 度環(huán)視感知環(huán)繞感知、LiDAR 的檢測識別方案以及 SLAM 方案

雷鋒網(wǎng) AI 科技評論:關(guān)于自動駕駛的技術(shù)路線之爭,我聽到一種說法是,激光雷達(dá)并不是那個能單獨走到最后的方案,既然需要視覺識別的補(bǔ)充,就完全可以最后全部交給視覺識別,就像人類不需要雷達(dá)也可以開車一樣。作為有不同級別解決方案、可以支持多傳感器融合的自動駕駛解決方案提供商,你們怎么看待路線之爭、怎么看待認(rèn)為激光雷達(dá)無法走到最后的觀點?

李源:我咨詢了我們駕駛產(chǎn)品線的專家. 兩者競爭現(xiàn)在沒有定論 (LiDAR 的成本越來越低,純攝像頭的視覺能力越來越高),而且LiDAR 和攝像頭并不是排他的關(guān)系。人的感知已經(jīng)證明只用攝像頭是可以的(人的雙眼),但現(xiàn)在我們計算機(jī)視覺技術(shù)還沒成熟。而且現(xiàn)在還有其他的傳感器在涌現(xiàn)。LiDAR 的優(yōu)勢在于對三維世界的三維感知,所以它在安全性方面,特別是自動駕駛測距、測速方面有優(yōu)勢。另外多傳感器的冗余也提高安全性. 我們公司會在硬件架構(gòu)上支持 LiDAR 和攝像頭,以及融合算法,作為我們客戶的可選方案。

雷鋒網(wǎng) AI 科技評論:視覺芯片是自動駕駛的關(guān)鍵部件,芯片的算力會影響整個系統(tǒng)的表現(xiàn)。為了達(dá)到系統(tǒng)表現(xiàn)的線性提升,你們認(rèn)為芯片的算力有必要指數(shù)提升嗎,就像特斯拉說的那樣?你們的應(yīng)對措施如何?

李源:我們對算力的定義不是純粹的去追求TOPS。我們智能駕駛產(chǎn)品線產(chǎn)品規(guī)劃與市場總監(jiān) Will Lin 有個很形象的比喻:和汽車的動力系統(tǒng)做個類比,芯片算力就好比是發(fā)動機(jī)汽缸的大小。汽缸可以做得很大,但是一輛車開起來的感覺是整輛車的設(shè)計、多個系統(tǒng)的表現(xiàn)共同決定的。如果只關(guān)注缸有多大的話,只能說缸越大車就越費油,但不代表就有更好的用戶體驗.

我們不能只關(guān)注芯片里面乘法和加法運算峰值,也要關(guān)心怎么運用這些計算能力,端到端地評估對于特定應(yīng)用能輸出的感知能力。這個是一個綜合的問題,算法設(shè)計、硬件架構(gòu),編譯器怎么優(yōu)化,這些都是需要考慮的。我們的應(yīng)對措施就是軟硬件聯(lián)合設(shè)計。

雷鋒網(wǎng) AI 科技評論:自動駕駛賽道的競爭目前非常激烈,你們是否認(rèn)為會有不必要的純競爭開銷?你們又有哪些優(yōu)勢

李源:競爭開銷是有的。首先,我們的定位非常清晰,定位為二級的技術(shù)供應(yīng)商,不直接去和上下游的公司去競爭,這樣會更容易贏得客戶和市場。另外,我覺得我們現(xiàn)在的關(guān)注點或者說優(yōu)勢跟上一個問題里談到的是差不多的,就是我們在芯片和算法上都有非常深厚的積累,基于這些積累去做一個芯片加算法加工具鏈的解決方案,做好軟硬件協(xié)同優(yōu)化,開放給客戶并支持客戶的定制化需求。

形象一點來講是「只造武器、不打仗」,是給客戶提供完善功能的芯片和工具鏈,以及算法樣例,賦能一級供應(yīng)商。

雷鋒網(wǎng) AI 科技評論:假如說數(shù)據(jù)是用戶自己用自己的數(shù)據(jù)的話,那豈不是比較廣義的來說,我們可能會喪失一些與數(shù)據(jù)共同迭代改進(jìn)的機(jī)會

李源:我們不碰數(shù)據(jù)的生意,但是我們也有自己的用來訓(xùn)練和迭代的數(shù)據(jù)。如果客戶愿意把數(shù)據(jù)分享給我們,共同去面向應(yīng)用去做迭代和優(yōu)化,我們是非常歡迎的。但同時我們也理解有些客戶不想分享數(shù)據(jù),我們會用我們自己的數(shù)據(jù)做算法的迭代和評估,把芯片優(yōu)化好,給客戶推薦一些方案。如果客戶有自己喜歡的算法,或者客戶自己有大量的數(shù)據(jù),我們可以給他提供建議。


雷鋒網(wǎng) AI 科技評論總結(jié):對于學(xué)術(shù)角度觀察計算機(jī)視覺領(lǐng)域產(chǎn)生的憂慮,以及關(guān)于領(lǐng)域的未來趨勢、自動駕駛方案中的爭議點,李源都給出了結(jié)合研究和工業(yè)實踐的回答,簡單明了、令人信服。從學(xué)生時代的最佳學(xué)生論文作者,到如今的地平線應(yīng)用 AI 實驗室負(fù)責(zé)人,可以說李源和深度學(xué)習(xí)驅(qū)動的計算機(jī)視覺一同快速成長,也見證了相關(guān)技術(shù)大批量走向工業(yè)應(yīng)用。計算機(jī)視覺領(lǐng)域未來會如何繼續(xù)發(fā)展、地平線能否在激烈競爭中笑到最后,我們一同拭目以待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

專訪地平線李源:CV大環(huán)境,也許情況沒那么壞

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說