丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給谷磊
發(fā)送

0

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

本文作者: 谷磊 2017-04-12 10:07
導語:本文為曠視科技首席科學家孫劍日前在 CCF 與 KDD China 聯(lián)合主辦的ADL上做的題為《如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究》的分享

AI科技評論按:本文為曠視科技首席科學家孫劍日前在 CCF 與 KDD China 聯(lián)合主辦的ADL上做的題為《如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究》的分享,雷鋒網(wǎng)進行了全文整理。以下是第一部分。

傳送門:曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺的研究(二)

             曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺的研究(三)

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

孫劍博士(攝影:雷鋒網(wǎng) 劉芳平)

孫劍,博士,曠視科技(Face++)首席科學家、研究負責人。2003年畢業(yè)于西安交通大學人工智能與機器人研究所,畢業(yè)后加入微軟亞洲研究院(Microsoft Research Asia),任至首席研究員。其主要研究方向是計算攝影學(computational photography)、人臉識別(face recognition)和基于深度學習的圖像理解(deep learning based image understanding)。自2002年以來在CVPR、ICCV、ECCV、SIGGRAPH、PAMI五個頂級學術會議和期刊上發(fā)表學術論文100+篇,Google Scholar 引用 20,000+次,H-index58,兩次獲得CVPR Best Paper Award (2009, 2016)。孫劍博士于2010年被美國權威技術期刊Technology Review評選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領的團隊于2015年獲得圖像識別國際大賽五項冠軍(ImageNet分類,檢測和定位,MS COCO檢測和分割),其團隊開發(fā)出來的“深度殘差網(wǎng)絡”和“基于區(qū)域的快速物體檢測”技術已經(jīng)被廣泛應用在學術和工業(yè)界。同時孫劍帶領的團隊的研究成果也廣泛被應用在微軟Windows, Office, Bing, Azure, Surface, Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領曠視科技的研究團隊推進計算機視覺技術的進步和探索其在工業(yè)和商業(yè)上的實踐。

以下為演講內容,主要介紹了近期計算機視覺的發(fā)展現(xiàn)狀,ResNet基本原理和設計,曠視科技在計算機視覺的研究進展等。最后他還分享了一些“如何在大公司和創(chuàng)業(yè)公司做好研究?”的心得。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖一

計算機視覺發(fā)展現(xiàn)狀

去年夏天我加入曠視科技,就是大家所熟知的Face++,F(xiàn)ace++其實是早期一款產(chǎn)品的名字,而并非公司名稱。簡單來說這家公司主要就是用深度學習來做計算機視覺。計算機視覺是目前人工智能中比較熱的一塊。大家目前將人工智能分為感知智能和認知智能兩部分,其中語音識別、計算機視覺是人工智能進展最快的技術。(圖一)右側NLP和各種通用人工智能,屬于認知智能領域,這部分有很大的進展,但仍處于很強的探索階段,所以,沒有(圖一)左側綠色部分進展大。

曠視科技就是做感知智能的計算機視覺部分。當然,計算機視覺并不只是純感知智能,它也涉及更高層的理解。但是作為感知智能的第一步,它很大的一部分功能是在做感知部分。

計算機視覺和語音識別不一樣,語音識別可能只有一個應用,就是做翻譯。把語音翻譯成文本信號,當然還有一個文本合成的任務,但是它的主要任務只有一個,就是一直改善文本信號處理的結果。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖二

但是計算機視覺很不一樣,它的應用非常多,這里列舉了6個比較熱且重要的應用:

  • 視頻監(jiān)控

  • 人臉識別

  • 醫(yī)學圖像分析

  • 自動駕駛

  • 機器人

  • AR、VR

計算機視覺技術的內容非常豐富,并不是簡單的圖像識別,它還涉及很多其他的知識。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖三

曠視科技在2011年~2014年做了一個Face++這樣的人工智能開放云平臺,提供人臉識別、圖像識別的開放服務;從2014年開始,公司聚焦在兩個方向:一個是互聯(lián)網(wǎng)金融,以提供人臉識別認證服務為主,另外一方面是IoT,就是智能前端化。往后,我們希望打造最好的智能云和智能機器。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖四

曠視怎樣去做視覺智能呢?

基本路線和很多公司類似。從技術、到產(chǎn)品、再到數(shù)據(jù),希望這三部分能運轉起來。今天深度學習的方法需要大量的數(shù)據(jù),更精準的說是大量的標注數(shù)據(jù),有大量的數(shù)據(jù),才能把算法做的更好。

很多人會問數(shù)據(jù)如何而來,曠視認為最有效的方法還是通過真實業(yè)務,不斷地把數(shù)據(jù)從真實場景回流回來,然后再去驅動算法,自然就可以把第一版算法做不好的事情解決了。

曠視科技研究院的基本任務是產(chǎn)生核心的技術,這些技術可以用來做產(chǎn)品,然后產(chǎn)品落地到市場。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖五

研究院主要關心4個技術:

  • 分類

  • 檢測

  • 分割

  • 序列學習

其中分類技術是對圖片做一個分類,或者對圖片中的區(qū)域做一個分類,或者對圖片的每個像素都做一個分類;序列學習技術是輸入一個視頻,或者一個有序列的Python(比如一串文字)后,怎樣用序列之間的關系來做學習和推理。

這里不包含計算機視覺3D感知的部分,一個公司要做計算機視覺,首先要聚焦在一個具體的方向。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖六

這4個方向的主要研究成果有:

圖像分類:現(xiàn)在最強的方法是用深度學習來做。有個數(shù)據(jù)庫叫ImageNet,這張PPT展示的是2010年的一個比賽情況,上面的數(shù)字是Top5的錯誤率,意思是大概1000類的物體大概能分多準,這個數(shù)字越小越好。最大的進展發(fā)生在2012年,Geoffrey Hinton和他的學生Alex第一次用深度學習方法把錯誤率大幅降低。隨著神經(jīng)網(wǎng)絡的深度層次越來越多,錯誤率越來越低。在2015年的時候,當時我在微軟亞洲研究院的團隊做的ResNet,第一次把網(wǎng)絡的深度從幾十層提高到100多層,后來可以做到上千層。后來在ImageNet的數(shù)據(jù)庫上,error可以降到比人類還要低的錯誤率。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖七

背后的核心技術是深度卷積神經(jīng)網(wǎng)絡,這個網(wǎng)絡其實是一切嵌套到非線性函數(shù)的組合,因為不斷的嵌套非線性,構成了一個非常復雜的非線性系統(tǒng)。

深度神經(jīng)網(wǎng)絡的一個精髓是要做end-to-end Learning,輸入最好不要涉及feature,因為中間的很多參數(shù)都希望整個系統(tǒng)是可求導的。不輸入feature的end-to-end Learning的 ,所有參數(shù)都可以學,從而簡化了訓練過程,避免了很多人工因素。一個系統(tǒng)如果非常復雜的話,但人的能力是非常有限的,人類只能調有限的參數(shù),所以能簡化訓練的end-to-end Learning顯得尤為重要。

那么問題來了,如果做一個非線性變換,這相當于映射一個函數(shù),那么研究人員到底要做什么呢?以前研究人員的主要任務是設計feature,設計一個有效的feature是一個很大的貢獻。有了feature再設計分類器,在end-to-end Learning的體系下,你到底可以做什么東西,能夠對end-to-end Learning有用?

仔細觀察神經(jīng)網(wǎng)絡的結構,有一部分不是learn出來的,比如網(wǎng)絡的結構就不是learn出來的,結構目前還是手工指定的。

不過現(xiàn)在的一些最新的進展,希望通過RNN的方法或者是深度增強學習的方法,來自動探索網(wǎng)絡結構。目前來說,還沒有很顯著的成果。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖八

如果你指定一個卷積神經(jīng)網(wǎng)絡的話,里面的結構有一些變量是可以來設計的。這個是時間復雜度的公式,這里面有幾個關鍵的數(shù)據(jù):Depth(深度),filter number(卷積神經(jīng)網(wǎng)絡每一層filter的數(shù)目),以及filter size卷積神經(jīng)網(wǎng)絡每一層filter的大?。┖蚮ilter map size(圖像卷積后的空間分辨率)。這同時也是決定一個網(wǎng)絡計算復雜度的公式。

其實一個網(wǎng)絡的能力在很大程度上是被計算力限制。比如說計算力法則,如果相似體系的一個網(wǎng)絡,如果計算力相似的話,不管參數(shù)多也好、少也好,包括上述提到的在變化的參數(shù),大致的filter能力都是相似的。在design space中,我們可以做一些事情,探尋一下怎樣組合這些參數(shù),能夠做一個更好的網(wǎng)絡。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖九

其中有一些設計原理,比如在對圖像分類的時候,隨著層級的增加,應該把圖像的空間分辨率慢慢縮小,但這同時也需要在每一層中增加filter number。后來大家發(fā)現(xiàn),用小的filter size是更經(jīng)濟的,還有一些則包括用Low-rank逼近的方法,比如說在網(wǎng)絡中持續(xù)的用1*1的filter。

我們在2015年的時候研究過,哪些參數(shù)是最關鍵的,當時的結論是在剛才的4個參數(shù)里面,深度是非常關鍵的。如果給定你一個fixed的計算代價的話,你首先要考慮的參數(shù)是深度,深度決定了這個網(wǎng)絡的能力。有興趣的話可以參看下面這篇論文。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十

2012年,AlexNet是8層網(wǎng)絡,幾層卷積,幾層全連接。當時很多人是不相信深度是有用的。但是兩年后,牛津大學和谷歌分別做了VGG Net 和Google Net,隨著層級的增加,性能得到大幅改善。

ResNet基本原理

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十一

2015年,微軟提出了ResNet,進一步將深度從20多層推進到152層。ResNet的關鍵思想是引入了一個跳層的技術,理論上叫“殘差學習”的概念。我們可以將神經(jīng)網(wǎng)絡理解成嵌套很多層的映射,從輸入到輸出,如果直接映射很難的話,有可能殘差學習會更容易。殘差學習的意思是只學輸出相對輸入的變化,而不是直接學習輸入本身。

舉個例子,如果一張圖像有些噪點,你想學習一張沒有噪點的照片,那你可能只需要學習怎樣去掉噪點就行了,而不需要去學習怎樣重構一張自然的照片。

殘差學習的設計結構和以前網(wǎng)絡比起來非常簡單,只是加了一些跳層鏈接。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十二

這個網(wǎng)絡為什么能訓練好?這個是我們官方的解釋,比較直觀。如果從前向角度看,在訓練過程中有一個動態(tài)的特性,整個訓練系統(tǒng)是由淺到深的。在訓練的初期,可以認為我們是在訓練一個淺層的網(wǎng)絡,后期是深層網(wǎng)絡。目前神經(jīng)網(wǎng)絡采用反向傳播算法,梯度反傳過程中幅度會逐層衰減。如果網(wǎng)絡淺還好,如果很深的話會衰減到非常小,最后相當于反向傳播,就傳播不到前面去了,導致訓練困難。在新的Design of ResNet里面,大家可以看我們的論文,大概意思就是反向傳播的梯度會從最后結果一層直接回饋到很多中間層去。而這個幅度都是不小的。所以從這個意義上來說是繞開了以前梯度消失的問題。

這個工作為什么會有這么大的意義?原因是當做到20層后,就很難再做下去;當再加層的時候,訓練將變得非常困難。加完以后訓練錯誤和測試錯誤都會增加,這其實是個非常大的優(yōu)化問題,ResNet就試圖解決這個優(yōu)化的問題。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十三

方法有兩種:

  • 第一種方法尋找是不同于隨機梯度下降的新方法,這個可以行的通,但是非常困難。神經(jīng)網(wǎng)絡發(fā)展這么多年,最有效的還是隨機梯度下降法,原因未知。

  • 第二個方法,如果能夠從新定義這個問題,重新修改數(shù)學的formulation的話,就會使解決問題變得容易。學解線性系統(tǒng)的時候我們知道,有一種方法叫做preconditioning,要解方程時,左右兩邊乘另外一個矩陣,乘完以后整個系統(tǒng)的解其實是不變的,但是這樣以后去做優(yōu)化就會變得容易很多。通過類比以后,殘差學習的reformulation,可以讓優(yōu)化過程變得更容易,這個也是引入殘差學習最大的意義。

ResNet優(yōu)化的結果是到今天為止不管設計多少層的網(wǎng)絡,只要顯存裝的下,只要能訓練起來,這些都沒有任何問題。這就破除了深度學習歷史上的一個魔咒:深到一定程度就訓練不了了。在深度學習的發(fā)展過程中,在一定階段是沒有人相信會有這么深的訓練系統(tǒng)。如果考慮非線性系統(tǒng)的話,這么多的參數(shù),這么高的非線性,怎么能給他訓練好呢?現(xiàn)在實踐做到了,但理論研究很不完善,因為它是一個高度的非線性系統(tǒng),缺少有效的分析工具,大多數(shù)好的分析工具都是分析線性系統(tǒng)的。

以上是ResNet的基本原理。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十四

ResNet設計

下一步曠視(Face++)要做的就是如何將ResNet 怎么設計的更好,其中一個方向是要有更高的精度,但是在實際的工程應用中有個很大的問題:就是它的計算量是非常大的。如果你用參加ImageNet得冠軍的那個Model來去做實際應用的話是非常不現(xiàn)實的。

大家可以看一下這個圖,x軸是不同的網(wǎng)絡,y軸上每個bar上的數(shù)字是每個網(wǎng)絡的計算量,單位是GFLOPs??梢钥吹诫m然error下降了,但是計算量卻在不停的上升。雖然結果做的很好,但是計算量非常的大。比如說一個好的網(wǎng)絡可以到十幾到二十幾的GFLOPs,但是在實際應用中,我們常用的手機或者嵌入式設備,能承擔的GFLOPs可能在0.01,也就是說你需要做一個百分之一或者千分之一計算復雜度的Model,才可以在實際的系統(tǒng)用,所以這是一個很大的挑戰(zhàn)。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十五

目前曠視(Face++)與研究領域在不同的方向探索后找到了一個解決方案,大致有三類方式可以解決這個問題:設計一個更好的網(wǎng)絡,或者簡化網(wǎng)絡,再或者對于如何表述網(wǎng)絡內部的值可以做一些研究。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十六

第一,如何更好的設計這個網(wǎng)絡?這里列了一些最近比較流行的網(wǎng)絡設計。整體網(wǎng)絡的結構還是ResNet的設計,但是每一層怎么設計,每一層怎么設計最經(jīng)濟,所以這是一個非常重要的問題。

第二,在簡化網(wǎng)絡方面,我們可以做結構的Pruning,這里我大概分了一共有3種方法。

  • 第一種方法叫做稀疏連接,本來一個網(wǎng)絡里有很多連接的。然后基本思想是去除不重要的連接,讓這個連接變稀疏了。但是這個方法的問題就是它可以減少網(wǎng)絡的模型大小,但是不一定能夠減少網(wǎng)絡的運行時間;

  • 第二種就是tensor分解的方法,就是把一個卷積網(wǎng)絡通過tensor分解,用它的低值特性做逼近;

  • 第三種是channel pruning,是我們最近做的一種比較有趣的方法,就是訓練好一個網(wǎng)絡后,簡單粗暴的把一些channel 去掉。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十七

其中這個tensor分解的方法,基本思想是a是原來網(wǎng)絡設計的卷積過程,然后怎么能夠將它通過一個低值分解的方式,拆成中間的channel filter數(shù)目比較小的b。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十八

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖十九

第三,就是我們在曠視(Face++)做的非常多的Low-bit的表示。這張圖大概描述了一下什么是卷積,卷積就是輸入一個三維的feature map,拿另外一個卷積核在上面卷,feature map標準的話都是float表示的,卷積核其實也是一個三維的矩陣,它也是float表示的。Low-bit的表示方法就是不要用這些float的方式來表示,而是用一些低精度的表示,比如8位或者更加極端的兩位來表示。大家可以看到這是之前的兩篇比較著名的工作。一個是Binary connect,他的思想是把這個weight都變成01,這也是很夸張的一個想法。下面是更進一步的工作,它是將feature和weight全變成01,這樣的好處是叫XNOR-Net,好處是卷積神經(jīng)網(wǎng)絡里的矩陣層,可以變成一個bitcount的指令,就可以完成它想要完成的計算,這個是在硬件中很有效的一個方法,也是Low-bit網(wǎng)絡非常吸引人的地方。優(yōu)點在于:1.內存可以降得非常多;2.潛在的加速比非常大。

這個(Low-bit)Reoresentation是我們曠視(Face++)研究員做的,它除了能量化weight或feature,還可以量化gridient,就是在反向回傳的過程中,gridient標準其實也是float的,他的意義是如果你想做并行訓練,主要問題是通訊的overfit非常大,也需要傳gridient,或者你想把訓練放在FPGA或者芯片上來做的話,這樣如果你能做weight或feature,gridient的話,你就可以做這樣的訓練,所以我們推薦了一個設置就是weight用01表示,activation用兩位表示,gridient用4位表示。所以我們同事將它取名為DOReFa-Net。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

圖二十

這個圖表是最近的一個類似的工作,比較了一下DOReFa-Net和他們的Net的性能差別。

未完待續(xù),請持續(xù)關注雷鋒網(wǎng)的后續(xù)文章……

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

曠視科技孫劍:如何在大公司和創(chuàng)業(yè)公司做好計算機視覺研究(一)

分享:
相關文章

編輯

專注報道人工智能。微信:ydxy301
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說