0
本文作者: 李詩(shī) | 2018-07-04 16:56 | 專題:2018 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì) |
雷鋒網(wǎng)按:2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開(kāi),峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。
6 月 30 日,計(jì)算機(jī)視覺(jué)專場(chǎng)舉行,會(huì)場(chǎng)現(xiàn)場(chǎng)爆滿,不少聽(tīng)眾站著聽(tīng)完了長(zhǎng)達(dá)數(shù)小時(shí)的演講。上午場(chǎng)的議題為“計(jì)算機(jī)視覺(jué)前沿與智能視頻”,由香港科技大學(xué)RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下,香港科技大學(xué)教授權(quán)龍、曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍、云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)、臻識(shí)科技 CEO 任鵬、云飛勵(lì)天首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達(dá)華等學(xué)界、業(yè)界大咖進(jìn)行了 6 場(chǎng)深度分享,既有計(jì)算機(jī)視覺(jué)技術(shù)的前沿研究動(dòng)態(tài),也有相關(guān)技術(shù)落地的具體方向。
孫劍博士在CCF-GAIR現(xiàn)場(chǎng)演講
曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍博士為大家?guī)?lái)題為 “云、端、芯上的視覺(jué)計(jì)算”的精彩演講。孫劍認(rèn)為,計(jì)算機(jī)視覺(jué)簡(jiǎn)單講就是使機(jī)器能看,曠視科技希望能夠做到“賦能億萬(wàn)攝像頭”,讓?xiě)?yīng)用在所有領(lǐng)域的攝像頭都具備智能,不管是在云、端還是在芯上。
計(jì)算機(jī)視覺(jué)的發(fā)展史就是研究如何表示圖像的歷史。深度學(xué)習(xí)流行之前,最好的辦法是基于特征的,從圖像里抽取特征,再進(jìn)行分析;但是這個(gè)方法有兩個(gè)大缺點(diǎn):首先,該方法完成的非線性變換次數(shù)非常有限;其二,大多數(shù)參數(shù)都是人工設(shè)計(jì)的,包括 Feature。深度神經(jīng)網(wǎng)絡(luò)的辦法彌補(bǔ)了手工設(shè)計(jì)特征的缺陷,整個(gè)非線性變換可以做非常多次,換句話說(shuō)可以很深,所以特征表示能力非常強(qiáng),并且可以自動(dòng)地聯(lián)合訓(xùn)練所有參數(shù)。孫劍博士在微軟時(shí)提出 152 層的 ResNet,第一次在 ImageNet 大規(guī)模圖像分類任務(wù)上超過(guò)了人的能力。
接著,孫劍博士從計(jì)算機(jī)平臺(tái)的角度對(duì)出現(xiàn)的各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分類:GoogleNet、ResNet 在“云”上;MobileNet 以及曠視提出的 ShuffleNet 屬于“端”這一類;BNN、XNOR Net 和曠視提出的 DorefaNet 則是在“芯”上。針對(duì)目前分平臺(tái)設(shè)計(jì)相關(guān)網(wǎng)絡(luò)的現(xiàn)狀,孫劍相信未來(lái)會(huì)有一個(gè)“MetaNet 出現(xiàn),能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問(wèn)題”。
最后,孫劍簡(jiǎn)單介紹了曠視在云、端、芯三個(gè)平臺(tái)上的計(jì)算機(jī)視覺(jué)應(yīng)用,包括人臉識(shí)別、車(chē)輛識(shí)別、人臉支付、智慧安防、智慧金融、城市大腦、倉(cāng)儲(chǔ)物流、新零售等。
以下為孫劍演講全文,雷鋒網(wǎng)進(jìn)行了不改變?cè)獾木庉嫛?/strong>
目前人工智能一般劃分為感知和認(rèn)知兩塊,這一張圖可以看到計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域所處的位置,綠色表示技術(shù)上有重大突破或者應(yīng)用落地相對(duì)成熟、橙色和黃色表示還需重大突破。
曠視科技成立至今已經(jīng) 7 年,一直專注于計(jì)算機(jī)視覺(jué)領(lǐng)域。去年,曠視獲得了兩個(gè)非常好的榮譽(yù),MIT 評(píng)選的 2017 年度十大突破性技術(shù)中曠視科技的“刷臉支付技術(shù)”榜上有名,這是中國(guó)公司的技術(shù)第一次獲此殊榮;MIT 也將曠視列為 2017 年度全球五十大最聰明公司的第 11 位。曠視去年也完成了新一輪 4.6 億美金的融資,用于做更好、更深入的研究和商業(yè)落地。
簡(jiǎn)單來(lái)講,計(jì)算機(jī)視覺(jué)就是讓機(jī)器能看。曠視科技自創(chuàng)立就一直在回答“如果機(jī)器能自動(dòng)理解一張圖像或者一段視頻,我們能做什么?”這個(gè)問(wèn)題。當(dāng)然這么說(shuō)比較抽象,其實(shí)具體講我們想做的是“賦能億萬(wàn)攝像頭”。日常生活和各個(gè)行業(yè)中有很多的攝像頭,比如說(shuō)手機(jī)、安防、工業(yè)、零售、無(wú)人車(chē)、機(jī)器人、家庭、無(wú)人機(jī)、醫(yī)療、遙感等等。在這些地方,大多攝像頭還沒(méi)智能化,我們的使命是使這些攝像頭有智能,不管是在云、端還是在芯片上;我們要構(gòu)建智能大腦來(lái)理解智能攝像頭輸入的大量信息。
相對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),計(jì)算機(jī)視覺(jué)應(yīng)用面非常廣泛。語(yǔ)音識(shí)別的輸入和輸出較為單一,核心目標(biāo)是把一段語(yǔ)音變成一句文字。但計(jì)算機(jī)視覺(jué)系統(tǒng)的輸出要豐富很多,你需要知道圖像/視頻里面的物體、運(yùn)動(dòng)、場(chǎng)景,其中有什么人、人的位置、行為、表情、注意力等等。你會(huì)在不同行業(yè)或場(chǎng)景中面臨各種各樣不同的任務(wù),這也讓計(jì)算機(jī)視覺(jué)成為一個(gè)很大并增長(zhǎng)很快的學(xué)術(shù)領(lǐng)域(今年計(jì)算機(jī)視覺(jué)年會(huì) CVPR 參會(huì)人達(dá)到近 7000 人),也誕生出眾多的優(yōu)秀創(chuàng)業(yè)公司。
計(jì)算機(jī)視覺(jué)的核心問(wèn)題包括分類、檢測(cè)、分割,分別是對(duì)一張圖、一張圖的不同區(qū)域和一張圖的每個(gè)像素做識(shí)別。另外如果輸入的是視頻,我們還需要利用時(shí)間關(guān)系做識(shí)別;其中最核心的是分類問(wèn)題,因?yàn)樗呛竺嫒齻€(gè)任務(wù)的核心和基礎(chǔ)。
其實(shí),人工智能一出現(xiàn)時(shí),計(jì)算機(jī)視覺(jué)也誕生了。計(jì)算機(jī)視覺(jué)有一個(gè)先驅(qū)人物叫 David Marr,他在 80 年代初期提出了 Primal Sketch 方法,以及一個(gè)研究計(jì)算機(jī)視覺(jué)的大框架,認(rèn)為圖像應(yīng)該先檢測(cè) Edge,然后出 2 ? D sketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 批評(píng)說(shuō)你這個(gè)理論很好,但是忽略了核心問(wèn)題的研究——如何表述一張圖像。
計(jì)算機(jī)視覺(jué)的早期圖像表示模型是 Part-based,比如人體可以分解成頭、胳膊、腿;人臉可以分解成眉毛、眼睛、鼻子,這樣就可以通過(guò) Part 這種組合式的方法表示物體。如果一個(gè)物體有結(jié)構(gòu),這種組合式方法很合適,但很多自然場(chǎng)景的物體沒(méi)有這么強(qiáng)的結(jié)構(gòu)就不合適了。
80 年代,早期的神經(jīng)網(wǎng)絡(luò)也成功運(yùn)用在人臉和手寫(xiě)數(shù)字識(shí)別上,但是僅限于這兩個(gè)領(lǐng)域。2001 年有一個(gè)叫作 Viola & Jones 的人臉檢測(cè)的方法,它先是定義一組 Haar 小波基,然后通過(guò)機(jī)器學(xué)習(xí)的方法學(xué)習(xí) Harr 小波基的組合來(lái)表示圖像。這個(gè)方法的好處是引入學(xué)習(xí)來(lái)構(gòu)造圖像表示,壞處是它限定在這個(gè)小波基上,對(duì)有結(jié)構(gòu)的物體做得好,對(duì)沒(méi)有結(jié)構(gòu)的物體就不一定合適了。
?大概在 2000 - 2012 年,在深度學(xué)習(xí)之前最流行的表示是 Local Feature-based。該方法從一張圖片里面抽取數(shù)百個(gè) Feature,去人工形成一些諸如 SIFT/HOG 的 Descriptor,編碼獲得高維向量之后,再送給 SVM 分類器,這是深度學(xué)習(xí)之前最好的方法。
對(duì)人臉也類似。我以前的研究組也用同樣方法做過(guò)人臉關(guān)鍵點(diǎn)抽取,獲得高維 Feature,這也是當(dāng)時(shí)最好的人臉識(shí)別方式,但是它有兩個(gè)大缺點(diǎn):第一,這個(gè)方法整體上是從輸入向量到另外高維向量的非線性變換,這個(gè)向量的變換次數(shù)是有限的,如果真正算它的非線性變換也就三、四次,變多了是不行的,性能不會(huì)提高;第二,其中大多數(shù)參數(shù)是人工設(shè)計(jì)的,包括 Feature,但人設(shè)計(jì)復(fù)雜系統(tǒng)的能力是有限的。
今天的主流方法是深度神經(jīng)網(wǎng)絡(luò),這兩個(gè)特性就被改變了,整個(gè)非線性變換非常長(zhǎng),可以做非常多次,所以系統(tǒng)的表示能力非常強(qiáng);第二是所有的參數(shù)聯(lián)合訓(xùn)練。這兩點(diǎn)讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果,也包括當(dāng)時(shí)我們?cè)谖④浱岢龅?152 層的殘差網(wǎng)絡(luò) ResNet,第一次在 ImageNet 上超過(guò)了人的性能。
?
ResNet 為什么能夠工作呢?到今天也沒(méi)有一個(gè)明確答案,當(dāng)然有很多解釋。最直觀的解釋是說(shuō)當(dāng)你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個(gè)映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個(gè)學(xué)習(xí)過(guò)程,特別是訓(xùn)練優(yōu)化過(guò)程變得更容易。
還有一個(gè)解釋來(lái)自該論文(Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.)的第二作者張祥雨,他認(rèn)為 ResNet 的整個(gè)學(xué)習(xí)過(guò)程是一個(gè)由淺到深的動(dòng)態(tài)過(guò)程,在訓(xùn)練初期等效訓(xùn)練一個(gè)淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個(gè)深層網(wǎng)絡(luò)。
論文第一作者何愷明有另外一個(gè)更“科學(xué)”的解釋,他認(rèn)為整個(gè)訓(xùn)練過(guò)程相當(dāng)于深度學(xué)習(xí)的梯度下降過(guò)程中,最為困難的梯度消失問(wèn)題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個(gè) 1001 層的神經(jīng)網(wǎng)絡(luò)。
還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來(lái),認(rèn)為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個(gè)不同深度網(wǎng)絡(luò)的集成。用“集成”這個(gè)詞其實(shí)有些問(wèn)題,因?yàn)橐话阄覀冏黾伤惴ú宦?lián)合訓(xùn)練,但這里面整個(gè) ResNet 里指數(shù)多個(gè)網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。
?
我個(gè)人比較認(rèn)同的一種解釋是 Iterative Refinement,它是說(shuō)網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個(gè)表示。這跟人理解看圖識(shí)字很相似,一個(gè)不容易理解的東西你要看一會(huì),是基于當(dāng)前一些已看內(nèi)容的理解,反復(fù)看才能看懂。
還有從從優(yōu)化觀點(diǎn)的解釋,如果不用 ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會(huì)非常坑坑洼洼和高低不平,所以很難優(yōu)化。我們知道整個(gè)網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問(wèn)題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極小;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達(dá)一個(gè)很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個(gè)方法的推廣能力非常強(qiáng)相關(guān)。
多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強(qiáng)。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個(gè)40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤(pán)圖像到落子位置這樣一個(gè)高度復(fù)雜的映射,這非常讓人吃驚。
?2012 年開(kāi)始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計(jì)算平臺(tái)的角度看這些工作,大概可以分成三類:第一類是在“云”上,像 GoogleNet、ResNet,其目標(biāo)是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來(lái)探知我們的認(rèn)知邊界;第二類平臺(tái)是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計(jì)算能力,內(nèi)存訪問(wèn)都有限制,但很多真實(shí)的場(chǎng)景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運(yùn)行在移動(dòng)端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標(biāo)是說(shuō)如何在一個(gè)給定計(jì)算量的設(shè)備上得到最好的效果。
一個(gè)網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個(gè) 3×3 的卷積,ResNet 加了一個(gè)跳轉(zhuǎn)連接,我們?cè)?ResNet 中還引入一個(gè) Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。
去年何愷明有一項(xiàng)工作叫 ResNeXt,它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個(gè) 3x3 分層卷積的方式,每個(gè)層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對(duì) 1×1 Conv 分組;但是如果只分組的話,組間的信息不會(huì)交換,這樣會(huì)影響特征學(xué)習(xí),因此我們通過(guò)引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實(shí)設(shè)備上的速度要比 AlexNet 快 20 倍左右。
這是我們?nèi)ツ陮槭謾C(jī)設(shè)計(jì)的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因?yàn)?CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計(jì),Group 卷積等等,我就不贅述了。
今年我們?cè)O(shè)計(jì)了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個(gè)方法把 Channel 先一分為二,并把每個(gè)分支用非常簡(jiǎn)單的結(jié)構(gòu)來(lái)做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說(shuō)我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。
這項(xiàng)工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說(shuō) ShuffleNet v2 目前在計(jì)算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。
我們還需要將神經(jīng)網(wǎng)絡(luò)運(yùn)行在芯片上,這不光對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有要求,還要對(duì)網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個(gè)向量,那么卷積計(jì)算就可以通過(guò)芯片上非常簡(jiǎn)單的位運(yùn)算完成計(jì)算。
我們提出的 DorefaNet 是第一個(gè)對(duì)梯度也做量化的研究工作,從而可以讓我們?cè)?FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計(jì)算量是一方面,但是它的內(nèi)存訪問(wèn)限制更大,DorefaNet 這種方法可以做到更好。上圖是我們?cè)?ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類結(jié)果。
上述分類問(wèn)題網(wǎng)絡(luò)設(shè)計(jì)需要考慮不同的平臺(tái),其它問(wèn)題多是以分類為基礎(chǔ),比如說(shuō)檢測(cè),上圖是檢測(cè)最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測(cè)框架。
檢測(cè)方面的目前最有權(quán)威性的競(jìng)賽是 COCO,檢測(cè)精度用 mAP 來(lái)表示,越高越好。2015 年我們?cè)谖④泚喼扪芯吭河?ResNet 做到了 37.3,曠視研究院去年參加了這個(gè)競(jìng)賽,取得第一名的成績(jī) 52.5(滿分 100 分),又推進(jìn)了一大步。我們獲得 COCO 2017 冠軍的論文是 MegDet。COCO 可以對(duì)人進(jìn)行檢測(cè),也可以抽取特征,我們也在研究后者的工作(Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun. Cascaded Pyramid Network for Multi-Person Pose Estimation. CVPR 2018.),提取人體骨架,通過(guò)骨架表示人體運(yùn)動(dòng),進(jìn)行行為分析,這樣比直接分析圖片進(jìn)行行為訓(xùn)練更為有效。
最后介紹一些我們做的基于云、端、芯上的商業(yè)應(yīng)用。
在云上,曠視科技最早推出了面向開(kāi)發(fā)者的 www.faceplusplus.com 的 AI 云服務(wù)。第二個(gè)云服務(wù)產(chǎn)品是 www.FaceID.com,這是目前最大的在線身份認(rèn)證平臺(tái),為互聯(lián)網(wǎng)金融、銀行、出行等行業(yè)提供在線身份認(rèn)證服務(wù)。第三個(gè)非常大的云服務(wù)產(chǎn)品是城市大腦,它的核心是通過(guò)很多的傳感器,獲取大量信息,最后做出決策。視覺(jué)是目前最大的一個(gè)感知方式,因?yàn)橹袊?guó)有非常多的攝像頭,通過(guò)賦能這些視覺(jué)傳感器,我們可以知道人和車(chē)的屬性,了解交通和地域情況。其中一個(gè)很重要的應(yīng)用是公共安防,即如何用賦能億萬(wàn)攝像頭來(lái)協(xié)助城市安全和高效運(yùn)轉(zhuǎn)。
在端上的應(yīng)用更多,第一個(gè)就是手機(jī)。vivo V7 是第一款海外上市旗艦機(jī),搭載了我們的人臉解鎖技術(shù),還有小米 Note 3 的人臉解鎖。我們幫助 vivo 和小米在 iPhoneX 發(fā)布之前推出了人臉解鎖手機(jī)。華為榮耀 V10 和 7C 手機(jī)同樣使用了我們的技術(shù)。華為為什么請(qǐng)孫楊做代言人?因?yàn)樗L(zhǎng)期游泳,指紋已經(jīng)磨光了,必須用人臉解鎖才能很好地使用手機(jī)。
不光是人臉解鎖,還包括人臉 AI 相機(jī)的場(chǎng)景識(shí)別,實(shí)時(shí)知道你在拍什么,更好地調(diào)節(jié)相機(jī)參數(shù),還可以做人臉三維重建,自動(dòng)實(shí)現(xiàn) 3D 光效。另外一個(gè)很有趣的應(yīng)用是深圳和杭州的肯德基旗艦店,消費(fèi)者可以直接刷臉點(diǎn)餐,這些圖是我在現(xiàn)場(chǎng)刷臉支付喝到一杯果汁的過(guò)程。第二個(gè)是新零售,借助圖像感知系統(tǒng),能把線下的人、貨、場(chǎng)的過(guò)程數(shù)字化。線上零售是數(shù)字化的,可以根據(jù)數(shù)字化的用戶統(tǒng)計(jì)信息或者個(gè)人信息做用戶畫(huà)像、大數(shù)據(jù)分析,幫助提升新零售效率。我們?cè)诰€下零售,需要用圖像感知來(lái)做數(shù)字化。
最后是芯片。我們?nèi)ツ暝诎卜勒拱l(fā)布了一款智能人像抓拍機(jī)——MegEye-C3S,把 DorefaNet 跑在 FPGA 上,再放到相機(jī)里,這是業(yè)界第一款全畫(huà)幅(1080p)、全幀率(30fps)人臉實(shí)時(shí)檢測(cè)抓拍機(jī)。
再往下應(yīng)該怎么做呢?今天我們是分平臺(tái),根據(jù)平臺(tái)的特性設(shè)計(jì)不同的網(wǎng)絡(luò)。我們相信下一代會(huì)有一個(gè)“MetaNet”,統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的問(wèn)題。
謝謝大家。
相關(guān)文章:
對(duì)話曠視科技:請(qǐng)姚期智出山是為本質(zhì)創(chuàng)新,未來(lái)想成為國(guó)內(nèi)首家上市的純?nèi)斯ぶ悄芄?/a>
曠視科技子公司落戶杭州,重點(diǎn)瞄準(zhǔn)智能安防業(yè)務(wù)
CVPR 2018 | 8篇論文、10+Demo、雙料挑戰(zhàn)賽冠軍,曠視科技掀起CVPR產(chǎn)學(xué)研交流熱潮
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章