丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給李詩
發(fā)送

0

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

導(dǎo)語:曠視科技希望能夠做到“賦能億萬攝像頭”,讓應(yīng)用在所有領(lǐng)域的攝像頭都具備智能,不管是在云、端還是在芯上。

雷鋒網(wǎng)按:2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

6 月 30 日,計(jì)算機(jī)視覺專場舉行,會(huì)場現(xiàn)場爆滿,不少聽眾站著聽完了長達(dá)數(shù)小時(shí)的演講。上午場的議題為“計(jì)算機(jī)視覺前沿與智能視頻”,由香港科技大學(xué)RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下,香港科技大學(xué)教授權(quán)龍、曠視科技首席科學(xué)家、研究院院長孫劍、云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)、臻識科技 CEO 任鵬、云飛勵(lì)天首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達(dá)華等學(xué)界、業(yè)界大咖進(jìn)行了 6 場深度分享,既有計(jì)算機(jī)視覺技術(shù)的前沿研究動(dòng)態(tài),也有相關(guān)技術(shù)落地的具體方向。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

孫劍博士在CCF-GAIR現(xiàn)場演講

曠視科技首席科學(xué)家、研究院院長孫劍博士為大家?guī)眍}為 “云、端、芯上的視覺計(jì)算”的精彩演講。孫劍認(rèn)為,計(jì)算機(jī)視覺簡單講就是使機(jī)器能看,曠視科技希望能夠做到“賦能億萬攝像頭”,讓應(yīng)用在所有領(lǐng)域的攝像頭都具備智能,不管是在云、端還是在芯上。

計(jì)算機(jī)視覺的發(fā)展史就是研究如何表示圖像的歷史。深度學(xué)習(xí)流行之前,最好的辦法是基于特征的,從圖像里抽取特征,再進(jìn)行分析;但是這個(gè)方法有兩個(gè)大缺點(diǎn):首先,該方法完成的非線性變換次數(shù)非常有限;其二,大多數(shù)參數(shù)都是人工設(shè)計(jì)的,包括 Feature。深度神經(jīng)網(wǎng)絡(luò)的辦法彌補(bǔ)了手工設(shè)計(jì)特征的缺陷,整個(gè)非線性變換可以做非常多次,換句話說可以很深,所以特征表示能力非常強(qiáng),并且可以自動(dòng)地聯(lián)合訓(xùn)練所有參數(shù)。孫劍博士在微軟時(shí)提出 152 層的 ResNet,第一次在 ImageNet 大規(guī)模圖像分類任務(wù)上超過了人的能力。

接著,孫劍博士從計(jì)算機(jī)平臺(tái)的角度對出現(xiàn)的各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分類:GoogleNet、ResNet 在“云”上;MobileNet 以及曠視提出的 ShuffleNet 屬于“端”這一類;BNN、XNOR Net 和曠視提出的 DorefaNet 則是在“芯”上。針對目前分平臺(tái)設(shè)計(jì)相關(guān)網(wǎng)絡(luò)的現(xiàn)狀,孫劍相信未來會(huì)有一個(gè)“MetaNet 出現(xiàn),能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問題”。

最后,孫劍簡單介紹了曠視在云、端、芯三個(gè)平臺(tái)上的計(jì)算機(jī)視覺應(yīng)用,包括人臉識別、車輛識別、人臉支付、智慧安防、智慧金融、城市大腦、倉儲(chǔ)物流、新零售等。

以下為孫劍演講全文,雷鋒網(wǎng)進(jìn)行了不改變原意的編輯。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

目前人工智能一般劃分為感知和認(rèn)知兩塊,這一張圖可以看到計(jì)算機(jī)視覺在人工智能領(lǐng)域所處的位置,綠色表示技術(shù)上有重大突破或者應(yīng)用落地相對成熟、橙色和黃色表示還需重大突破。

曠視科技成立至今已經(jīng) 7 年,一直專注于計(jì)算機(jī)視覺領(lǐng)域。去年,曠視獲得了兩個(gè)非常好的榮譽(yù),MIT 評選的 2017 年度十大突破性技術(shù)中曠視科技的“刷臉支付技術(shù)”榜上有名,這是中國公司的技術(shù)第一次獲此殊榮;MIT 也將曠視列為 2017 年度全球五十大最聰明公司的第 11 位。曠視去年也完成了新一輪 4.6 億美金的融資,用于做更好、更深入的研究和商業(yè)落地。

簡單來講,計(jì)算機(jī)視覺就是讓機(jī)器能看。曠視科技自創(chuàng)立就一直在回答“如果機(jī)器能自動(dòng)理解一張圖像或者一段視頻,我們能做什么?”這個(gè)問題。當(dāng)然這么說比較抽象,其實(shí)具體講我們想做的是“賦能億萬攝像頭”。日常生活和各個(gè)行業(yè)中有很多的攝像頭,比如說手機(jī)、安防、工業(yè)、零售、無人車、機(jī)器人、家庭、無人機(jī)、醫(yī)療、遙感等等。在這些地方,大多攝像頭還沒智能化,我們的使命是使這些攝像頭有智能,不管是在云、端還是在芯片上;我們要構(gòu)建智能大腦來理解智能攝像頭輸入的大量信息。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

相對于語音識別來說,計(jì)算機(jī)視覺應(yīng)用面非常廣泛。語音識別的輸入和輸出較為單一,核心目標(biāo)是把一段語音變成一句文字。但計(jì)算機(jī)視覺系統(tǒng)的輸出要豐富很多,你需要知道圖像/視頻里面的物體、運(yùn)動(dòng)、場景,其中有什么人、人的位置、行為、表情、注意力等等。你會(huì)在不同行業(yè)或場景中面臨各種各樣不同的任務(wù),這也讓計(jì)算機(jī)視覺成為一個(gè)很大并增長很快的學(xué)術(shù)領(lǐng)域(今年計(jì)算機(jī)視覺年會(huì) CVPR 參會(huì)人達(dá)到近 7000 人),也誕生出眾多的優(yōu)秀創(chuàng)業(yè)公司。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

計(jì)算機(jī)視覺的核心問題包括分類、檢測、分割,分別是對一張圖、一張圖的不同區(qū)域和一張圖的每個(gè)像素做識別。另外如果輸入的是視頻,我們還需要利用時(shí)間關(guān)系做識別;其中最核心的是分類問題,因?yàn)樗呛竺嫒齻€(gè)任務(wù)的核心和基礎(chǔ)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

其實(shí),人工智能一出現(xiàn)時(shí),計(jì)算機(jī)視覺也誕生了。計(jì)算機(jī)視覺有一個(gè)先驅(qū)人物叫 David Marr,他在 80 年代初期提出了 Primal Sketch 方法,以及一個(gè)研究計(jì)算機(jī)視覺的大框架,認(rèn)為圖像應(yīng)該先檢測 Edge,然后出 2 ? D sketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 批評說你這個(gè)理論很好,但是忽略了核心問題的研究——如何表述一張圖像。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

計(jì)算機(jī)視覺的早期圖像表示模型是 Part-based,比如人體可以分解成頭、胳膊、腿;人臉可以分解成眉毛、眼睛、鼻子,這樣就可以通過 Part 這種組合式的方法表示物體。如果一個(gè)物體有結(jié)構(gòu),這種組合式方法很合適,但很多自然場景的物體沒有這么強(qiáng)的結(jié)構(gòu)就不合適了。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

80 年代,早期的神經(jīng)網(wǎng)絡(luò)也成功運(yùn)用在人臉和手寫數(shù)字識別上,但是僅限于這兩個(gè)領(lǐng)域。2001 年有一個(gè)叫作 Viola & Jones 的人臉檢測的方法,它先是定義一組 Haar 小波基,然后通過機(jī)器學(xué)習(xí)的方法學(xué)習(xí) Harr 小波基的組合來表示圖像。這個(gè)方法的好處是引入學(xué)習(xí)來構(gòu)造圖像表示,壞處是它限定在這個(gè)小波基上,對有結(jié)構(gòu)的物體做得好,對沒有結(jié)構(gòu)的物體就不一定合適了。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

?大概在 2000 - 2012 年,在深度學(xué)習(xí)之前最流行的表示是 Local Feature-based。該方法從一張圖片里面抽取數(shù)百個(gè) Feature,去人工形成一些諸如 SIFT/HOG 的 Descriptor,編碼獲得高維向量之后,再送給 SVM 分類器,這是深度學(xué)習(xí)之前最好的方法。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

對人臉也類似。我以前的研究組也用同樣方法做過人臉關(guān)鍵點(diǎn)抽取,獲得高維 Feature,這也是當(dāng)時(shí)最好的人臉識別方式,但是它有兩個(gè)大缺點(diǎn):第一,這個(gè)方法整體上是從輸入向量到另外高維向量的非線性變換,這個(gè)向量的變換次數(shù)是有限的,如果真正算它的非線性變換也就三、四次,變多了是不行的,性能不會(huì)提高;第二,其中大多數(shù)參數(shù)是人工設(shè)計(jì)的,包括 Feature,但人設(shè)計(jì)復(fù)雜系統(tǒng)的能力是有限的。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

今天的主流方法是深度神經(jīng)網(wǎng)絡(luò),這兩個(gè)特性就被改變了,整個(gè)非線性變換非常長,可以做非常多次,所以系統(tǒng)的表示能力非常強(qiáng);第二是所有的參數(shù)聯(lián)合訓(xùn)練。這兩點(diǎn)讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果,也包括當(dāng)時(shí)我們在微軟提出的 152 層的殘差網(wǎng)絡(luò) ResNet,第一次在 ImageNet 上超過了人的性能。

?

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

ResNet 為什么能夠工作呢?到今天也沒有一個(gè)明確答案,當(dāng)然有很多解釋。最直觀的解釋是說當(dāng)你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個(gè)映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個(gè)學(xué)習(xí)過程,特別是訓(xùn)練優(yōu)化過程變得更容易。

還有一個(gè)解釋來自該論文(Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.)的第二作者張祥雨,他認(rèn)為 ResNet 的整個(gè)學(xué)習(xí)過程是一個(gè)由淺到深的動(dòng)態(tài)過程,在訓(xùn)練初期等效訓(xùn)練一個(gè)淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個(gè)深層網(wǎng)絡(luò)。

論文第一作者何愷明有另外一個(gè)更“科學(xué)”的解釋,他認(rèn)為整個(gè)訓(xùn)練過程相當(dāng)于深度學(xué)習(xí)的梯度下降過程中,最為困難的梯度消失問題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個(gè) 1001 層的神經(jīng)網(wǎng)絡(luò)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來,認(rèn)為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個(gè)不同深度網(wǎng)絡(luò)的集成。用“集成”這個(gè)詞其實(shí)有些問題,因?yàn)橐话阄覀冏黾伤惴ú宦?lián)合訓(xùn)練,但這里面整個(gè) ResNet 里指數(shù)多個(gè)網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。

?曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

我個(gè)人比較認(rèn)同的一種解釋是 Iterative Refinement,它是說網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個(gè)表示。這跟人理解看圖識字很相似,一個(gè)不容易理解的東西你要看一會(huì),是基于當(dāng)前一些已看內(nèi)容的理解,反復(fù)看才能看懂。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

還有從從優(yōu)化觀點(diǎn)的解釋,如果不用 ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會(huì)非??涌油萃莺透叩筒黄?,所以很難優(yōu)化。我們知道整個(gè)網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極??;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達(dá)一個(gè)很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個(gè)方法的推廣能力非常強(qiáng)相關(guān)。

多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強(qiáng)。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個(gè)40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤圖像到落子位置這樣一個(gè)高度復(fù)雜的映射,這非常讓人吃驚。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

?2012 年開始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計(jì)算平臺(tái)的角度看這些工作,大概可以分成三類:第一類是在“云”上,像 GoogleNet、ResNet,其目標(biāo)是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來探知我們的認(rèn)知邊界;第二類平臺(tái)是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計(jì)算能力,內(nèi)存訪問都有限制,但很多真實(shí)的場景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運(yùn)行在移動(dòng)端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標(biāo)是說如何在一個(gè)給定計(jì)算量的設(shè)備上得到最好的效果。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

一個(gè)網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個(gè) 3×3 的卷積,ResNet 加了一個(gè)跳轉(zhuǎn)連接,我們在 ResNet 中還引入一個(gè) Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

去年何愷明有一項(xiàng)工作叫 ResNeXt,它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個(gè) 3x3 分層卷積的方式,每個(gè)層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對 1×1 Conv 分組;但是如果只分組的話,組間的信息不會(huì)交換,這樣會(huì)影響特征學(xué)習(xí),因此我們通過引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實(shí)設(shè)備上的速度要比 AlexNet 快 20 倍左右。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

這是我們?nèi)ツ陮槭謾C(jī)設(shè)計(jì)的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因?yàn)?CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計(jì),Group 卷積等等,我就不贅述了。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

今年我們設(shè)計(jì)了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個(gè)方法把 Channel 先一分為二,并把每個(gè)分支用非常簡單的結(jié)構(gòu)來做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們在網(wǎng)絡(luò)設(shè)計(jì)中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

這項(xiàng)工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說 ShuffleNet v2 目前在計(jì)算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

我們還需要將神經(jīng)網(wǎng)絡(luò)運(yùn)行在芯片上,這不光對網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有要求,還要對網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個(gè)向量,那么卷積計(jì)算就可以通過芯片上非常簡單的位運(yùn)算完成計(jì)算。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

我們提出的 DorefaNet 是第一個(gè)對梯度也做量化的研究工作,從而可以讓我們在 FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計(jì)算量是一方面,但是它的內(nèi)存訪問限制更大,DorefaNet 這種方法可以做到更好。上圖是我們在 ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類結(jié)果。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

上述分類問題網(wǎng)絡(luò)設(shè)計(jì)需要考慮不同的平臺(tái),其它問題多是以分類為基礎(chǔ),比如說檢測,上圖是檢測最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測框架。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018檢測方面的目前最有權(quán)威性的競賽是 COCO,檢測精度用 mAP 來表示,越高越好。2015 年我們在微軟亞洲研究院用 ResNet 做到了 37.3,曠視研究院去年參加了這個(gè)競賽,取得第一名的成績 52.5(滿分 100 分),又推進(jìn)了一大步。我們獲得 COCO 2017 冠軍的論文是 MegDet。COCO 可以對人進(jìn)行檢測,也可以抽取特征,我們也在研究后者的工作(Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun. Cascaded Pyramid Network for Multi-Person Pose Estimation. CVPR 2018.),提取人體骨架,通過骨架表示人體運(yùn)動(dòng),進(jìn)行行為分析,這樣比直接分析圖片進(jìn)行行為訓(xùn)練更為有效。

最后介紹一些我們做的基于云、端、芯上的商業(yè)應(yīng)用。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

在云上,曠視科技最早推出了面向開發(fā)者的 www.faceplusplus.com 的 AI 云服務(wù)。第二個(gè)云服務(wù)產(chǎn)品是 www.FaceID.com,這是目前最大的在線身份認(rèn)證平臺(tái),為互聯(lián)網(wǎng)金融、銀行、出行等行業(yè)提供在線身份認(rèn)證服務(wù)。第三個(gè)非常大的云服務(wù)產(chǎn)品是城市大腦,它的核心是通過很多的傳感器,獲取大量信息,最后做出決策。視覺是目前最大的一個(gè)感知方式,因?yàn)橹袊蟹浅6嗟臄z像頭,通過賦能這些視覺傳感器,我們可以知道人和車的屬性,了解交通和地域情況。其中一個(gè)很重要的應(yīng)用是公共安防,即如何用賦能億萬攝像頭來協(xié)助城市安全和高效運(yùn)轉(zhuǎn)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

在端上的應(yīng)用更多,第一個(gè)就是手機(jī)。vivo V7 是第一款海外上市旗艦機(jī),搭載了我們的人臉解鎖技術(shù),還有小米 Note 3 的人臉解鎖。我們幫助 vivo 和小米在 iPhoneX 發(fā)布之前推出了人臉解鎖手機(jī)。華為榮耀 V10 和 7C 手機(jī)同樣使用了我們的技術(shù)。華為為什么請孫楊做代言人?因?yàn)樗L期游泳,指紋已經(jīng)磨光了,必須用人臉解鎖才能很好地使用手機(jī)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

不光是人臉解鎖,還包括人臉 AI 相機(jī)的場景識別,實(shí)時(shí)知道你在拍什么,更好地調(diào)節(jié)相機(jī)參數(shù),還可以做人臉三維重建,自動(dòng)實(shí)現(xiàn) 3D 光效。另外一個(gè)很有趣的應(yīng)用是深圳和杭州的肯德基旗艦店,消費(fèi)者可以直接刷臉點(diǎn)餐,這些圖是我在現(xiàn)場刷臉支付喝到一杯果汁的過程。第二個(gè)是新零售,借助圖像感知系統(tǒng),能把線下的人、貨、場的過程數(shù)字化。線上零售是數(shù)字化的,可以根據(jù)數(shù)字化的用戶統(tǒng)計(jì)信息或者個(gè)人信息做用戶畫像、大數(shù)據(jù)分析,幫助提升新零售效率。我們在線下零售,需要用圖像感知來做數(shù)字化。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

最后是芯片。我們?nèi)ツ暝诎卜勒拱l(fā)布了一款智能人像抓拍機(jī)——MegEye-C3S,把 DorefaNet 跑在 FPGA 上,再放到相機(jī)里,這是業(yè)界第一款全畫幅(1080p)、全幀率(30fps)人臉實(shí)時(shí)檢測抓拍機(jī)。

曠視科技首席科學(xué)家孫劍:如何打造云、端、芯上的視覺計(jì)算(含30張 PPT) | CCF-GAIR 2018

再往下應(yīng)該怎么做呢?今天我們是分平臺(tái),根據(jù)平臺(tái)的特性設(shè)計(jì)不同的網(wǎng)絡(luò)。我們相信下一代會(huì)有一個(gè)“MetaNet”,統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的問題。

謝謝大家。

相關(guān)文章:

對話曠視科技:請姚期智出山是為本質(zhì)創(chuàng)新,未來想成為國內(nèi)首家上市的純?nèi)斯ぶ悄芄?/a>

曠視科技子公司落戶杭州,重點(diǎn)瞄準(zhǔn)智能安防業(yè)務(wù)

CVPR 2018 | 8篇論文、10+Demo、雙料挑戰(zhàn)賽冠軍,曠視科技掀起CVPR產(chǎn)學(xué)研交流熱潮

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報(bào)道、行業(yè)交流請加微信“Hanass”
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說