1
本文作者: 亞萌 | 2017-03-01 21:18 |
雷鋒網(wǎng)按:本文根據(jù)2月27日阿里云視覺(jué)計(jì)算團(tuán)隊(duì)負(fù)責(zé)人華先勝的視頻采訪整理而來(lái)。
華先勝,北京大學(xué)應(yīng)用數(shù)學(xué)博士、IEEE Fellow、ACM2015年度杰出科學(xué)家、MIT TR全球35位35歲以下的杰出青年創(chuàng)新人物,曾擔(dān)任ACM Multimedia等大會(huì)程序委員會(huì)主席,是視覺(jué)識(shí)別和搜索領(lǐng)域的國(guó)際級(jí)權(quán)威學(xué)者。于2016年7月加入阿里云人工智能研究機(jī)構(gòu)iDST科學(xué)家團(tuán)隊(duì),帶領(lǐng)阿里云視覺(jué)計(jì)算團(tuán)隊(duì)的研發(fā)工作。
我在2015年加入阿里,之前在微軟待了14年。第一年加入阿里巴巴,實(shí)際上在搜索事業(yè)部,不在阿里云,那個(gè)時(shí)候解決的是搜索的問(wèn)題,也就是以圖片搜商品。這個(gè)題目是上個(gè)世紀(jì)末就在做的,真正取得進(jìn)展也是在近些年,我在那一年主要做的就是這些事情。把圖片搜索商品這件事情從比較初步的狀態(tài),做到一個(gè)我個(gè)人認(rèn)為是世界上最好的一個(gè)狀態(tài),因?yàn)樗嬲軌蚴褂昧恕?/p>
那么在大約一年前,我就到了阿里云,這個(gè)原因是因?yàn)樵粕系囊曈X(jué)計(jì)算需求量非常大。我們視覺(jué)計(jì)算團(tuán)隊(duì)成立以后就針對(duì)幾個(gè)大的場(chǎng)景,包括監(jiān)控、交通、安防、人臉、個(gè)人圖片、醫(yī)療等,其中最重要的一部分實(shí)際上是城市大腦里面的視頻分析,這里面的突破,我覺(jué)得可以分為幾個(gè)方面:
第一點(diǎn),是大規(guī)模的視頻分析。因?yàn)槲覀兲幚淼某鞘袛?shù)據(jù)量是非常大的,甚至遠(yuǎn)遠(yuǎn)超過(guò)電商的數(shù)據(jù)。這里面涉及到我們要去實(shí)時(shí)大規(guī)模處理視頻,所以要依靠阿里云的計(jì)算平臺(tái),再加上視頻分析的一些特點(diǎn),構(gòu)建這樣一套大規(guī)模視頻數(shù)據(jù)分析平臺(tái),包括它的計(jì)算效率,因?yàn)檫@個(gè)數(shù)據(jù)量非常大,你必須有非常高的計(jì)算效力才可以在可控的成本下完成這么復(fù)雜的事情。
第二點(diǎn),把電商的搜索技術(shù),也延伸到城市的場(chǎng)景里面來(lái)。因?yàn)槌鞘幸曨l數(shù)據(jù)圖像數(shù)據(jù)那么多,當(dāng)然就有查找的問(wèn)題,比如一輛車、一個(gè)人、一件物等等,我們把電商里的以圖搜圖應(yīng)用到城市的場(chǎng)景里面來(lái),可以叫做“城市圖搜”或者叫“城市搜索”,專業(yè)一點(diǎn)的語(yǔ)言可以叫“索引整個(gè)城市”。當(dāng)然是從視覺(jué)的角度來(lái)做的,這個(gè)其實(shí)也是非常困難的一件事情,我們?cè)谶@方面也是取得了一些突破。
第三點(diǎn),是在交通或者公開(kāi)場(chǎng)景下,對(duì)特殊事件進(jìn)行檢測(cè)和識(shí)別。比如說(shuō),交通事故、違章停車、橫穿馬路等,我們做了深入的研究。
下面我給大家展示其中的一些技術(shù)。
第一個(gè)是城市搜索,這個(gè)是以車為例,城市里面的車流是很多的,這些信息都可以放在一個(gè)數(shù)據(jù)庫(kù)或者索引里面,你有一些關(guān)于這個(gè)車的一部分信息,比如說(shuō)車的圖片、車牌、車牌的部分信息,這些信息哪怕部分車的特征(比如說(shuō)紅色寶馬或黑色寶馬X5等信息),都可以在這個(gè)系統(tǒng)里找到這個(gè)車在城市里面哪里出現(xiàn)過(guò)。不過(guò)大家不用擔(dān)心,這個(gè)系統(tǒng)不是任何人都可以訪問(wèn)的,都是交通部門或者安全部門可以訪問(wèn)到,所以大家不用擔(dān)心你的信息被泄露。
這個(gè)是剛才講過(guò)交通優(yōu)化,必須對(duì)車流有一個(gè)非常完整的認(rèn)識(shí),比如說(shuō)像這里,可以看到我們對(duì)車輛的檢測(cè)、跟蹤,還有車型的識(shí)別、車牌的識(shí)別,還有車的走向識(shí)別,其實(shí)我們還有行人識(shí)別,都要有一個(gè)非常全面的了解。
這個(gè)是對(duì)速度的估計(jì),我們通過(guò)視頻的角度,而不是通過(guò)雷達(dá)。我們可以測(cè)算出車流的速度,這對(duì)于交通優(yōu)化來(lái)講也是非常關(guān)鍵的一個(gè)因素。
我們還有對(duì)人的搜索,這個(gè)還不是對(duì)人臉的搜索。因?yàn)樵诔鞘械沫h(huán)境下,其實(shí)很多情況下,人臉并不是很清楚的,反而你只有一個(gè)人的大概輪廓,和一些大概的特征。所以,這跟人臉的技術(shù)還是稍微有點(diǎn)不一樣的。
下面這個(gè)例子,是我們把視頻的商業(yè)價(jià)值更進(jìn)一步發(fā)揮起來(lái)。比如我們?cè)谝曨l里找到可以嵌入廣告的地方,不管是張貼畫的廣告還是物品的廣告。這個(gè)是張貼畫,這個(gè)左邊是原來(lái)的視頻,右邊是我們貼了一個(gè)畫。我們可以把這些畫面嵌進(jìn)去,就像原來(lái)視頻里本來(lái)就有的畫面一樣。
另外還有關(guān)于人臉技術(shù)方面的一些應(yīng)用,比如說(shuō)虛擬時(shí)裝,我們?cè)谔摂M試衣的時(shí)候,通過(guò)一張照片合成3D人臉模型,換成用戶的臉,這樣就能夠更有真實(shí)感。當(dāng)然還有虛擬試戴,像這里,我們?cè)谑謾C(jī)屏幕上也可以看到眼鏡戴在用戶眼睛上大概是什么樣子。
人臉和人的關(guān)鍵點(diǎn)的跟蹤功能,是很多應(yīng)用包括試戴應(yīng)用必須具備的一項(xiàng)技術(shù),而且要到手機(jī)端實(shí)時(shí)做到非常精準(zhǔn),否則就會(huì)出問(wèn)題。像這個(gè)是有點(diǎn)好玩的應(yīng)用,因?yàn)閷?duì)人臉能夠進(jìn)行跟蹤,就可以進(jìn)行改造,變成一個(gè)或搞笑或恐怖的一個(gè)場(chǎng)景。
下面這個(gè),已經(jīng)是產(chǎn)品了。我們拍立淘里面有時(shí)裝的部分,比如說(shuō)這兒,她試一個(gè)口紅,這個(gè)當(dāng)然都在手機(jī)端實(shí)時(shí)完成的。這個(gè)時(shí)候要做得非常精準(zhǔn),因?yàn)榭诩t顏色稍微變化一點(diǎn)就比較難看了,多一點(diǎn)少一點(diǎn)都不像,所以對(duì)算法的要求是非常高的。
這個(gè)問(wèn)題是這樣的,我們首先要對(duì)整個(gè)城市的狀況、交通狀況有一個(gè)全面的清晰的透徹的了解。什么叫全面呢?我們要“看全”,因?yàn)檫@個(gè)城市的攝像頭是非常多的,這就涉及到剛才講的大規(guī)模視頻處理,也包括以前在交通領(lǐng)域里面還無(wú)法獲取的一些信息,比如說(shuō)行人的信息。以前的交通模型其實(shí)是沒(méi)有辦法使用的,因?yàn)闆](méi)有辦法獲取這些信息。在以前,車流的信息可以通過(guò)其它手段得到一部分,比如說(shuō)通過(guò)地面上的感應(yīng)線圈也可以得到粗略的信息;不然是通過(guò)GPS采樣信息,但是這樣獲得的數(shù)據(jù)也不夠完整。那么視頻的信息是可以看得非常完整的,可以看到整個(gè)車流、人流和非機(jī)動(dòng)車。
所謂的“看清”,從技術(shù)上來(lái)講,就是要把經(jīng)過(guò)車子的數(shù)量,車的類型、車牌、走向、速度等信息都要提取出來(lái)。還有行人的信息也要看清楚,到底多少人在占用人行橫道,這個(gè)對(duì)交通的優(yōu)化都是非常重要的信息,過(guò)去是很難獲取的。而且我們還要“看得透”,指的是挖掘大量數(shù)據(jù)之間的關(guān)系,從而發(fā)現(xiàn)規(guī)律,或者說(shuō)發(fā)現(xiàn)他們之間的相互制約性,從而得出決策。
我舉一個(gè)例子,比如說(shuō)在交通的優(yōu)化當(dāng)中,我要優(yōu)化紅綠燈,不能只看某一個(gè)路口的信息,要看很多的路口,因?yàn)槟闳绻堰@一個(gè)路口解決了,有可能別的路口堵了。我聽(tīng)一個(gè)交通部門的人講過(guò),曾經(jīng)有一個(gè)城市做優(yōu)化的時(shí)候,看到一條路上,覺(jué)得這個(gè)路面機(jī)動(dòng)車和行人爭(zhēng)搶道路,引起了交通堵塞。他就想了一個(gè)辦法,修了一條地道,車走下面,行人走上面,這真的是解決這一部分的道路非常的暢通??墒沁@一條路的下一站,到最后是什么呢?是一個(gè)火車站,所有的車都堵在火車站里頭了,這其實(shí)是一個(gè)局部?jī)?yōu)化,有時(shí)候看上去解決了當(dāng)前的問(wèn)題,但沒(méi)有解決整體問(wèn)題。有了這個(gè)以后,才是交通模型。那這方面,其實(shí)過(guò)去很多的交通專家也做了很多工作,也有很多值得借鑒的地方,也有很多成果,當(dāng)然對(duì)于交警來(lái)講也有很多實(shí)戰(zhàn)的經(jīng)驗(yàn),這些對(duì)我們交通優(yōu)化都有非常重要的作用。作為我們?cè)朴?jì)算公司來(lái)講的話,是要在更大的數(shù)據(jù)下,更準(zhǔn)確的數(shù)據(jù)情況下,獲得更全、更透、更清晰的數(shù)據(jù)。再加上交通專家的研究成果,加上交管部門實(shí)際的經(jīng)驗(yàn),我們一起來(lái)解決這個(gè)交通的建模、交通優(yōu)化問(wèn)題。
通常來(lái)說(shuō)我們看到車流情況后,可以對(duì)紅綠燈進(jìn)行優(yōu)化。有一種方法是根據(jù)每天的規(guī)律,或者每周長(zhǎng)時(shí)間的規(guī)律,對(duì)紅綠燈做一次性離線的優(yōu)化。有一個(gè)配時(shí)方案,星期一早上幾點(diǎn)到幾點(diǎn)是什么樣子的,中午、晚上是什么樣子的,星期二是什么樣子的,每天不一樣的方案。
剛才講的交通事故需要實(shí)時(shí)調(diào)控,這里面也可以分兩類,一種是已經(jīng)堵起來(lái)了,在還沒(méi)有堵死的時(shí)候已經(jīng)看到這個(gè)趨勢(shì)了,可以對(duì)紅綠燈進(jìn)行管控,一個(gè)方向時(shí)間延長(zhǎng),另外一個(gè)方向減少時(shí)間等,對(duì)紅綠燈調(diào)控。另一種更聰明的一點(diǎn)做法,我們?nèi)绻^察到一些事故,就對(duì)它的規(guī)模、可能帶來(lái)的交通問(wèn)題做一個(gè)大概的估計(jì),提前進(jìn)行疏導(dǎo),這是可以做到的。
阿里云的計(jì)算平臺(tái),叫做飛天系統(tǒng),你可以把它看作是一個(gè)超級(jí)的計(jì)算機(jī)。對(duì)于視頻而言,當(dāng)然我們?cè)谶@里面也會(huì)有一點(diǎn)特殊的地方,因?yàn)橐曨l處理有它的特點(diǎn),比如說(shuō)數(shù)據(jù)量大、吞吐量大、計(jì)算消耗也非常大。我們?cè)谶@個(gè)基礎(chǔ)上,跟計(jì)算平臺(tái)一起,讓計(jì)算平臺(tái)能夠處理這些視頻數(shù)據(jù)。用比喻來(lái)說(shuō),就是它能吃得進(jìn)去,消化得了,并把這個(gè)營(yíng)養(yǎng)吸收得了,最終產(chǎn)生結(jié)果。
但這里面的視頻處理有特殊性:視頻處理有時(shí)間上的相關(guān)性。比如說(shuō)我們對(duì)某一當(dāng)前時(shí)刻圖像進(jìn)行處理的時(shí)候,是依賴于前面的若干時(shí)刻圖像的,所以在視頻里面要很方便地處理這種邏輯。再比如說(shuō)像交通的場(chǎng)景下,甚至是我當(dāng)前的視頻需要跟別的好幾路視頻合在一起才能形成一個(gè)決策,比如說(shuō)像紅綠燈的管控,我光看一個(gè)路口的一路肯定是不行的,甚至光看一個(gè)路口的四路也不行的,我要看好幾個(gè)路口一起來(lái)決策,這就是在物理的空間上也是有相關(guān)性,我經(jīng)常把這叫做“時(shí)空的相關(guān)性”。在這種情況下能夠順利完成計(jì)算,從而實(shí)時(shí)得出決策,這都是通過(guò)平臺(tái)才能達(dá)到的。對(duì)于算法專家來(lái)說(shuō),更多的精力是放在算法的研發(fā)上,提升算法準(zhǔn)確性和本身的計(jì)算效率。
有幾個(gè)方面,第一個(gè)就是剛才提到的,我們?cè)谠朴?jì)算上,必須立足于大規(guī)模的視頻分析,所以對(duì)于算法的優(yōu)化是非常非常重要的。比如說(shuō),我們前不久也做了很多的優(yōu)化工作。比如我們對(duì)車的檢測(cè)分析識(shí)別,最初的版本,一幀圖像在CPU上的處理需花費(fèi)2600毫秒,這個(gè)其實(shí)是相當(dāng)慢的。后來(lái)我們跟英特爾合作,利用英特爾的CPU上的優(yōu)化,在單核上壓縮到900多毫秒。后來(lái)我們?cè)偻ㄟ^(guò)算法本身的優(yōu)化,包括模型的結(jié)構(gòu)優(yōu)化,參數(shù)的優(yōu)化等等,就降低到130多毫秒,這又提升了很多倍,整個(gè)提升了幾十倍。這幾十倍的提升,聽(tīng)起來(lái)可能沒(méi)什么感覺(jué),但對(duì)于大量的計(jì)算資源來(lái)講是非常重要的。如果你只要一臺(tái)、兩臺(tái)機(jī)器做事情,還不是太大的問(wèn)題,假如你要1萬(wàn)臺(tái)、2萬(wàn)臺(tái)機(jī)器同時(shí)運(yùn)行,那就是一個(gè)很大的事情了。這個(gè)量的相差是非常非常多的。所以大規(guī)模計(jì)算的效率也是非常重要的方向。
另外一點(diǎn)就是繼續(xù)深入行業(yè),在各行各業(yè)里面去挖掘金礦,讓算法在里面能夠得到優(yōu)化和深入,把這個(gè)行業(yè)吃透,為客戶帶來(lái)真正的價(jià)值。當(dāng)然還有像深度學(xué)習(xí)本身算法的研究還是有很大的空間,這也是我們接下來(lái)要做的事情。
我認(rèn)為,一個(gè)成功的人工智能應(yīng)用,應(yīng)該具備五個(gè)條件。
第一個(gè)是算法。你要有好的算法,你的算法要有先進(jìn)性,你的算法不行一切都沒(méi)有了基礎(chǔ)。(當(dāng)然你也可以把算法這一個(gè)條件看做是科學(xué)家,因?yàn)槿瞬藕退惴ㄊ蔷o密相連的)。
第二個(gè)是要有數(shù)據(jù)。數(shù)據(jù)本身就是一個(gè)很大的話題,里面有數(shù)據(jù)的采集、搜集、清洗、有效的標(biāo)注,甚至包括算法里面數(shù)據(jù)怎么使用。
第三個(gè)是用戶。你做的這個(gè)東西應(yīng)該有用戶的,因?yàn)橛泻芏鄦?wèn)題是需要用戶參與才可以做得越來(lái)越好。當(dāng)然你從商業(yè)的角度來(lái)講,沒(méi)有用戶的話也不能夠長(zhǎng)久。用戶本身是數(shù)據(jù)的消費(fèi)者,也是數(shù)據(jù)的提供者,這過(guò)去在搜索引擎里面有非常重要的體現(xiàn),可以說(shuō)搜索引擎的技術(shù)能夠做那么好,每個(gè)人都有contribution的。
第四個(gè)就是平臺(tái)。這個(gè)就是涉及到你要有強(qiáng)大的計(jì)算能力和一套體系架構(gòu),能夠方便地去研發(fā)、部署和生產(chǎn),這一套是必須要有的。當(dāng)然現(xiàn)在因?yàn)橛性朴?jì)算,所以這部分的瓶頸,對(duì)于很多企業(yè)來(lái)講已經(jīng)沒(méi)有過(guò)去那么困難了。
第五個(gè)就是有好的商業(yè)模式。如果沒(méi)有好的商業(yè)模式,就不可能長(zhǎng)久。你做一個(gè)事情,低頻的事情沒(méi)有多少人用,或者不能給少量用戶帶來(lái)大的價(jià)值,最后產(chǎn)生的總體價(jià)值不夠的話,其實(shí)是很難長(zhǎng)久的。這幾點(diǎn),我個(gè)人覺(jué)得其實(shí)是都應(yīng)該具備的。當(dāng)然了,可能不同的商業(yè)應(yīng)用,應(yīng)該來(lái)說(shuō)可能有不同的側(cè)重,但是我覺(jué)得都應(yīng)該具備。
關(guān)于這個(gè)問(wèn)題,有很多的爭(zhēng)論。我說(shuō)說(shuō)我自己的觀點(diǎn),我們有很多公司確實(shí)是以算法起家的,但是我覺(jué)得算法之間的差異,可能會(huì)逐漸越來(lái)越小。尤其是現(xiàn)在基于深度學(xué)習(xí)的方法,以及包括很多開(kāi)源的出現(xiàn),對(duì)于內(nèi)行人而言,或者叫高手之間,他們之間算法性能的差異其實(shí)不會(huì)太大。比如說(shuō)人臉識(shí)別,在AFW上面,大家測(cè)試的差距都在小數(shù)點(diǎn)后面一位兩位的,沒(méi)有太大的差距。像ImageNet 也一樣,差不多都是99.6%、99.7%這樣子,都是不難達(dá)到的。那這些對(duì)于內(nèi)行人而言沒(méi)有太大的差距,但是在真實(shí)場(chǎng)景下應(yīng)用的時(shí)候還會(huì)有差距,隨著時(shí)間的推移,大家都在實(shí)戰(zhàn)當(dāng)中磨煉的話,都不會(huì)差距太大。甚至包括數(shù)據(jù)的優(yōu)勢(shì),也會(huì)減少,很多的公司,不管是大公司還是創(chuàng)業(yè)公司,做得稍微早一點(diǎn),積累了大量的數(shù)據(jù),不管是標(biāo)注的信息還是算法在練習(xí)當(dāng)中搜集的反饋,隨著時(shí)間的推移這部分紅利也會(huì)逐漸減少。
什么是具有競(jìng)爭(zhēng)力的東西呢?這個(gè)問(wèn)題很好,我覺(jué)得可能還是要看平臺(tái)和商業(yè)應(yīng)用。從商業(yè)模式上來(lái)使得自己的競(jìng)爭(zhēng)力具有長(zhǎng)久性,尤其是在細(xì)分的這個(gè)行業(yè),你做到非常精深。因?yàn)檫@部分并不是那么顯而易見(jiàn)的,并不是說(shuō)隨便搞搞,我們就都是90%幾之類的,這個(gè)需要你精耕細(xì)作的,需要你深入這個(gè)行業(yè),結(jié)合真實(shí)場(chǎng)景數(shù)據(jù)的一些特點(diǎn),才能夠逐漸把這個(gè)行業(yè)吃透、打穿,才能夠有一席之地、成為高手。那么這個(gè)的話,其實(shí)是可以有差異化的。因?yàn)檫@個(gè)行業(yè)非常的多,其實(shí)大家不見(jiàn)得一定要擠在一個(gè)獨(dú)木橋上,一定要去刷通用的圖像識(shí)別這些東西,或者是非?;馃岬囊恍╊I(lǐng)域,其實(shí)有很多路可以走的。
我們確實(shí)也要冷靜看待一些問(wèn)題,有幾個(gè)角度來(lái)看到。比如說(shuō)現(xiàn)在的識(shí)別就已經(jīng)做到真的那么好了呢?大家可能有一些體會(huì),這個(gè)準(zhǔn)確率的數(shù)字好像很高,但是在真實(shí)場(chǎng)景下,有時(shí)候也不那么好。我舉個(gè)例子,像大家比較公認(rèn)的ImageNet比賽,有數(shù)百萬(wàn)張圖片,進(jìn)行1000類的分類,我們通常說(shuō)現(xiàn)在最高的準(zhǔn)確率已經(jīng)做到96%點(diǎn)幾,錯(cuò)誤是3%點(diǎn)幾。那這個(gè)其實(shí)這里面有很多可以去探討的.
第一點(diǎn),這個(gè)96%點(diǎn)幾,是指前五的正確率。也就是說(shuō)一個(gè)圖像識(shí)別出來(lái)5個(gè)結(jié)果,其中有一個(gè)對(duì)的就算對(duì)。如果規(guī)定第一個(gè)必須對(duì)才算達(dá)到正確,那可能正確率只有80%多點(diǎn)。
第二點(diǎn),是我們這個(gè)世界是很復(fù)雜的,遠(yuǎn)遠(yuǎn)超過(guò)這1000類,有很多現(xiàn)實(shí)世界當(dāng)中太多太多不一樣的東西都需要去識(shí)別。這實(shí)際上是一個(gè)覆蓋率的問(wèn)題,剛才講到在標(biāo)準(zhǔn)的測(cè)試級(jí)上可以到很高,這是一個(gè)準(zhǔn)確率的問(wèn)題,準(zhǔn)確率當(dāng)然也是非常關(guān)鍵的,也是推動(dòng)這個(gè)領(lǐng)域發(fā)展重要的一個(gè)指標(biāo),然而真正在現(xiàn)實(shí)當(dāng)中的覆蓋也是非常重要的。覆蓋直接關(guān)系到人的體驗(yàn),尤其是在識(shí)別和搜索這里面。比如說(shuō)我那一年在做拍立淘的時(shí)候也是花很大的心思去解決覆蓋的問(wèn)題,覆蓋的意思是就是說(shuō)你搜什么都能給點(diǎn)相關(guān)結(jié)果出來(lái)。那準(zhǔn)確率是說(shuō),我搜出來(lái)的東西要跟我想象的東西是相關(guān)的。這兩個(gè)都是非常重要的?,F(xiàn)在的識(shí)別的技術(shù)在覆蓋上其實(shí)是有欠缺的,當(dāng)然了覆蓋的話,也不是說(shuō)不能解決的。我記得我在前些年也做過(guò)一套系統(tǒng),當(dāng)時(shí)是利用了互聯(lián)網(wǎng)的數(shù)據(jù),使得覆蓋能夠得到更大的提升,所以用了互聯(lián)網(wǎng)的數(shù)據(jù)自動(dòng)取挖掘訓(xùn)練數(shù)據(jù),使得它可以識(shí)別任意的東西,當(dāng)然這個(gè)任意的東西還是有條件的,互聯(lián)網(wǎng)上可以找得到數(shù)據(jù),可以找到足夠足量的數(shù)據(jù)然后可以自動(dòng)清洗自動(dòng)建立模型。
我記得當(dāng)時(shí)我還在美國(guó)的時(shí)候,去參加一個(gè)朋友的聚會(huì),他家里有一株花很好看,但是那個(gè)花就一朵,而且屬于剛剛開(kāi)放的樣子。所以,大家其實(shí)就都認(rèn)不出來(lái),這個(gè)主人也忘了叫什么花。當(dāng)時(shí)我正好在做這個(gè)項(xiàng)目,確實(shí)是有個(gè)花的自動(dòng)識(shí)別的系統(tǒng),我當(dāng)時(shí)拿來(lái)識(shí)別了一下,果然就識(shí)別出來(lái)了,它叫孤挺花,有點(diǎn)像百合。當(dāng)時(shí)在那種情況下,只有一株花,如果有很多花還好一點(diǎn),而且又是剛剛開(kāi)放的樣子,不是很典型的,但是利用互聯(lián)網(wǎng)上的大量的數(shù)據(jù)可以把它自動(dòng)識(shí)別出來(lái),所以也是有很多工作需要去做的。那么到行業(yè)里面更是這樣的,一些通用算法在行業(yè)里面,在金融的環(huán)境對(duì)人臉的比對(duì)可能還是OK的。但是在安防的場(chǎng)景下,在城市的攝像頭的場(chǎng)景下,基本上是不行的,因?yàn)閿z像頭也不是正臉,這有很多的問(wèn)題需要去解決。像我們剛才提供了一些解決方案,不僅僅是從人臉的角度,還有從人體的角度去做。所以說(shuō),技術(shù)本身是不是一定那么好呢?其實(shí)也是值得考慮的。
第三點(diǎn),有沒(méi)有好的商業(yè)應(yīng)用,有沒(méi)有真正深入行業(yè)產(chǎn)生價(jià)值,那么這一點(diǎn)也是非常關(guān)鍵的。因?yàn)檫@一部分做不到的話,那么它就不能長(zhǎng)久。所以我覺(jué)得還是應(yīng)該認(rèn)真地考慮一下,創(chuàng)業(yè)也好,創(chuàng)新也好,基礎(chǔ)是不是穩(wěn)固的?比如說(shuō)剛才我講到的我的觀點(diǎn)的五個(gè)要素是不是都具備了,缺什么,需不需要補(bǔ),或者我們的優(yōu)勢(shì)在哪里?如果我們的優(yōu)勢(shì)只在算法上,那么可能還有一點(diǎn)危險(xiǎn),如果我們還有成功的商業(yè)模式,有源源不斷的商業(yè)應(yīng)用商業(yè)價(jià)值的產(chǎn)生,那可能就會(huì)比較安全一點(diǎn)。
從視覺(jué)的角度來(lái)講我覺(jué)得還有很多問(wèn)題去解決,深度學(xué)習(xí)本身算法的研究還是有很大空間的,這并不是所有的問(wèn)題都做得很好了。模型這些年也不斷在演化,訓(xùn)練的策略都在不斷進(jìn)步。
還有一個(gè)就是人工智能的平臺(tái),我覺(jué)得也是值得思考的一個(gè)方向。就像過(guò)去電腦是單機(jī)的操作系統(tǒng),像Windows,那么在Windows這個(gè)平臺(tái),產(chǎn)生了大量的程序。對(duì)于手機(jī)也一樣,在安卓、在蘋果的iOS上也產(chǎn)生大量的應(yīng)用,那么云計(jì)算也一樣,它也是在云計(jì)算的平臺(tái)上逐漸在形成大量的應(yīng)用。所以AI是不是也會(huì)這樣?是不是要有一個(gè)這樣的平臺(tái),使得大家去做AI應(yīng)用的開(kāi)發(fā)和研究變得更加容易,就像過(guò)去寫一個(gè)程序一樣那么好做,我覺(jué)得這可能也是很關(guān)鍵的。
從應(yīng)用的角度來(lái)講,我覺(jué)得計(jì)算的效率可能也是非常重要的,尤其是大規(guī)模的視覺(jué)計(jì)算,人工智能的話,如果需要大量的數(shù)據(jù),計(jì)算量非常大,這個(gè)事情你要讓他發(fā)生的話,必須是在資源消耗可控的情況下才能完成。如果發(fā)現(xiàn)完成這件事情都要破產(chǎn)的話,就沒(méi)有辦法繼續(xù)做下去了,這里面涉及到系統(tǒng)架構(gòu)的效率包括算法本身的效率等等之類的各種優(yōu)化,這個(gè)也是很重要的系統(tǒng)問(wèn)題。
AI的人才現(xiàn)在也是蠻多的,當(dāng)然AI人才的需求量也是非常得大,所以AI的同學(xué)這時(shí)候找工作是一個(gè)旺季。當(dāng)然這個(gè)時(shí)候我覺(jué)得AI的同學(xué)們,也是除了關(guān)注技術(shù)以外,還要專注應(yīng)用,只有技術(shù)還沒(méi)有個(gè)很好的應(yīng)用場(chǎng)景的話,那么是不能長(zhǎng)久的,不能夠在現(xiàn)實(shí)當(dāng)中產(chǎn)生真正的價(jià)值。
更多雷鋒網(wǎng)相關(guān)文章:
Facebook將反饋融入AI系統(tǒng),視覺(jué)障礙者現(xiàn)在也能“讀懂”照片啦
深度學(xué)習(xí)之四大經(jīng)典CNN技術(shù)淺析 | 雷鋒網(wǎng)硬創(chuàng)公開(kāi)課
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。