1
“AI 新時代,我們該關(guān)注什么?”
剛剛,在廈門人工智能峰會上,依圖科技聯(lián)合創(chuàng)始人朱瓏出席演講并丟出了這個終極疑問。
在他看來,文明的變遷靠的是科技的推動,科技推動就是基礎(chǔ)設(shè)施的革命;基礎(chǔ)設(shè)施提升的關(guān)鍵在于:提升一個區(qū)域或者一個城市的智能密度。
智能密度可以分為兩個維度考量:
宏觀上,要從單體的機(jī)器智能到群體的智能。比如說一個攝像頭能夠識別人臉的數(shù)量從100個到1000個、1萬個。而且這1萬個攝像頭能夠相互交流,互相對話,并且它們識別出來的信息是可決策的。
微觀上,單個計(jì)算機(jī)能夠支撐的智能算力要足夠大,這里的智能算力不是簡單的機(jī)器算力。
高級的算法可以用更少的機(jī)器算力實(shí)現(xiàn)更高的智能??傊?strong>算力和算法兩者決定了智能的密度,而提升智能密度是普及AI的關(guān)鍵。
朱瓏總結(jié),從感知智能到認(rèn)知智能,未來還會出現(xiàn)一個新物種:機(jī)器智能,它會慢慢地具備人類的智能。
機(jī)器智能的發(fā)展可以分成幾個階段:
1、記錄功能,沒有任何的識別能力;
2、可識別,比如說攝像頭能夠識別人臉;
3、可關(guān)聯(lián),不同攝像頭之間識別出來的信息之間的關(guān)系是什么?怎么判斷?
4、可預(yù)測、可預(yù)判;
5、可規(guī)劃。
他篤信,隨著數(shù)據(jù)、算法、存儲、算力和傳輸?shù)然A(chǔ)設(shè)施的不斷提升,AI在未來幾年會有更為革命性的發(fā)展,讓智能文明社會加速到來。
以下是朱瓏的全部演講內(nèi)容,雷鋒網(wǎng)AI掘金志做了不改變原意的整理與編輯:
人工智能為什么重要?
中國和美國都把AI作為國家戰(zhàn)略,今天廈門人工智能峰會以及多媒體信息識別技術(shù)競賽的舉辦也印證了這一點(diǎn)。
人工智能是世界創(chuàng)新的源動力,依圖很榮幸能夠參加這次競賽,為國家創(chuàng)新貢獻(xiàn)我們的力量。
此前我們參加了三年美國國家標(biāo)準(zhǔn)技術(shù)局(NIST)舉辦的人臉識別供應(yīng)商測試(FVRT),也獲得了三次冠軍,深知舉辦這類賽事的不易,在此向本次比賽的組織者和執(zhí)行人員致敬。希望廈門能夠成為人工智能發(fā)展標(biāo)準(zhǔn)和方向的引領(lǐng)者,成為人工智能思想交流的高地。
我簡單介紹一下我的背景,從中也能看出美國研究人工智能的不同學(xué)派。
我在美國待了十年,我的三位導(dǎo)師,一個是理論物理出身的 Alan Yuille,他也是霍金的學(xué)生。
第二個是我在麻省理工大學(xué)人工智能實(shí)驗(yàn)室讀博士后的老板Bill Freeman,他也是在今年4月人類首次拍攝到黑洞照片研究小組的領(lǐng)導(dǎo)者。
第三位大家可能比較熟悉了,紐約大學(xué)教授 Yann LeCun,他是推動這一輪人工智能浪潮興起的技術(shù)——深度神經(jīng)網(wǎng)絡(luò)的其中一位奠基人,他也因此獲得了2018 年的圖靈獎。
由此可見,在美國從物理到深度神經(jīng)網(wǎng)絡(luò)再到腦科學(xué),不同領(lǐng)域的頂級專家都在研究人工智能,他們推動了過去幾十年人工智能的發(fā)展,讓AI有了今天這個基礎(chǔ)。
那么,人工智能發(fā)展現(xiàn)在處于一個怎樣的狀態(tài)?
剛才高文院士有講到人類智能的演化用了大約630萬年。我總結(jié)了人類文明的變遷:從人類直立行走到形成最原始的社會形態(tài),再到1 萬年前的農(nóng)業(yè)革命,工業(yè)革命我們花了200年,而人工智能從一九五幾年開始到現(xiàn)在,也就60多年的時間,人類的文明史或者是地球的文明史大致就是這么一個區(qū)分。
從眼睛看到這個世界的感知智能到語言也即認(rèn)知智能的誕生,到今天很可能出現(xiàn)一個新的物種,那就是機(jī)器,它慢慢地具備了人類的智能。
當(dāng)機(jī)器的智能曲線與人類的智能曲線交叉甚至超過的時候,文明的形態(tài)會是什么?這非常值得我們遐想和憧憬或者是思考。
我今天給出最重要的一個觀點(diǎn)就是:文明的變遷靠的是科技的推動,科技推動就是基礎(chǔ)設(shè)施的革命。
這里我列舉了一些不同文明時代的基礎(chǔ)設(shè)施,從剛才談到的發(fā)明火到使用文字,農(nóng)業(yè)文明時期有了輪子、道路;
工業(yè)文明出現(xiàn)了蒸汽機(jī)、內(nèi)燃機(jī),有了鐵路;
信息文明,也就是我們過去30年的互聯(lián)網(wǎng)時代,出現(xiàn)了計(jì)算機(jī)、PC、互聯(lián)網(wǎng)、手機(jī),人類克服了時空的障礙。
這幾個最重要的基礎(chǔ)設(shè)施的變革,見證了文明的變遷。
我們現(xiàn)在處于什么時代?我們這個時代的基礎(chǔ)設(shè)施又是什么呢?
過去30年,CPU運(yùn)算能力提升了100萬倍,存儲能力也提升了100萬倍,通訊能力也即數(shù)據(jù)的傳輸速度提升了100萬倍。我們現(xiàn)在是站在過去30年的基礎(chǔ)上來看接下來發(fā)展的基礎(chǔ)。
智能時代只談開始的時間可能定義得不清楚,這里只談2019年回溯回去的過去五年,我們發(fā)生了什么、五年前是什么。
AlphaGo在2015年的時候超過人類的那一天,也是機(jī)器以計(jì)算機(jī)視覺為代表超過人類的那一天,大家可能記憶猶新。
人工智能現(xiàn)在已經(jīng)非?;鹆耍褪沁@火的過去五年,機(jī)器又發(fā)生了什么呢?機(jī)器的算法水平又提升了100萬倍,什么意思呢?
就是人臉識別為代表的錯誤率又下降了100萬,它可以從1萬人當(dāng)中識別、1000萬人當(dāng)中識別、 1億人當(dāng)中識別出你,10億人當(dāng)中識別你,甚至20億人當(dāng)中識別你,這是已經(jīng)看似超過人類的那個時刻之后,它又提升了100萬倍,算力提升了10萬倍。
從過去我們用1萬量級規(guī)模的數(shù)據(jù)做訓(xùn)練,到百萬規(guī)模的數(shù)據(jù)做訓(xùn)練,到現(xiàn)在用10億的數(shù)據(jù)集做訓(xùn)練,又提升了1萬倍,速度是非??斓?。
基礎(chǔ)設(shè)施現(xiàn)在處于一個什么水平?當(dāng)前發(fā)展了這么多, AI處于什么樣的一個水平呢?
我這里用比較通俗的一個語言講一下:人不需要思考、本能地一眼瞄過去,能看見的、能說清楚的、能看懂的,這是機(jī)器可以看到的。
比如說這里有人,有座位,這個是機(jī)器可以看清楚的。但這么遠(yuǎn)要識別清楚,可能有點(diǎn)難,比如這里有多少個人?可能要數(shù)一數(shù),誰跟誰近,這個會坐在旁邊認(rèn)識,可能要想一想,機(jī)器還不一定能做好。
機(jī)器可以聽懂什么?就一下能聽懂的語音識別,理解一句話、一個段落可能就變得困難,對一個文章的理解還比較困難。非常低階的智能機(jī)器已經(jīng)可以或者接近可以了。我們覺得智能要往下躍遷,最重要的就是提升基礎(chǔ)設(shè)施,我后面會講基礎(chǔ)設(shè)施是什么。
我把機(jī)器智能分成幾個階段:
第一個就是記錄功能,沒有任何的識別能力;第二個是可識別,比如說攝像頭能識別人臉;到第三個可關(guān)聯(lián),不同的攝像頭之間識別出來信息之間的關(guān)系是什么?怎么判斷?這是有關(guān)聯(lián)性。第四個是可預(yù)測、可預(yù)判。第五個是可規(guī)劃。大概分這個級別。
我們覺得智能的提升是在基礎(chǔ)設(shè)施的提升上。
我舉城市管理的一個例子,因?yàn)槌鞘泄芾懋?dāng)中包括安防攝像頭的覆蓋,把剛才講的五級智能做一個分類,從最簡單的代替人記錄,可追溯、到可檢索、可關(guān)聯(lián),代替人的推理與決策,代替人統(tǒng)籌,分成幾個級別。
右邊這一列是說達(dá)到這些級別的提升,我們要怎么做。是需要最簡單的一定程度下的稀疏攝像頭的識別率和到最高到20萬個攝像頭基本的一個覆蓋。
這里可以看到我們的感知需要增加密度,我們的算力需要增加識別的能力,就慢慢地就在整個城市規(guī)模上,它有智能等級的躍遷。
這是一個空間布局的感覺,當(dāng)密度達(dá)到一定程度的時候,就可以在空間上或者一個關(guān)鍵場所的圍欄上,形成自己的新的高階的智能,比如看軌跡怎么發(fā)生、事件怎么建模。
我們提了一個概念:基礎(chǔ)設(shè)施提升的關(guān)鍵在于,提升一個區(qū)域或者一個城市的智能密度。
分兩個維度來解釋,一個是宏觀上,單體智能要變成群體智能,一個攝像頭的智能要變成1萬個攝像頭的智能,他們之間識別出來的內(nèi)容是能夠匯聚在一起,能夠形成一個新的、大的智能體。
微觀上,要普及成從一個到1萬個,甚至10萬個,微觀上的算力要急劇提升,才能有經(jīng)濟(jì)性,或者說性價(jià)比較高的基礎(chǔ)能夠普及開來。
我們5月份發(fā)了一款A(yù)I芯片,這是云端的一個視覺芯片,一塊芯片能夠支撐50個攝像頭的算力,那一臺1U的服務(wù)器可以支撐約兩百路攝像頭的算力,比同類的市面上最先進(jìn)的英偉達(dá)的方案提高5到10倍的性價(jià)比。
一個是它的能耗降低了非常多,空間降低了非常多,降低多少呢?
一個機(jī)柜能夠支撐一萬路攝像頭的全解析的功能,且機(jī)柜中有空間的限制、電的限制、能源的限制、算力的限制,這是在一個城市在做城市的智能等級的提升上面,有了非常重要的基礎(chǔ)設(shè)施的準(zhǔn)備。由此,我們就可以打開城市管理的豐富的場景。
這里列了大概18個場景,包括機(jī)場、火車站等等,可以解鎖更多的應(yīng)用。
我們認(rèn)為,今天從算法的成就到算法的提升,到我們整個城市或老百姓都能感知到,點(diǎn)亮AI就是要在基礎(chǔ)設(shè)施上做重大的提升,包括剛才高院士提到的人才資本和政策以外。
我們認(rèn)為基礎(chǔ)設(shè)施就是數(shù)據(jù)、算法、存儲、算力和傳輸,它們一定會在未來的幾年會進(jìn)一步以三倍、十倍的速度再加大速度提升,這才是革命性的,這個會讓智能文明更快速的到來。
這是我們的一個小小的愿景,也是希望能夠在廈門以10萬路的視覺中樞為基礎(chǔ),助力廈門成為全球智能密度最高、智能等級最高的城市。謝謝大家。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。