丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給恒亮
發(fā)送

0

AIR 015 | 微軟亞洲研究院常務(wù)副院長(zhǎng)芮勇:計(jì)算機(jī)視覺(jué)從感知到認(rèn)知的長(zhǎng)征

導(dǎo)語(yǔ):微軟亞洲研究院常務(wù)副院長(zhǎng)芮勇眼中,計(jì)算機(jī)視覺(jué)的發(fā)展史。

AIR 015 | 微軟亞洲研究院常務(wù)副院長(zhǎng)芮勇:計(jì)算機(jī)視覺(jué)從感知到認(rèn)知的長(zhǎng)征

作為本屆GAIR大會(huì)重量級(jí)的嘉賓之一,同時(shí)也是微軟亞洲研究院常務(wù)副院長(zhǎng),CCF常務(wù)理事,IEEE、IAPR和SPIE等國(guó)際一流學(xué)術(shù)組織成員的芮勇博士,在今天下午進(jìn)行的“機(jī)器學(xué)習(xí)大浪下的巨頭們”這一大會(huì)議程中,為我們帶來(lái)了關(guān)于計(jì)算機(jī)視覺(jué)領(lǐng)域的一些最新觀點(diǎn)和思考。

芮勇博士的報(bào)告主要分作三個(gè)部分:第一部分闡述了計(jì)算機(jī)視覺(jué)領(lǐng)域在過(guò)去50多年的發(fā)展,并指出在當(dāng)下的2016年我們尚處在一個(gè)從感知到認(rèn)知的重要分水嶺階段,并且還沒(méi)有完全步入認(rèn)知的層面;第二部分分享了未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域可能的發(fā)展方向;最后告訴我們計(jì)算機(jī)視覺(jué)完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。

50年的歷史

在第一部分中,芮勇博士表示,對(duì)于只認(rèn)識(shí)0和1兩種狀態(tài)的計(jì)算機(jī)而言,計(jì)算機(jī)視覺(jué)在過(guò)去50年主要經(jīng)歷了以下4個(gè)階段:特征提取、圖像標(biāo)注、圖像理解和圖像的深度理解。

1. 特種提取是指從一幅圖像中,找到主要的特征像素并提取出來(lái)。例如在一張白紙上寫(xiě)了一個(gè)字,那么“文字”這個(gè)像素就是特征像素,是需要提取的。

2. 圖像標(biāo)注這一點(diǎn)也分成兩個(gè)小的部分。第一部分是圖像分類(lèi),向計(jì)算機(jī)輸入一張圖片,計(jì)算機(jī)要能夠分辨出圖中的內(nèi)容是人還是物體。第二部分是像素級(jí)別的分類(lèi),計(jì)算機(jī)能夠從一張圖片的像素級(jí)別中分辨出哪個(gè)像素屬于人,哪個(gè)像素屬于物體。

同時(shí),芮勇博士也提到了深度學(xué)習(xí)對(duì)于圖像標(biāo)注的重大影響。在2012年引入深度學(xué)習(xí)之前,圖像標(biāo)注的錯(cuò)誤率高達(dá)28.2%,而自從引入了深度學(xué)習(xí)網(wǎng)絡(luò)分析模型,機(jī)器標(biāo)注圖像的錯(cuò)誤率已經(jīng)從2012年的16%(已經(jīng)低于2012年之前)降到了2015年的3.5%,而神經(jīng)網(wǎng)絡(luò)分析模型的規(guī)模也增加到152層,這在全世界范圍內(nèi)都是領(lǐng)先的。

3. 圖像理解是指,輸入計(jì)算機(jī)一張圖片,計(jì)算機(jī)要能自動(dòng)生成一句話的自然語(yǔ)言描述。例如一張合影,計(jì)算機(jī)或許會(huì)輸出:這是一張兩個(gè)人的合影照片。

4. 圖像的深度理解是指,計(jì)算機(jī)不但能識(shí)別出圖中的內(nèi)容,還能知道圖中內(nèi)容的具體情況。還是用合影為例,計(jì)算機(jī)這時(shí)能可能會(huì)這樣描述:這是奧巴馬和習(xí)近平的合影。芮勇博士表示,這一點(diǎn)目前是完全可以做到的,目前計(jì)算機(jī)涵蓋的認(rèn)知范疇是全球大部分名人和著名景點(diǎn),比如白宮和天安門(mén)廣場(chǎng)。

未來(lái)可能的發(fā)展方向

在回顧完發(fā)展歷程之后,芮勇博士還從以下幾個(gè)角度分享了他對(duì)于計(jì)算機(jī)視覺(jué)研究下一步發(fā)展的一些想法。

1. 圖片的隱含深意。例如一張大象追奧巴馬的圖片,除了能輸出上文提到的自然語(yǔ)言描述之外,未來(lái)計(jì)算機(jī)可能還能理解圖像的內(nèi)涵意義。例如大象和奧巴馬的象征意味,以及美國(guó)大選中民主黨與共和黨的相互競(jìng)爭(zhēng)等。

2. 視頻的理解。例如輸入一段視頻給計(jì)算機(jī),計(jì)算機(jī)同樣可以輸出一段自然語(yǔ)言的描述。芮勇博士表示這其中的難點(diǎn)在于,視頻除了圖像中橫軸縱軸的二維描述之外,還加了一條時(shí)間線的三維描述,因此對(duì)于數(shù)學(xué)建模和數(shù)據(jù)分析都造成了與圖像識(shí)別完全不同的研究方式和難度。

3. 利用圖片聊天。例如輸入一張可愛(ài)小狗的圖片,計(jì)算機(jī)可能回復(fù):萌萌噠。

4. 利用圖片講故事。例如將來(lái)計(jì)算機(jī)可能根據(jù)輸入的若干圖像,自動(dòng)生成一個(gè)扣人心弦的精彩故事。

3個(gè)關(guān)鍵因素

最后芮勇博士為大家揭示了計(jì)算機(jī)視覺(jué)完全從感知走向認(rèn)知的3點(diǎn)關(guān)鍵因素。

1. 機(jī)器學(xué)習(xí)算法的進(jìn)步。業(yè)界需要更先進(jìn)的算法和更深度的分析模型來(lái)助力計(jì)算機(jī)視覺(jué)的進(jìn)一步發(fā)展。

2. 各個(gè)垂直領(lǐng)域的科學(xué)家和從業(yè)者合作。除了計(jì)算機(jī)視覺(jué)自身領(lǐng)域的發(fā)展之外,將計(jì)算機(jī)視覺(jué)與各個(gè)垂直領(lǐng)域結(jié)合,在工程和商業(yè)中真正發(fā)揮作用,推動(dòng)計(jì)算機(jī)詩(shī)句的縱身發(fā)展。

3. 高質(zhì)量的海量數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,高質(zhì)量和海量的數(shù)據(jù)作為一切研究的基石也至關(guān)重要。

最后芮勇博士總結(jié)說(shuō),這三點(diǎn)如果都能做到了,機(jī)器學(xué)習(xí)算法本身的進(jìn)步,研究學(xué)者和垂直領(lǐng)域的專(zhuān)家們?cè)絹?lái)越多地合作,同時(shí)優(yōu)質(zhì)的數(shù)據(jù)集也越來(lái)越多,那么我們就能從感知正式走向認(rèn)知。

以下是現(xiàn)場(chǎng)實(shí)錄:

非常高興下午有這個(gè)機(jī)會(huì)跟大家聊聊計(jì)算機(jī)視覺(jué),我的題目叫《計(jì)算機(jī)視覺(jué)從感知到認(rèn)知的長(zhǎng)征》。

我想回顧一下計(jì)算機(jī)視覺(jué)過(guò)去50年的發(fā)展。今年的2016年也是人工智能這個(gè)詞被創(chuàng)造出來(lái)的第60年,之前其實(shí)沒(méi)有這么一個(gè)詞,60年中國(guó)人叫一個(gè)輪回,輪回總是會(huì)有大的飛躍,我們看看2016年人工智能有什么大的飛躍?

人工智能從最開(kāi)始有很多的領(lǐng)域,我本人花的時(shí)間最多的是計(jì)算機(jī)視覺(jué),人有各種感官,但人70%的信息是靠人的眼睛來(lái)看到的,計(jì)算機(jī)視覺(jué)也是人工智能當(dāng)中一個(gè)非常重要的方向。

最早大家說(shuō)能不能可以讓計(jì)算機(jī)可以看到,像人類(lèi)的眼睛可以看到一樣。過(guò)去的50年的發(fā)展,我們可以看到,是從社群到處理到Recognition到理解,就像我們畫(huà)一幅畫(huà)一樣,從最早的線條,到一定的灰度,到最后的全彩色的,這50年都做了些什么事情?我們可以看一看,我想用這張圖片跟大家分享一下。

人看一張圖片覺(jué)得很簡(jiǎn)單,我一看覺(jué)得這是一個(gè)人、這是一張桌子、椅子,人一下就理解了,計(jì)算機(jī)看到的很難,因?yàn)橛?jì)算機(jī)看到的就兩個(gè)東西,不是0就是1,讓計(jì)算機(jī)看到圖片里包含什么內(nèi)容非常困難。這50年走過(guò)了很多路,從最早的特征提取,比如說(shuō)這么一幅圖,它的特征有線條、有轉(zhuǎn)角,有色彩,之后第二步比這個(gè)更前進(jìn),叫標(biāo)注。這幅圖比如說(shuō)是一個(gè)戶外的場(chǎng)景,里面有人物,比這個(gè)更前進(jìn)一步,叫Annotation。比這個(gè)再往前走一步,我們對(duì)圖片的理解就是Captioning,我如果把這個(gè)圖片給計(jì)算機(jī)去看,它能不能生成一段我們?nèi)祟?lèi)看得懂聽(tīng)得懂的文字,比如喬治和他的父親在迪士尼樂(lè)園在玩一個(gè)游戲,這么一句話,這就更難了。比這個(gè)再難一點(diǎn),我給計(jì)算機(jī)這個(gè)圖片,我問(wèn)計(jì)算機(jī)幾個(gè)問(wèn)題,比如說(shuō)這個(gè)圖片里面坐在前面那個(gè)人穿什么顏色的衣服?計(jì)算機(jī)這時(shí)候要知道什么是人,衣服在哪里,它要回答是紅色的衣服,這就更難了。比這個(gè)再難一些的就是我們小時(shí)候都上過(guò)課,叫做看圖認(rèn)字,看圖說(shuō)話,計(jì)算機(jī)看到一幅圖之后,能不能生成一個(gè)故事,這就是這50年我們大家孜孜不倦想做的事情。

我們來(lái)回顧一下這50年是怎么走的,第一步是特征提取,計(jì)算機(jī)看到的除了0就是1,當(dāng)然有些像素更加重要,哪些象素作為提取這很重要,比如這張圖,每一個(gè)像素的重要性是不一樣的,畫(huà)圈的地方是我們想把它作為特征的一些地方。再往下看,第二步我們想給一個(gè)圖片進(jìn)行標(biāo)注,進(jìn)行標(biāo)注的話,我們就想知道,比如說(shuō)圖片里面有兩個(gè)人,他們是在戶外的活動(dòng),這件事情怎么做?我們來(lái)看一下是怎么做的。

這個(gè)就是很重要的一個(gè)部分,有三個(gè)部分,第一個(gè)部分是圖片的分類(lèi),這個(gè)時(shí)候我們回答的是什么問(wèn)題呢?這張圖片里面是不是含有一只小狗。第二個(gè)就更難一點(diǎn),計(jì)算機(jī)還要告訴這個(gè)小狗在什么位置,把它框出來(lái)。第三個(gè)更難,每一個(gè)象素能不能告訴我這個(gè)像素是屬于這個(gè)小狗身上的像素還是電視機(jī)上的像素?一個(gè)比一個(gè)難。過(guò)去的這十年,還有很大很大的發(fā)展,我們來(lái)看。

第一步,圖象分類(lèi),圖象分類(lèi)在計(jì)算機(jī)視覺(jué)里有一個(gè)全球性的比賽,叫ImageNet,里面有120萬(wàn)個(gè)訓(xùn)練樣本,有10萬(wàn)測(cè)試圖像,1000個(gè)類(lèi)別,你讓計(jì)算機(jī)看沒(méi)有見(jiàn)過(guò)的圖片,幫你分出來(lái)這是1000類(lèi)里的哪一類(lèi)。

2012年之前,深度學(xué)習(xí)沒(méi)有引入計(jì)算機(jī)視覺(jué)之前,大家看看錯(cuò)誤率,靠右邊的是2010年的錯(cuò)誤率28.2%。2012年的時(shí)候,深度學(xué)習(xí)第一次被用在圖象識(shí)別,錯(cuò)誤率一下降到16.4%,每年的錯(cuò)誤率越來(lái)越低。2014年有個(gè)斯坦福的博士想挑戰(zhàn)一下。我如果告訴你一千類(lèi)里有兩百來(lái)種狗的不同類(lèi)型你就知道有多難了,我只認(rèn)識(shí)四五種狗,但要做到上百種狗都能對(duì),非常困難。斯坦福博士關(guān)在屋子里訓(xùn)練了幾個(gè)月,他的錯(cuò)誤率是5.1%,去年降到了3.5%,第一次超過(guò)了人類(lèi)的錯(cuò)誤率。

2012年深度學(xué)習(xí)第一次引入計(jì)算機(jī)視覺(jué),當(dāng)時(shí)有八層,它的錯(cuò)誤率降低。再往下走,2014年到了19層,錯(cuò)誤率繼續(xù)降低,到2015年,我研究院的同事做出了152層的極深網(wǎng)絡(luò)。大家覺(jué)得往下做沒(méi)什么了不起,其實(shí)想做得深很難,在2015年以前,全球沒(méi)有幾個(gè)團(tuán)隊(duì)能做到超過(guò)20層,因?yàn)槭怯?xùn)練不下去的,所以這是一個(gè)非常好的工作。用神經(jīng)網(wǎng)絡(luò),不僅是每一層延到下一層,有的之間還可以轉(zhuǎn)跳。

這是圖片的分類(lèi),解決的問(wèn)題是圖片里面是不是有只小狗。更難的是這只小狗在什么地方,物體的檢測(cè)。七八年以前,全球能做到最好的程度也就是這樣,今天通過(guò)深度學(xué)習(xí)的方式已經(jīng)可以做到這樣的水平。你看最左邊的女士她只是把胳膊肘露出一點(diǎn),腿露出一點(diǎn)。再往下看,這個(gè)大公共汽車(chē)后面的司機(jī)我們解釋說(shuō)這是一個(gè)人,現(xiàn)在已經(jīng)達(dá)到這樣的水平,跟人類(lèi)的視覺(jué)水平已經(jīng)不相上下。

比物體檢測(cè)更加難的是在圖片的每一個(gè)像素,像素是屬于小狗還是屬于屏幕?我們可以看一看今天用深度學(xué)習(xí)的方式,也已經(jīng)可以把像素級(jí)的圖像分割做到這樣的水平。

大家可以想一想,如果能做到這樣的水平,今后無(wú)論是無(wú)人機(jī)還是無(wú)人駕駛,很多應(yīng)用都可以做了。

這是我剛才提到的第一個(gè)問(wèn)題,就是對(duì)物體的識(shí)別,比這個(gè)更難的是我們是不是理解了,計(jì)算機(jī)是不是理解了某一個(gè)圖片。我們看一看。Beyond遠(yuǎn)遠(yuǎn)超過(guò)了計(jì)算機(jī)視覺(jué)。如果只是用最近的方式去做搜索,其實(shí)它并沒(méi)有理解,比如說(shuō)你的一個(gè)輸入是靠左邊這個(gè)人,它就把右邊這幾個(gè)從搜索引擎返回,這個(gè)并不是理解,這還算不上理解。真正的理解是什么呢?我給計(jì)算機(jī)看到有這么一幅圖片,它能生成一句話,說(shuō)本和他的爸爸在迪士尼樂(lè)園玩。

我如果讓計(jì)算機(jī)看這么一幅圖(一個(gè)人打網(wǎng)球的照片),下面我想跟大家做一個(gè)小的互動(dòng),在這個(gè)具體的問(wèn)題上,我們能不能超過(guò)圖靈測(cè)試,有兩句話:第一句話叫做一個(gè)人在網(wǎng)球場(chǎng)上手拿著一個(gè)網(wǎng)球拍。第二句話:有一個(gè)人在網(wǎng)球場(chǎng)上打一場(chǎng)比賽。大家覺(jué)得這兩句話哪一個(gè)是人寫(xiě)出來(lái)的?哪一個(gè)是機(jī)器寫(xiě)出來(lái)的。

(大家舉手后顯示比例基本上50%比50%)下面我們看看到底哪個(gè)是人寫(xiě)的哪個(gè)是機(jī)器寫(xiě)的。上面的是機(jī)器寫(xiě)的,如果在座的諸位是50%的話,已經(jīng)可以通過(guò)圖靈測(cè)試了。

我們?cè)僭囈活},上面停了一輛自行車(chē),有兩句話,一句話是小河邊停了一輛自行車(chē),第二句話是水體旁邊有一輛自行車(chē)停在。哪句是計(jì)算機(jī)寫(xiě)的?

(現(xiàn)場(chǎng)大部分人選擇第二句)現(xiàn)在大不部分人認(rèn)為下面一句話是計(jì)算機(jī)寫(xiě)的。我們來(lái)看看,下面是人寫(xiě)的。我們又一次通過(guò)了圖靈測(cè)試。

這是給計(jì)算機(jī)看一個(gè)圖片,它生成的這么一句話,比那更難一點(diǎn)的是前一陣奧巴馬一家?guī)е『?lái)訪問(wèn),我們?nèi)绻層?jì)算機(jī)看到這么一幅圖片,它如果只是告訴我有幾個(gè)人在拍照也沒(méi)意思,它如果有本事告訴我說(shuō),Sasha奧巴馬、米歇爾奧巴馬,彭麗媛,我們大概前50萬(wàn)名人都能認(rèn)出來(lái)是誰(shuí),并且我們生成了一句話說(shuō),這幾個(gè)人在故宮前面拍照,已經(jīng)可以達(dá)到這樣的水平。

再往下看,具體算法可能沒(méi)有那么多時(shí)間去講。但基本上是從名人到具體的物體,通過(guò)各種深度學(xué)習(xí)的方式能生成出這么一個(gè)自然語(yǔ)言的話。

我們?cè)偻驴?,這就是整個(gè)的流程,算法等等就不用花時(shí)間去看了。已經(jīng)可以讓計(jì)算機(jī)看到一個(gè)圖片,講出一句還挺像樣的話,下面還可以往哪里走,我覺(jué)得至少四個(gè)方向可以走。第一個(gè)方向是說(shuō)在語(yǔ)義的層面上,Go higher,我們能不能想到一些沒(méi)講出來(lái),但它能推理出來(lái)的意思。第二個(gè)我們給它看一段視頻是不是也能講出一段話,Go longer。第三個(gè)是它能跟我聊天。第四個(gè)我可以問(wèn)他具體問(wèn)題,他能回答。

第一個(gè),Go higher,如果我給計(jì)算機(jī)看這么一幅圖片,今天能做到的水平就是這樣,有一群象,前面有一個(gè)人,這是我們之前可以做到的水平。今天可以做到的水平,因?yàn)橛袑?shí)體,我們可以說(shuō)一群象在奧巴馬的旁邊,因?yàn)槲覀兛梢宰R(shí)別出這個(gè)人是奧巴馬。我們希望做到什么水平?它引申的一些含義,我們?nèi)藖?lái)看到這個(gè)可以想到很多引申含義,今年正好是美國(guó)總統(tǒng)大選年,民主黨是驢,奧巴馬是民主黨,共和黨是象,它的意思是說(shuō)奧巴馬被共和黨的一些競(jìng)選者在追趕,我們今后如果能生成這樣一句話,我們對(duì)圖片的理解真是到了一種認(rèn)知的水平,但還沒(méi)有做到。

第二個(gè),Go longer,我們給它看視頻,它也能生成一句話,當(dāng)然這里面有很多的算法,具體算法我就不一一介紹,基本上是用一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò),然后目標(biāo)函數(shù)里面由兩種疊加在一起的新的水平。

這是我提的兩個(gè)方向,第一個(gè)把它的隱身含義講出來(lái),第二個(gè)是把視頻也能夠用文字的形式表達(dá)出來(lái)。第三個(gè)我想提的是,比如說(shuō)我們今天跟小冰聊天,我們敲一段文字,它也能回一段文字,我們給它上傳一張圖片,它是不是也能跟我們聊呢?今天它也能了。它今天可以做到的水平是,如果我上傳了一張圖片,它會(huì)說(shuō)小眼神太犀利了,這就像人在聊天一樣,已經(jīng)可以做到這樣的水平。比如說(shuō)你想秀秀六塊腹肌,它會(huì)跟你說(shuō)大叔真牛。不僅僅是文字的聊天,圖片也可以聊天,這都是得益于我們對(duì)計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展和深度學(xué)習(xí)的發(fā)展。

第四個(gè)方向,稍微花多點(diǎn)時(shí)間講講,我覺(jué)得這是很有意思的方向,不僅對(duì)科研、產(chǎn)業(yè)界來(lái)說(shuō)都很有意思。叫做Visual Question Answering,我問(wèn)計(jì)算機(jī)一個(gè)問(wèn)題,什么東西在自行車(chē)筐里?我們希望它的答案是說(shuō)狗,但是想做到這一點(diǎn)很難,你首先知道自行車(chē)在哪兒,筐在哪兒,筐里有什么東西,都不容易,但今天我們有技術(shù),能夠把這個(gè)做到。怎么做到呢?我稍微提一下這個(gè)算法。

四個(gè)部分,兩個(gè)輸入,第一個(gè)是你問(wèn)的問(wèn)題是什么,你問(wèn)的問(wèn)題是說(shuō)自行車(chē)的筐里面是什么,這是一句話,這是第一步。第二步是你同時(shí)還給計(jì)算機(jī)看一個(gè)圖片,有個(gè)Image model,我們用深度學(xué)習(xí)的方式把兩種不同的模式做兩次之后,就知道和這個(gè)問(wèn)題最有關(guān)的部分就在亮的這個(gè)部分,這就是和問(wèn)題發(fā)生關(guān)系的地方。如果知道這個(gè)區(qū)域和這個(gè)問(wèn)題發(fā)生關(guān)系就有很大的可能性知道答案。

還有更多的幾個(gè)例子要跟大家分享,比如我們讓計(jì)算機(jī)看這幅圖片,問(wèn):在一片空曠的海灘上,兩個(gè)藍(lán)色的椅子中間那是什么物體?這是它答案的過(guò)程,第二層聚焦到傘,一把太陽(yáng)傘。還有更多的例子,在一片泥濘的土路上,什么東西在拖著馬車(chē)?答案是馬在拖著馬車(chē)。右邊那個(gè),筐的顏色是什么?答案是紅色的。右下角這個(gè)女士戴著兩只紅色牛的角,答案是說(shuō)紅色的,它知道牛角的顏色是紅色的。這些都是我們今天通過(guò)計(jì)算機(jī)視覺(jué)的方式達(dá)到問(wèn)題的回答水平。

剛才回顧過(guò)去50年計(jì)算機(jī)視覺(jué)發(fā)展的歷程,從最早的特征提取,有直線轉(zhuǎn)角,直到說(shuō)這是一個(gè)戶外的場(chǎng)景,場(chǎng)景里面有人,到說(shuō)這個(gè)圖片里面這個(gè)人的名字是什么,到生成一句話來(lái)描述這個(gè)圖片,到最后我剛才提到的Visual QA,還有很長(zhǎng)的路要走,就是我們看到圖能講出一個(gè)故事來(lái),這是我們今后要做的事情。

我今天的題目叫《計(jì)算機(jī)視覺(jué)從感知到認(rèn)知的長(zhǎng)征》,長(zhǎng)征大家也知道,最早是從江西的瑞金開(kāi)始長(zhǎng)征的,很具有里程碑的事件就是遵義會(huì)議,最后很成功的走到陜甘邊區(qū),今天的計(jì)算機(jī)視覺(jué)也是一個(gè)長(zhǎng)征,但還沒(méi)有到達(dá)陜甘邊區(qū),今天2016年我們?nèi)〉昧撕艽蟮某删?,很像遵義會(huì)議取得的成就,但今后還有很長(zhǎng)的路要走,這就是長(zhǎng)征的一部分,怎么樣最后到達(dá)陜北,至少三個(gè)方向可以想。第一個(gè)是計(jì)算機(jī)學(xué)習(xí)算法的本身。今天“深度學(xué)習(xí)”這個(gè)詞很熱。今天因?yàn)橛辛撕玫乃惴?,深度學(xué)習(xí)算得很成功。

第一塊很重要的能讓我們到達(dá)陜北的就是計(jì)算機(jī)學(xué)習(xí)算法。第二個(gè)就是我們需要一些計(jì)算機(jī)的科學(xué)家,我們也需要和一些垂直行業(yè)的朋友們一起來(lái)做這件事情,比如我們是和做金融的朋友們,就像上午楊強(qiáng)講的,我們能預(yù)測(cè)股票市場(chǎng)。我們?nèi)绻投t(yī)療的朋友來(lái)做,可不可以做出更精準(zhǔn)的醫(yī)療,如果和植物所的朋友來(lái)做這件事情,是不是可以做出一個(gè)用手機(jī)拍照任意的花,或者一個(gè)樹(shù),我就知道這個(gè)花叫什么名字,樹(shù)叫什么名字,最早從哪里來(lái)?等等。我想說(shuō)這個(gè)的目的就是除了機(jī)器學(xué)習(xí)的專(zhuān)家之外,還要和很多垂直行業(yè)領(lǐng)域的專(zhuān)家一起合作這件事情。

第三個(gè),右下角這個(gè)圈我覺(jué)得也一樣重要,我們需要高質(zhì)量的數(shù)據(jù),這三點(diǎn)如果我們都能做到了,機(jī)器學(xué)習(xí)算法本身的進(jìn)步,我們和行業(yè)的專(zhuān)家們的合作和更多的數(shù)據(jù)的獲取,我們就能從瑞金經(jīng)過(guò)遵義到達(dá)陜北。

謝謝大家!

主持人:剛剛下面的觀眾提了問(wèn)題,其實(shí)你最后一頁(yè)P(yáng)PT就是最好的答案,它說(shuō)計(jì)算機(jī)從視覺(jué)感知到認(rèn)知還需要哪些條件。但我還有另外一個(gè)問(wèn)題,因?yàn)槟銊倓偨o的都是圖片,如果給的是一段視頻,你會(huì)存在什么樣的結(jié)果,如果沒(méi)有做的話,你會(huì)設(shè)想一下,這里面可能會(huì)帶來(lái)什么樣的希望和挑戰(zhàn)?

芮勇:你可能沒(méi)有很注意聽(tīng),我剛才把圖片變成文字之后,我講了四個(gè)方向,把視頻放進(jìn)來(lái)以后今天也可以做到了,但視頻中確實(shí)很多挑戰(zhàn),因?yàn)樽鰣D片分析的時(shí)候,二維的做了,視頻的時(shí)候有一個(gè)時(shí)間軸,所以要一個(gè)3D的視頻學(xué)習(xí)的方式,也是可以解決的。謝謝!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)