丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

本文作者: AI研習(xí)社-譯站 2019-03-20 10:19
導(dǎo)語(yǔ):盡管計(jì)算機(jī)視覺(jué)近期突然興起(重大突破時(shí)刻發(fā)生在2012年,那時(shí)AlexNet網(wǎng)絡(luò)贏得ImageNet的冠軍),它確實(shí)不是以一個(gè)新的科學(xué)領(lǐng)域。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

A Brief History of Computer Vision (and Convolutional Neural Networks)

作者 | Rostyslav Demush

翻譯 | 鱷魚(yú)艾德克、小先生愛(ài)你         

校對(duì) | 醬番梨        審核 | 約翰遜·李加薪       整理 | 立魚(yú)王

原文鏈接:

https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

盡管計(jì)算機(jī)視覺(jué)近期突然興起(重大突破時(shí)刻發(fā)生在2012年,那時(shí)AlexNet網(wǎng)絡(luò)贏得ImageNet的冠軍),它確實(shí)不是以一個(gè)新的科學(xué)領(lǐng)域。

世界范圍內(nèi)的計(jì)算機(jī)方面的科學(xué)家在過(guò)去的六十年一直嘗試尋找使得機(jī)器能夠在視覺(jué)數(shù)據(jù)中提取出含義,計(jì)算機(jī)視覺(jué)的歷史是非常令人著迷的,這個(gè)方面是大多數(shù)人所不了解的。

在這篇文章中,我將會(huì)嘗試介紹現(xiàn)代計(jì)算機(jī)視覺(jué)系統(tǒng)是如何通過(guò)卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的。

我將會(huì)從一個(gè)二十世紀(jì)五十年代出現(xiàn)的,和軟件工程毫不相關(guān)的作品開(kāi)始。

計(jì)算機(jī)視覺(jué)中最有影響力的論文之一由兩位神經(jīng)生理學(xué)家David Hubel和Torsten Wiesel于1959年發(fā)表。他們的出版物題為“貓的紋狀皮層中單個(gè)神經(jīng)元的感受野”,描述了視覺(jué)皮層神經(jīng)元的核心反應(yīng)特性。以及貓的視覺(jué)體驗(yàn)如何塑造其皮質(zhì)結(jié)構(gòu)。

兩人進(jìn)行了一些非常精細(xì)的實(shí)驗(yàn)。他們將電極放入麻醉貓腦的初級(jí)視皮層區(qū)域,觀察或至少試圖在該區(qū)域進(jìn)行神經(jīng)元活動(dòng),同時(shí)向動(dòng)物展示各種圖像。他們的第一次努力沒(méi)有結(jié)果——他們無(wú)法讓神經(jīng)細(xì)胞對(duì)任何事情做出反應(yīng)。

然而,在研究的幾個(gè)月后,他們注意到,一個(gè)神經(jīng)元在他們將一個(gè)新的幻燈片滑入投影機(jī)時(shí)被發(fā)射,而不是偶然。這是一次幸運(yùn)的意外。經(jīng)過(guò)一些初步的混淆,Hubel和Wiesel意識(shí)到讓神經(jīng)元興奮的是由玻璃片的鋒利邊緣的陰影所產(chǎn)生的線條的運(yùn)動(dòng)。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

https://goodpsychology.wordpress.com/2013/03/13/235/

研究人員通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)初級(jí)視覺(jué)皮層含有許多簡(jiǎn)單和復(fù)雜的神經(jīng)元,并且視覺(jué)處理過(guò)程總是從類似特定方向邊緣的這類簡(jiǎn)單結(jié)構(gòu)開(kāi)始。

聽(tīng)起來(lái)是不是挺熟悉?這就是隱藏于深度學(xué)習(xí)之后的核心準(zhǔn)則。

計(jì)算機(jī)視覺(jué)歷史中下一個(gè)值得關(guān)注的是第一臺(tái)數(shù)字圖像掃描儀的發(fā)明。

在1959年,Russell和他的同學(xué)研制了一臺(tái)可以把圖片轉(zhuǎn)化為被二進(jìn)制機(jī)器所理解的灰度值的儀器。正是由于他們的成果,我們現(xiàn)在能夠用不同的方法處理數(shù)字圖像。

第一張被數(shù)字掃描的圖片是Russell的嬰兒照。它僅僅是一副5cm*5cm的關(guān)于30976(176*176)個(gè)像素所構(gòu)成的圖片,但它變得舉世聞名是因?yàn)樵紙D片被保存在波特蘭藝術(shù)博物館。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

https://www.engadget.com/2010/06/30/russell-kirsch-helped-create-them-now-he-wants-to-kill-square-p/

接下來(lái)討論Lawrence Roberts的“三維固體的機(jī)器感知”,這本在1963年出版的書(shū)被廣泛認(rèn)為是現(xiàn)代計(jì)算機(jī)視覺(jué)的前導(dǎo)之一。

在他的博士論文中,Larry描述了從二維圖片中推導(dǎo)三維信息的過(guò)程。他把視覺(jué)世界所看到的簡(jiǎn)化為幾何形狀。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

http://www.packet.cc/files/mach-per-3D-solids.html

他在論文中描述和編寫(xiě)程序的目的是將二維圖像處理成線條,然后利用這些線條建立起三維重示,最終顯示物體移除了所有隱藏線條的三維結(jié)構(gòu)。

在三維到二維展示之后,Larry寫(xiě)下了二維到三維的構(gòu)造是計(jì)算機(jī)輔助三維系統(tǒng)的一個(gè)良好開(kāi)端,他完全正確。

我們應(yīng)該注意到Lawrence并沒(méi)有在計(jì)算機(jī)視覺(jué)這方面花費(fèi)太多精力,相反他加入了DARPA,現(xiàn)在以因特網(wǎng)發(fā)明被人所熟知的項(xiàng)目。

在1960s,AI成為了一門(mén)學(xué)科,一些研究人員關(guān)于這塊領(lǐng)域的未來(lái)非常樂(lè)觀,他們相信用不了25年時(shí)間就能造出和人類一樣智能的計(jì)算機(jī)。同一時(shí)期,MITAI實(shí)驗(yàn)室的Seymour Papert教授決定啟動(dòng)夏季視覺(jué)項(xiàng)目,并在幾個(gè)月內(nèi)解決機(jī)器視覺(jué)問(wèn)題。

他認(rèn)為一小群MIT的學(xué)生在夏天開(kāi)發(fā)了視覺(jué)系統(tǒng)的重要組成部分。Seymour和Gerald Sussman協(xié)調(diào)學(xué)生將設(shè)計(jì)一個(gè)可以自動(dòng)執(zhí)行背景/前景分割,并從真實(shí)世界的圖像中提取非重疊物體的平臺(tái)。

這個(gè)課題沒(méi)有成功,50年之后,我們?nèi)匀辉谙蚪鉀Q計(jì)算機(jī)視覺(jué)前進(jìn)。據(jù)許多人說(shuō),這個(gè)項(xiàng)目是計(jì)算機(jī)視覺(jué)作為一個(gè)科學(xué)領(lǐng)域的正式誕生的標(biāo)志。

在1982年,一個(gè)英國(guó)神經(jīng)學(xué)家David Marr發(fā)表了另一篇有影響的論文-“愿景:對(duì)人類表現(xiàn)和視覺(jué)信息處理的計(jì)算研究”。

基于Hubel和Wiesel的想法(他們發(fā)現(xiàn)視覺(jué)處理不是從整體對(duì)象開(kāi)始),David給了我們下一個(gè)重要的見(jiàn)解:他確定了這個(gè)愿景是等級(jí)的,視覺(jué)系統(tǒng)的主要功能是創(chuàng)建環(huán)境的3維表示,以便我們可以與之交互。

他介紹了一個(gè)視覺(jué)框架,其中檢測(cè)邊緣,曲線,角落等的低級(jí)算法被用作對(duì)視覺(jué)數(shù)據(jù)進(jìn)行高級(jí)理解的鋪墊。

David Marr的視覺(jué)代表框架包括:

  • 圖像的原始草圖,其中表示邊緣,條形,邊界等(這顯然受到Hubel和Wiesel研究的啟發(fā));

  • 2?維的草圖表示,其中表面,圖像上的深度和不連續(xù)性信息拼接在一起;

  • 根據(jù)曲面和體積基元分層組織的3維模型。

David Marr的成果在當(dāng)時(shí)是開(kāi)創(chuàng)性的,但它非常抽象和高級(jí)。 它沒(méi)有包含任何可以在人工視覺(jué)系統(tǒng)中使用的數(shù)學(xué)建模的信息,也沒(méi)有提到任何類型的學(xué)習(xí)過(guò)程。

大約在同一時(shí)間,日本計(jì)算機(jī)科學(xué)家Kunihiko Fukushima也受到Hubel和Wiesel的啟發(fā),建立了一個(gè)自組織的簡(jiǎn)單和復(fù)雜細(xì)胞的人工網(wǎng)絡(luò),可以識(shí)別模式并且不受位置變化的影響。 網(wǎng)絡(luò)Neocognitron包括幾個(gè)卷積層(通常是矩形的),他的感受野具有權(quán)重向量(稱為濾波器)。

這些濾波器的功能是在輸入值的二維數(shù)組(例如圖像像素)上滑動(dòng),并在執(zhí)行某些計(jì)算后,產(chǎn)生激活事件(2維數(shù)組),這些事件將用作網(wǎng)絡(luò)后續(xù)層的輸入。

Fukushima的Neocognitron可以說(shuō)是第一個(gè)神經(jīng)網(wǎng)絡(luò); 它是今天的神經(jīng)網(wǎng)絡(luò)的祖父。

幾年后,在1989年,一位年輕的法國(guó)科學(xué)家Yann LeCun將一種后向傳播風(fēng)格學(xué)習(xí)算法應(yīng)用于Fukushima的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。 在完成該項(xiàng)目幾年后,LeCun發(fā)布了LeNet-5--這是第一個(gè)引入我們今天仍在CNN中使用的一些基本成分的現(xiàn)代網(wǎng)絡(luò)。

在他面前的Fukushima,LeCun決定將他的發(fā)明應(yīng)用于角色識(shí)別,甚至發(fā)布了用于閱讀郵政編碼的商業(yè)產(chǎn)品。

除此之外,他的工作創(chuàng)建手寫(xiě)數(shù)字的MNIST數(shù)據(jù)集 - 這可能是機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)數(shù)據(jù)集。

1997年,一位伯克利教授Jitendra Malik(以及他的學(xué)生Jianbo Shi)發(fā)表了一篇論文,描述了他試圖解決感性分組的問(wèn)題。

研究人員試圖讓機(jī)器使用圖論算法將圖像分割成合理的部分(自動(dòng)確定圖像上的哪些像素屬于一起,并將物體與周?chē)h(huán)境區(qū)分開(kāi)來(lái))。

他們沒(méi)有走得太遠(yuǎn); 感知分組的問(wèn)題仍然是計(jì)算機(jī)視覺(jué)專家正在努力解決的問(wèn)題。

在1990s,計(jì)算機(jī)視覺(jué)作為一個(gè)領(lǐng)域,在很大程度上改變了它的關(guān)注點(diǎn)。

大約在1999年,許多研究人員停止嘗試通過(guò)創(chuàng)建它們的3維模型(Marr提出的路徑)來(lái)重建對(duì)象,而是將他們的努力轉(zhuǎn)向基于特征的對(duì)象識(shí)別。 David Lowe的作品“來(lái)自局部尺度不變特征的物體識(shí)別”特別表明了這一點(diǎn)。

文章描述了一種視覺(jué)識(shí)別系統(tǒng),該系統(tǒng)使用對(duì)旋轉(zhuǎn),位置和部分照明變化不變的局部特征。 根據(jù)Lowe的說(shuō)法,這些特征有點(diǎn)類似于在顳下皮層中發(fā)現(xiàn)的神經(jīng)元的特性,這些特征涉及靈長(zhǎng)類視覺(jué)中的物體檢測(cè)過(guò)程。

不久之后,在2001年,Paul Viola 和Michael Jones推出了第一個(gè)實(shí)時(shí)工作的人臉檢測(cè)框架。 雖然不是基于深度學(xué)習(xí),但算法仍然具有深刻的學(xué)習(xí)風(fēng)格,因?yàn)樵谔幚韴D像時(shí),它了解哪些特征(非常簡(jiǎn)單,類似Haar的特征)可以幫助定位面部。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

https://www.researchgate.net/figure/Haar-features-used-for-Viola-Jones-face-detection-method_fig1_268348020

Viola / Jones面部探測(cè)器仍被廣泛使用。 它是一個(gè)強(qiáng)大的二元分類器,由幾個(gè)弱分類器構(gòu)成; 在學(xué)習(xí)階段,在這種情況下非常耗時(shí),使用Adaboost訓(xùn)練弱級(jí)分類器的級(jí)聯(lián)。

為了找到感興趣的對(duì)象(面部),模型將輸入圖像分割成矩形塊并將它們?nèi)刻峤唤o弱檢測(cè)器的級(jí)聯(lián)。 如果補(bǔ)丁通過(guò)級(jí)聯(lián)的每個(gè)階段,則將其歸類為正數(shù),否則,算法會(huì)立即拒絕它。 該過(guò)程在各種規(guī)模上重復(fù)多次。

該論文發(fā)表五年后,F(xiàn)ujitsu 發(fā)布了一款具有實(shí)時(shí)人臉檢測(cè)功能的相機(jī),該功能依賴于Viola / Jones算法。

隨著計(jì)算機(jī)視覺(jué)領(lǐng)域不斷發(fā)展,社區(qū)迫切需要基準(zhǔn)圖像數(shù)據(jù)集和標(biāo)準(zhǔn)評(píng)估指標(biāo)來(lái)比較其模型的性能。

2006年,Pascal VOC項(xiàng)目啟動(dòng)。 它提供了用于對(duì)象分類的標(biāo)準(zhǔn)化數(shù)據(jù)集以及用于訪問(wèn)所述數(shù)據(jù)集和注釋的一組工具。 創(chuàng)始人還在2006年至2012年期間舉辦了年度競(jìng)賽,該競(jìng)賽允許評(píng)估不同對(duì)象類識(shí)別方法的表現(xiàn)。

2009年,另一個(gè)重要的基于特征的模型由Pedro Felzenszwalb,David McAllester和Deva Ramanan  - 可變形零件模型開(kāi)發(fā)。

從本質(zhì)上講,它將對(duì)象分解為部分集合(基于Fischler和Elschlager在20世紀(jì)70年代引入的圖像模型),在它們之間強(qiáng)制實(shí)施一組幾何約束,并將被模擬的潛在對(duì)象中心視為潛在變量。

DPM在對(duì)象檢測(cè)任務(wù)(使用邊界框用于本地化對(duì)象)和擊敗模板匹配以及當(dāng)時(shí)流行的其他對(duì)象檢測(cè)方法方面表現(xiàn)出色。

你可能聽(tīng)說(shuō)過(guò)的ImageNet大規(guī)模視覺(jué)識(shí)別競(jìng)賽(ILSVRC)始于2010年。繼PASCAL VOC之后,它也每年舉辦一次,包括一個(gè)賽后研討會(huì),參與者討論他們從中學(xué)到了什么。 最具創(chuàng)意的作品。

與只有20個(gè)對(duì)象類別的Pascal VOC不同,ImageNet數(shù)據(jù)集包含超過(guò)一百萬(wàn)個(gè)圖像,手動(dòng)清理,跨越1k個(gè)對(duì)象類。

自成立以來(lái),ImageNet挑戰(zhàn)已成為跨越大量對(duì)象類別的對(duì)象類別分類和對(duì)象檢測(cè)的基準(zhǔn)。

在2010年和2011年,ILSVRC的圖像分類錯(cuò)誤率徘徊在26%左右。 但是自從2012年,來(lái)自多倫多大學(xué)的一個(gè)團(tuán)隊(duì)進(jìn)入了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型(AlexNet)進(jìn)入競(jìng)爭(zhēng),這改變了一切。 該模型與Yann LeCun的LeNet-5結(jié)構(gòu)相似,誤差率為16.4%。

這是CNN的突破性時(shí)刻。

在接下來(lái)的幾年中,ILSVRC中圖像分類的錯(cuò)誤率下降到幾個(gè)百分點(diǎn),自2012年以來(lái),獲勝者一直是卷積神經(jīng)網(wǎng)絡(luò)。

正如我前面提到的,自20世紀(jì)80年代以來(lái),卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)存在。 那么為什么它們需要這么長(zhǎng)時(shí)間才能變得流行呢?

那么,我們當(dāng)前的CNN流行有三個(gè)因素:

由于摩爾定律,與20世紀(jì)90年代發(fā)布LeNet-5相比,我們的機(jī)器現(xiàn)在速度更快,功能更強(qiáng)大。

NVIDIA的可并行化圖形處理單元幫助我們?cè)谏疃葘W(xué)習(xí)方面取得了重大進(jìn)展。

最后,今天的研究人員可以訪問(wèn)大型,標(biāo)記的高維視覺(jué)數(shù)據(jù)集(ImageNet,Pascal等)。 因此,他們可以充分培養(yǎng)他們的深度學(xué)習(xí)模型,避免過(guò)度擬合。

結(jié)論

盡管最近取得了令人印象深刻的進(jìn)展,但我們?nèi)匀粵](méi)有接近解決計(jì)算機(jī)視覺(jué)問(wèn)題。 然而,已經(jīng)有多家醫(yī)療機(jī)構(gòu)和企業(yè)找到了將由CNN驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)系統(tǒng)應(yīng)用于現(xiàn)實(shí)問(wèn)題的方法。 這種趨勢(shì)不太可能很快停止。

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

點(diǎn)擊【計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史】或長(zhǎng)按下方地址:

https://ai.yanxishe.com/page/TextTranslation/1518

AI研習(xí)社今日推薦雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

李飛飛主講王牌課程,計(jì)算機(jī)視覺(jué)的深化課程,神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,涵蓋圖像分類、定位、檢測(cè)等視覺(jué)識(shí)別任務(wù),以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無(wú)人駕駛飛機(jī)和自動(dòng)駕駛汽車(chē)領(lǐng)域的前沿應(yīng)用。

加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/19

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

計(jì)算機(jī)視覺(jué)(及卷積神經(jīng)網(wǎng)絡(luò))簡(jiǎn)史

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)