0
本文作者: AI研習(xí)社-譯站 | 2020-09-27 14:50 |
字幕組雙語(yǔ)原文:推薦!最適合初學(xué)者的18個(gè)經(jīng)典開源計(jì)算機(jī)視覺(jué)項(xiàng)目
英語(yǔ)原文:18 All-Time Classic Open Source Computer Vision Projects for Beginners
翻譯:雷鋒字幕組(小哲)
概述
開源計(jì)算機(jī)視覺(jué)項(xiàng)目是在深度學(xué)習(xí)領(lǐng)域中獲得一席之地的絕佳路徑
開始學(xué)習(xí)這18個(gè)非常受歡迎的經(jīng)典開源計(jì)算機(jī)視覺(jué)項(xiàng)目
計(jì)算機(jī)視覺(jué)的應(yīng)用現(xiàn)在無(wú)處不在。 老實(shí)說(shuō),我已經(jīng)不記得上次一整天沒(méi)有遇到或者沒(méi)有與至少一樣計(jì)算機(jī)視覺(jué)使用樣例進(jìn)行交互時(shí)什么時(shí)候了(手機(jī)上的人臉識(shí)別)
但是有一件事情就是 一 想要學(xué)習(xí)計(jì)算機(jī)視覺(jué)的人傾向與陷入理論的概念, 這是所能采取的最糟糕的路。 為了真正的學(xué)習(xí)掌握計(jì)算機(jī)視覺(jué), 我們需要將理論與實(shí)踐相結(jié)合。
并且這就是開源計(jì)算機(jī)視覺(jué)項(xiàng)目存在的地方。 不需要花一分錢就可以練習(xí)計(jì)算機(jī)視覺(jué)技術(shù)——你可以坐在現(xiàn)在的位置上完成這些工作。
所以在這篇文章中, 我結(jié)合并創(chuàng)建了一個(gè)基于計(jì)算機(jī)視覺(jué)各種應(yīng)用的開源計(jì)算機(jī)視覺(jué)項(xiàng)目列表。有很多事情要做,這是一個(gè)相當(dāng)全面的清單,所以讓我們深入研究!
如果你是一個(gè)完全的計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的新手并且更想要通過(guò)視頻學(xué)習(xí), 請(qǐng)參考下邊:
圖像分類
人臉識(shí)別
使用GAN的自然風(fēng)格轉(zhuǎn)換
場(chǎng)景文字檢測(cè)
使用DETR的目標(biāo)檢測(cè)
語(yǔ)義分割
自動(dòng)駕駛的道路交通線檢測(cè)
圖像標(biāo)注
人類姿勢(shì)估計(jì)
通過(guò)面部表情的情感識(shí)別
圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù), 目標(biāo)是通過(guò)給每張圖片分配一個(gè)標(biāo)簽來(lái)區(qū)分圖像。對(duì)人類來(lái)說(shuō)理解區(qū)分我們看到的圖像很容易。 單是對(duì)于機(jī)器來(lái)說(shuō)時(shí)非常不同的。 對(duì)于機(jī)器來(lái)說(shuō)區(qū)分大象和汽車都是一件繁重的任務(wù)。
下邊是幾個(gè)最突出的圖像分類開源項(xiàng)目:
CIFAR-10是一個(gè)在訓(xùn)練機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)算法常用的數(shù)據(jù)集,它是機(jī)器學(xué)習(xí)最受歡迎的數(shù)據(jù)集。 包含了60000張圖像, 分為10類, 每張圖像的的尺寸為32x32。 類別有飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。
ImageNet數(shù)據(jù)集是一個(gè)為計(jì)算機(jī)視覺(jué)研究的巨大圖像數(shù)據(jù)集, 這個(gè)數(shù)據(jù)集中有多于140萬(wàn)張圖像被手供標(biāo)注, 并且這些標(biāo)注說(shuō)明了圖像中含有那些物體。并且有多余1萬(wàn)張圖像標(biāo)注了物品的邊界框。 ImageNet包含了多余20000類的物品。
作為初學(xué)者,你可以使用keras或者pytorch從頭開始學(xué)習(xí)神經(jīng)網(wǎng)絡(luò), 為了能夠得到更好的效果提升學(xué)習(xí)的層次, 我建議使用遷移學(xué)習(xí)預(yù)訓(xùn)練模型,例如CGG-16, Resnet-50,GoogleNet等等。
建議通讀下邊的文章更好的理解圖像分類:
人臉識(shí)別是計(jì)算機(jī)視覺(jué)最廣泛的應(yīng)用。人臉識(shí)別被應(yīng)用在安全, 監(jiān)控或者解鎖手機(jī)。 這是一個(gè)在預(yù)先存在的數(shù)據(jù)集中在圖像或者視頻中確認(rèn)你的人臉。 我們可以使用深度學(xué)習(xí)的方法來(lái)學(xué)習(xí)這些人臉的特征并且識(shí)別他們。
這是一個(gè)多個(gè)步驟的過(guò)程,這個(gè)過(guò)程由以下的步驟構(gòu)成:
人臉檢測(cè): 這用來(lái)定位一個(gè)或者多個(gè)在圖像或者視頻中的人臉
人臉對(duì)齊: 對(duì)齊是用來(lái)規(guī)范化人臉在集合上與數(shù)據(jù)集一致
特征提取: 后來(lái),提取特征并且用在識(shí)別任務(wù)中。
特征識(shí)別: 與數(shù)據(jù)庫(kù)中的特征相匹配
下面的開放源數(shù)據(jù)集將為您提供良好的人臉識(shí)別機(jī)會(huì):
MegaFace是一個(gè)大規(guī)模的公共人臉識(shí)別訓(xùn)練數(shù)據(jù)集,它是商業(yè)人臉識(shí)別問(wèn)題最重要的基準(zhǔn)之一。它包括4753320個(gè)人臉,672057個(gè)身份
Labeled faces in wild home(LFW)是一個(gè)人臉照片數(shù)據(jù)庫(kù),旨在研究無(wú)約束人臉識(shí)別問(wèn)題。它有13233張5749人的圖片,是從網(wǎng)上發(fā)現(xiàn)和收集的。另外,1680名照片中的人在數(shù)據(jù)集中有兩張或兩張以上不同的照片。
此外, 為了更好的利用這些項(xiàng)目, 你可以使用像FaceNet這樣的預(yù)訓(xùn)練模型。
Facenet是一種深度學(xué)習(xí)模型,它為人臉識(shí)別、驗(yàn)證和聚類任務(wù)提供了統(tǒng)一的嵌入。網(wǎng)絡(luò)將每個(gè)人臉都映射在一個(gè)歐幾里德網(wǎng)絡(luò)中,每個(gè)圖像之間的距離是相似的。
也可以使用keras或者pytorch的預(yù)訓(xùn)練模型來(lái)構(gòu)建自己的人臉識(shí)別系統(tǒng)。
還有一些更先進(jìn)的人臉識(shí)別模型可供使用。Deepface是由Facebook的研究人員開發(fā)的基于CNN的Deep網(wǎng)絡(luò)。這是在人臉識(shí)別任務(wù)中使用深度學(xué)習(xí)的一個(gè)重要里程碑。
為了更好地了解近30年來(lái)人臉識(shí)別技術(shù)的發(fā)展,我建議您閱讀一篇有趣的論文,題目是:
Deep Face Recognition: A Survey
自然風(fēng)格轉(zhuǎn)換是一種使用一張圖像的風(fēng)格重建另一張圖像的內(nèi)容的計(jì)算機(jī)視覺(jué)技術(shù)。這是生成對(duì)抗網(wǎng)絡(luò)(GAN)的應(yīng)用, 這兒,我們輸入了兩張圖像, 一張內(nèi)容圖像,另一張時(shí)風(fēng)格參考圖像, 然后將二者混合在一起以至于輸出圖像看起來(lái)像使用風(fēng)格參考圖像繪制出來(lái)的油畫。
這是通過(guò)優(yōu)化輸出圖像與內(nèi)容圖像匹配的內(nèi)容統(tǒng)計(jì)和樣式參考圖像的樣式統(tǒng)計(jì)來(lái)實(shí)現(xiàn)的。
下邊是一些用來(lái)練習(xí)非常令人驚嘆的數(shù)據(jù)集:
COCO是一個(gè)大規(guī)模的對(duì)象檢測(cè)、分割和標(biāo)注的數(shù)據(jù)集。數(shù)據(jù)集中的圖像是從日常場(chǎng)景中捕獲的日常對(duì)象。此外,它提供了多對(duì)象標(biāo)記、分割掩碼標(biāo)注、圖像標(biāo)注和關(guān)鍵點(diǎn)檢測(cè),共有81個(gè)類別,使其成為一個(gè)非常通用和多用途的數(shù)據(jù)集。
上邊已經(jīng)提到過(guò) 一 ImageNet非常靈活多用。
如果你還不知道如何應(yīng)用風(fēng)格轉(zhuǎn)換模型,這兒是一個(gè)tensorflow的教程可以幫助你, 而且, 如果你像更加升入了解這個(gè)技術(shù)我建議你閱讀接下來(lái)的論文。
在任何給定的場(chǎng)景中檢測(cè)給定的場(chǎng)景是另外的一個(gè)非常有趣的問(wèn)題。 場(chǎng)景文字就是出現(xiàn)在戶外拍攝的圖像中出現(xiàn)的字符。 例如, 道路上的車牌號(hào), 道路上的公告牌等等。
場(chǎng)景圖像中的文字在形狀, 字體, 顏色和位置上都是變化的。由于光照和聚焦的不均勻性,使得場(chǎng)景文本識(shí)別的復(fù)雜度進(jìn)一步增加。
下邊這些流行的數(shù)據(jù)集將會(huì)豐富你分析場(chǎng)景文字檢測(cè)的技能:
街景門牌號(hào)碼(SVHN)數(shù)據(jù)集是其中最受歡迎的開源數(shù)據(jù)集之一。它已用于Google創(chuàng)建的神經(jīng)網(wǎng)絡(luò)中,以讀取門牌號(hào)并將其與地理位置匹配。這是一個(gè)很好的基準(zhǔn)數(shù)據(jù)集,可用于練習(xí), 學(xué)習(xí)和訓(xùn)練可準(zhǔn)確識(shí)別街道編號(hào)的模型。此數(shù)據(jù)集包含從Google街景視圖中獲取的超過(guò)60萬(wàn)張帶標(biāo)簽的真實(shí)房門圖像。
場(chǎng)景文本數(shù)據(jù)集包含在不同環(huán)境中捕獲的3000張圖像,包括在不同光照條件下的室外和室內(nèi)場(chǎng)景。圖像是通過(guò)使用高分辨率數(shù)碼相機(jī)或低分辨率移動(dòng)電話相機(jī)捕獲的。此外,所有圖像均已調(diào)整為640×480。
此外,場(chǎng)景文本檢測(cè)是一個(gè)兩步過(guò)程,包括圖像中的文本檢測(cè)和文本識(shí)別。對(duì)于文本檢測(cè),我發(fā)現(xiàn)了最先進(jìn)的深度學(xué)習(xí)方法EAST(高效準(zhǔn)確場(chǎng)景文本檢測(cè)器)。它可以找到水平和旋轉(zhuǎn)邊界框。您可以將其與任何文本識(shí)別方法結(jié)合使用。
這是有關(guān)場(chǎng)景文本檢測(cè)的其他一些有趣的論文:
目標(biāo)檢測(cè)是通過(guò)邊界框以及圖像上的適當(dāng)標(biāo)簽預(yù)測(cè)圖像中存在的每個(gè)感興趣對(duì)象的任務(wù)。
幾個(gè)月前,F(xiàn)acebook開源了其對(duì)象檢測(cè)框架DEtection TRansformer(DETR)。DETR是針對(duì)目標(biāo)檢測(cè)問(wèn)題的高效創(chuàng)新解決方案。通過(guò)將對(duì)象檢測(cè)視為直接設(shè)置的預(yù)測(cè)問(wèn)題,它簡(jiǎn)化了訓(xùn)練管道。此外,它采用基于變壓器的編碼器-解碼器架構(gòu)。
要了解有關(guān)DERT的更多信息,請(qǐng)參見(jiàn)論文和Colab notebook。
通過(guò)處理以下用于對(duì)象檢測(cè)的開源數(shù)據(jù)集來(lái)使您的資料多樣化:
Open Image是約900萬(wàn)張圖像的數(shù)據(jù)集,其中標(biāo)注了圖像級(jí)標(biāo)簽,對(duì)象邊界框,對(duì)象分割掩碼,視覺(jué)關(guān)系和本地化描述。數(shù)據(jù)集分為訓(xùn)練集(9,011,219張圖像),驗(yàn)證集(41,620張圖像)和測(cè)試集(125,436張圖像)。
MS-COCO是廣泛用于目標(biāo)檢測(cè)問(wèn)題的大規(guī)模數(shù)據(jù)集。它由33萬(wàn)張圖像組成,其中包含80個(gè)對(duì)象類別,每個(gè)圖像有5個(gè)標(biāo)注,并有25萬(wàn)關(guān)鍵點(diǎn)。
您可以閱讀以下資源以了解有關(guān)對(duì)象檢測(cè)的更多信息:
當(dāng)我們談?wù)撚?jì)算機(jī)視覺(jué)技術(shù)中對(duì)場(chǎng)景的完全理解時(shí),語(yǔ)義分割就出現(xiàn)了。任務(wù)是將圖像中的所有像素分類為相關(guān)對(duì)象類別。
以下是實(shí)踐該主題的開源數(shù)據(jù)集的列表:
該數(shù)據(jù)庫(kù)是開源的第一個(gè)按語(yǔ)義分割的數(shù)據(jù)集之一。這通常用于(實(shí)時(shí))語(yǔ)義分割研究中。數(shù)據(jù)集包含:
367個(gè)訓(xùn)練對(duì)
101個(gè)驗(yàn)證對(duì)
233個(gè)測(cè)試對(duì)
該數(shù)據(jù)集是原始城市景觀的經(jīng)過(guò)處理的子樣本。數(shù)據(jù)集具有原始視頻的靜止圖像,并且語(yǔ)義分割標(biāo)簽顯示在原始圖像旁邊的圖像中。這是用于語(yǔ)義分割任務(wù)的最佳數(shù)據(jù)集之一。它具有2975個(gè)訓(xùn)練圖像文件和500個(gè)驗(yàn)證圖像文件,每個(gè)圖像文件均為256×512像素
要進(jìn)一步了解語(yǔ)義分段,我將推薦以下文章:
以下是一些可用于語(yǔ)義分割的代碼的論文:
一個(gè)自主轎車是能夠感知周圍環(huán)境,并無(wú)需人類干預(yù)就能操作的交通工具。他們根據(jù)適合車輛不同部分的各種傳感器創(chuàng)建并維護(hù)周圍環(huán)境的地圖。
這些車輛具有監(jiān)視附近車輛位置的雷達(dá)傳感器。攝像機(jī)檢測(cè)交通信號(hào)燈,讀取路標(biāo),跟蹤其他車輛以及激光雷達(dá)(光檢測(cè)和測(cè)距)傳感器從汽車周圍反射光脈沖以測(cè)量距離,檢測(cè)道路邊緣并識(shí)別車道標(biāo)記
車道檢測(cè)是這些車輛的重要組成部分。在公路運(yùn)輸中,車道是行車道的一部分,被指定用于單行車輛來(lái)控制和引導(dǎo)駕駛員并減少交通沖突。
在您的數(shù)據(jù)科學(xué)家的簡(jiǎn)歷中添加一個(gè)令人興奮的項(xiàng)目。以下是一些可用于實(shí)驗(yàn)的數(shù)據(jù)集-
該數(shù)據(jù)集是Tusimple車道檢測(cè)挑戰(zhàn)賽的一部分。它包含3626個(gè)視頻片段,每個(gè)片段1秒。這些視頻剪輯中的每一個(gè)都包含20幀,并帶有帶注釋的最后一幀。它包含訓(xùn)練和測(cè)試數(shù)據(jù)集,其中包含3626個(gè)視頻片段,訓(xùn)練數(shù)據(jù)集中的3626個(gè)帶注釋的幀和2782個(gè)用于測(cè)試的視頻片段。
如果您正在尋找一些開發(fā)項(xiàng)目的教程,請(qǐng)查看下面的文章-
您是否曾經(jīng)希望過(guò)一些可以為社交媒體圖像添加標(biāo)注的技術(shù),因?yàn)槟湍呐笥讯紵o(wú)法提出超酷的標(biāo)注?用于圖像標(biāo)注的深度學(xué)習(xí)助您一臂之力。
圖像標(biāo)注是為圖像生成文本描述的過(guò)程。它是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理(NLP)的組合任務(wù)。
計(jì)算機(jī)視覺(jué)方法有助于理解并從輸入圖像中提取特征。此外,NLP以正確的單詞順序?qū)D像轉(zhuǎn)換為文本描述。
以下是一些有用的數(shù)據(jù)集,可幫助您使用圖像標(biāo)注:
COCO是大規(guī)模的對(duì)象檢測(cè),分割和標(biāo)注數(shù)據(jù)集。它由330萬(wàn)張圖像(標(biāo)有> 200K)組成,具有150萬(wàn)個(gè)對(duì)象實(shí)例和80個(gè)對(duì)象類別,每個(gè)圖像有5個(gè)標(biāo)題。
它是一個(gè)圖像標(biāo)注語(yǔ)料庫(kù),由158,915個(gè)眾包字幕組成,描述了31,783張圖像。這是Flickr 8k數(shù)據(jù)集的擴(kuò)展 。新的圖像和標(biāo)注集中于進(jìn)行日?;顒?dòng)和事件的人們。
如果您正在尋找項(xiàng)目的實(shí)施,我建議您看下面的文章:
另外,我建議您閱讀有關(guān)圖像標(biāo)注的著名論文。
人體姿勢(shì)估計(jì)是計(jì)算機(jī)視覺(jué)的有趣應(yīng)用。您一定已經(jīng)聽說(shuō)過(guò)Posenet,它是用于人體姿勢(shì)估計(jì)的開源模型。簡(jiǎn)而言之,姿勢(shì)估計(jì)是一種計(jì)算機(jī)視覺(jué)技術(shù),可以推斷圖像/視頻中存在的人或物體的姿勢(shì)。
在討論姿勢(shì)估計(jì)的工作之前,讓我們首先了解“人體姿勢(shì)骨架”。它是定義一個(gè)人的姿勢(shì)的一組坐標(biāo)。一對(duì)坐標(biāo)是肢體。此外,通過(guò)識(shí)別,定位和跟蹤圖像或視頻中人類姿勢(shì)骨架的關(guān)鍵點(diǎn)來(lái)執(zhí)行姿勢(shì)估計(jì)。
如果要開發(fā)姿勢(shì)估計(jì)模型,以下是一些數(shù)據(jù)集:
MPII Human Pose數(shù)據(jù)集是評(píng)估關(guān)節(jié)式姿勢(shì)估計(jì)的最新基準(zhǔn)。該數(shù)據(jù)集包含約25K圖像,其中包含超過(guò)4 萬(wàn)名帶注釋的人體關(guān)節(jié)的人??傮w而言,數(shù)據(jù)集涵蓋410種人類活動(dòng),每個(gè)圖像都有一個(gè)活動(dòng)標(biāo)簽。
HumanEva-I數(shù)據(jù)集包含與3D人體姿勢(shì)同步的7個(gè)校準(zhǔn)視頻序列。該數(shù)據(jù)庫(kù)包含執(zhí)行6個(gè)常見(jiàn)動(dòng)作(例如,步行,慢跑,打手勢(shì)等)的4個(gè)主題,這些動(dòng)作被分為訓(xùn)練,驗(yàn)證和測(cè)試集。
我發(fā)現(xiàn)Google的DeepPose是一篇使用深度學(xué)習(xí)模型進(jìn)行姿勢(shì)估計(jì)非常有趣的研究論文。此外,您可以訪問(wèn)有關(guān)姿勢(shì)估計(jì)的多個(gè)研究論文,以更好地理解它。
面部表情在非語(yǔ)言交流以及識(shí)別人的過(guò)程中起著至關(guān)重要的作用。它們對(duì)于識(shí)別人的情緒非常重要。因此,關(guān)于面部表情的信息通常用于情緒識(shí)別的自動(dòng)系統(tǒng)中。
情緒識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)榍榫w可能會(huì)因環(huán)境,外觀,文化和面部反應(yīng)而異,從而導(dǎo)致數(shù)據(jù)不明確。
面部表情識(shí)別系統(tǒng)是一個(gè)多階段過(guò)程,包括面部圖像處理,特征提取和分類。
以下是您可以用來(lái)練習(xí)的數(shù)據(jù)集:
Real-world Affective Faces Database
真實(shí)世界的情感面孔數(shù)據(jù)庫(kù)(RAF-DB)是一個(gè)大規(guī)模的面部表情數(shù)據(jù)庫(kù),包含約3萬(wàn)張多種多樣的面部圖像。它由29672個(gè)真實(shí)世界的圖像和每個(gè)圖像的7維表情分布矢量組成,
您可以閱讀這些資源,以進(jìn)一步了解您的內(nèi)容-
總而言之,在本文中,我們討論了可以作為初學(xué)者實(shí)現(xiàn)的10個(gè)有趣的計(jì)算機(jī)視覺(jué)項(xiàng)目。這不是一個(gè)詳盡的清單。因此,如果您覺(jué)得我們錯(cuò)過(guò)了什么,請(qǐng)隨時(shí)在下面的評(píng)論中添加!
另外,在這里,我列出了一些有用的CV資源,以幫助您探索深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)世界:
我們?cè)谡n程和自我練習(xí)中學(xué)習(xí)的數(shù)據(jù)科學(xué)與我們?cè)谛袠I(yè)中工作的數(shù)據(jù)科學(xué)有很多差異。我建議您參加這些非常清晰寶貴的免費(fèi)課程,以了解有關(guān)分析,機(jī)器學(xué)習(xí)和人工智能的所有信息:
我希望你能夠覺(jué)得這次的討論對(duì)您有意義, 現(xiàn)在輪到你開始自己應(yīng)用計(jì)算機(jī)視覺(jué)了。
雷鋒字幕組是一個(gè)由AI愛(ài)好者組成的翻譯團(tuán)隊(duì),匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見(jiàn)解。
團(tuán)隊(duì)成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運(yùn)營(yíng),IT咨詢?nèi)?,在校師生;志愿者們?lái)自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。