0
本文作者: AI研習社-譯站 | 2020-09-27 14:50 |
字幕組雙語原文:推薦!最適合初學者的18個經(jīng)典開源計算機視覺項目
英語原文:18 All-Time Classic Open Source Computer Vision Projects for Beginners
翻譯:雷鋒字幕組(小哲)
概述
開源計算機視覺項目是在深度學習領(lǐng)域中獲得一席之地的絕佳路徑
開始學習這18個非常受歡迎的經(jīng)典開源計算機視覺項目
計算機視覺的應(yīng)用現(xiàn)在無處不在。 老實說,我已經(jīng)不記得上次一整天沒有遇到或者沒有與至少一樣計算機視覺使用樣例進行交互時什么時候了(手機上的人臉識別)
但是有一件事情就是 一 想要學習計算機視覺的人傾向與陷入理論的概念, 這是所能采取的最糟糕的路。 為了真正的學習掌握計算機視覺, 我們需要將理論與實踐相結(jié)合。
并且這就是開源計算機視覺項目存在的地方。 不需要花一分錢就可以練習計算機視覺技術(shù)——你可以坐在現(xiàn)在的位置上完成這些工作。
所以在這篇文章中, 我結(jié)合并創(chuàng)建了一個基于計算機視覺各種應(yīng)用的開源計算機視覺項目列表。有很多事情要做,這是一個相當全面的清單,所以讓我們深入研究!
如果你是一個完全的計算機視覺和深度學習的新手并且更想要通過視頻學習, 請參考下邊:
圖像分類
人臉識別
使用GAN的自然風格轉(zhuǎn)換
場景文字檢測
使用DETR的目標檢測
語義分割
自動駕駛的道路交通線檢測
圖像標注
人類姿勢估計
通過面部表情的情感識別
圖像分類是計算機視覺領(lǐng)域的基礎(chǔ)任務(wù), 目標是通過給每張圖片分配一個標簽來區(qū)分圖像。對人類來說理解區(qū)分我們看到的圖像很容易。 單是對于機器來說時非常不同的。 對于機器來說區(qū)分大象和汽車都是一件繁重的任務(wù)。
下邊是幾個最突出的圖像分類開源項目:
CIFAR-10是一個在訓練機器學習和計算機視覺算法常用的數(shù)據(jù)集,它是機器學習最受歡迎的數(shù)據(jù)集。 包含了60000張圖像, 分為10類, 每張圖像的的尺寸為32x32。 類別有飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。
ImageNet數(shù)據(jù)集是一個為計算機視覺研究的巨大圖像數(shù)據(jù)集, 這個數(shù)據(jù)集中有多于140萬張圖像被手供標注, 并且這些標注說明了圖像中含有那些物體。并且有多余1萬張圖像標注了物品的邊界框。 ImageNet包含了多余20000類的物品。
作為初學者,你可以使用keras或者pytorch從頭開始學習神經(jīng)網(wǎng)絡(luò), 為了能夠得到更好的效果提升學習的層次, 我建議使用遷移學習預訓練模型,例如CGG-16, Resnet-50,GoogleNet等等。
建議通讀下邊的文章更好的理解圖像分類:
人臉識別是計算機視覺最廣泛的應(yīng)用。人臉識別被應(yīng)用在安全, 監(jiān)控或者解鎖手機。 這是一個在預先存在的數(shù)據(jù)集中在圖像或者視頻中確認你的人臉。 我們可以使用深度學習的方法來學習這些人臉的特征并且識別他們。
這是一個多個步驟的過程,這個過程由以下的步驟構(gòu)成:
人臉檢測: 這用來定位一個或者多個在圖像或者視頻中的人臉
人臉對齊: 對齊是用來規(guī)范化人臉在集合上與數(shù)據(jù)集一致
特征提?。?后來,提取特征并且用在識別任務(wù)中。
特征識別: 與數(shù)據(jù)庫中的特征相匹配
下面的開放源數(shù)據(jù)集將為您提供良好的人臉識別機會:
MegaFace是一個大規(guī)模的公共人臉識別訓練數(shù)據(jù)集,它是商業(yè)人臉識別問題最重要的基準之一。它包括4753320個人臉,672057個身份
Labeled faces in wild home(LFW)是一個人臉照片數(shù)據(jù)庫,旨在研究無約束人臉識別問題。它有13233張5749人的圖片,是從網(wǎng)上發(fā)現(xiàn)和收集的。另外,1680名照片中的人在數(shù)據(jù)集中有兩張或兩張以上不同的照片。
此外, 為了更好的利用這些項目, 你可以使用像FaceNet這樣的預訓練模型。
Facenet是一種深度學習模型,它為人臉識別、驗證和聚類任務(wù)提供了統(tǒng)一的嵌入。網(wǎng)絡(luò)將每個人臉都映射在一個歐幾里德網(wǎng)絡(luò)中,每個圖像之間的距離是相似的。
也可以使用keras或者pytorch的預訓練模型來構(gòu)建自己的人臉識別系統(tǒng)。
還有一些更先進的人臉識別模型可供使用。Deepface是由Facebook的研究人員開發(fā)的基于CNN的Deep網(wǎng)絡(luò)。這是在人臉識別任務(wù)中使用深度學習的一個重要里程碑。
為了更好地了解近30年來人臉識別技術(shù)的發(fā)展,我建議您閱讀一篇有趣的論文,題目是:
Deep Face Recognition: A Survey
自然風格轉(zhuǎn)換是一種使用一張圖像的風格重建另一張圖像的內(nèi)容的計算機視覺技術(shù)。這是生成對抗網(wǎng)絡(luò)(GAN)的應(yīng)用, 這兒,我們輸入了兩張圖像, 一張內(nèi)容圖像,另一張時風格參考圖像, 然后將二者混合在一起以至于輸出圖像看起來像使用風格參考圖像繪制出來的油畫。
這是通過優(yōu)化輸出圖像與內(nèi)容圖像匹配的內(nèi)容統(tǒng)計和樣式參考圖像的樣式統(tǒng)計來實現(xiàn)的。
下邊是一些用來練習非常令人驚嘆的數(shù)據(jù)集:
COCO是一個大規(guī)模的對象檢測、分割和標注的數(shù)據(jù)集。數(shù)據(jù)集中的圖像是從日常場景中捕獲的日常對象。此外,它提供了多對象標記、分割掩碼標注、圖像標注和關(guān)鍵點檢測,共有81個類別,使其成為一個非常通用和多用途的數(shù)據(jù)集。
上邊已經(jīng)提到過 一 ImageNet非常靈活多用。
如果你還不知道如何應(yīng)用風格轉(zhuǎn)換模型,這兒是一個tensorflow的教程可以幫助你, 而且, 如果你像更加升入了解這個技術(shù)我建議你閱讀接下來的論文。
在任何給定的場景中檢測給定的場景是另外的一個非常有趣的問題。 場景文字就是出現(xiàn)在戶外拍攝的圖像中出現(xiàn)的字符。 例如, 道路上的車牌號, 道路上的公告牌等等。
場景圖像中的文字在形狀, 字體, 顏色和位置上都是變化的。由于光照和聚焦的不均勻性,使得場景文本識別的復雜度進一步增加。
下邊這些流行的數(shù)據(jù)集將會豐富你分析場景文字檢測的技能:
街景門牌號碼(SVHN)數(shù)據(jù)集是其中最受歡迎的開源數(shù)據(jù)集之一。它已用于Google創(chuàng)建的神經(jīng)網(wǎng)絡(luò)中,以讀取門牌號并將其與地理位置匹配。這是一個很好的基準數(shù)據(jù)集,可用于練習, 學習和訓練可準確識別街道編號的模型。此數(shù)據(jù)集包含從Google街景視圖中獲取的超過60萬張帶標簽的真實房門圖像。
場景文本數(shù)據(jù)集包含在不同環(huán)境中捕獲的3000張圖像,包括在不同光照條件下的室外和室內(nèi)場景。圖像是通過使用高分辨率數(shù)碼相機或低分辨率移動電話相機捕獲的。此外,所有圖像均已調(diào)整為640×480。
此外,場景文本檢測是一個兩步過程,包括圖像中的文本檢測和文本識別。對于文本檢測,我發(fā)現(xiàn)了最先進的深度學習方法EAST(高效準確場景文本檢測器)。它可以找到水平和旋轉(zhuǎn)邊界框。您可以將其與任何文本識別方法結(jié)合使用。
這是有關(guān)場景文本檢測的其他一些有趣的論文:
目標檢測是通過邊界框以及圖像上的適當標簽預測圖像中存在的每個感興趣對象的任務(wù)。
幾個月前,F(xiàn)acebook開源了其對象檢測框架DEtection TRansformer(DETR)。DETR是針對目標檢測問題的高效創(chuàng)新解決方案。通過將對象檢測視為直接設(shè)置的預測問題,它簡化了訓練管道。此外,它采用基于變壓器的編碼器-解碼器架構(gòu)。
要了解有關(guān)DERT的更多信息,請參見論文和Colab notebook。
通過處理以下用于對象檢測的開源數(shù)據(jù)集來使您的資料多樣化:
Open Image是約900萬張圖像的數(shù)據(jù)集,其中標注了圖像級標簽,對象邊界框,對象分割掩碼,視覺關(guān)系和本地化描述。數(shù)據(jù)集分為訓練集(9,011,219張圖像),驗證集(41,620張圖像)和測試集(125,436張圖像)。
MS-COCO是廣泛用于目標檢測問題的大規(guī)模數(shù)據(jù)集。它由33萬張圖像組成,其中包含80個對象類別,每個圖像有5個標注,并有25萬關(guān)鍵點。
您可以閱讀以下資源以了解有關(guān)對象檢測的更多信息:
當我們談?wù)撚嬎銠C視覺技術(shù)中對場景的完全理解時,語義分割就出現(xiàn)了。任務(wù)是將圖像中的所有像素分類為相關(guān)對象類別。
以下是實踐該主題的開源數(shù)據(jù)集的列表:
該數(shù)據(jù)庫是開源的第一個按語義分割的數(shù)據(jù)集之一。這通常用于(實時)語義分割研究中。數(shù)據(jù)集包含:
367個訓練對
101個驗證對
233個測試對
該數(shù)據(jù)集是原始城市景觀的經(jīng)過處理的子樣本。數(shù)據(jù)集具有原始視頻的靜止圖像,并且語義分割標簽顯示在原始圖像旁邊的圖像中。這是用于語義分割任務(wù)的最佳數(shù)據(jù)集之一。它具有2975個訓練圖像文件和500個驗證圖像文件,每個圖像文件均為256×512像素
要進一步了解語義分段,我將推薦以下文章:
以下是一些可用于語義分割的代碼的論文:
一個自主轎車是能夠感知周圍環(huán)境,并無需人類干預就能操作的交通工具。他們根據(jù)適合車輛不同部分的各種傳感器創(chuàng)建并維護周圍環(huán)境的地圖。
這些車輛具有監(jiān)視附近車輛位置的雷達傳感器。攝像機檢測交通信號燈,讀取路標,跟蹤其他車輛以及激光雷達(光檢測和測距)傳感器從汽車周圍反射光脈沖以測量距離,檢測道路邊緣并識別車道標記
車道檢測是這些車輛的重要組成部分。在公路運輸中,車道是行車道的一部分,被指定用于單行車輛來控制和引導駕駛員并減少交通沖突。
在您的數(shù)據(jù)科學家的簡歷中添加一個令人興奮的項目。以下是一些可用于實驗的數(shù)據(jù)集-
該數(shù)據(jù)集是Tusimple車道檢測挑戰(zhàn)賽的一部分。它包含3626個視頻片段,每個片段1秒。這些視頻剪輯中的每一個都包含20幀,并帶有帶注釋的最后一幀。它包含訓練和測試數(shù)據(jù)集,其中包含3626個視頻片段,訓練數(shù)據(jù)集中的3626個帶注釋的幀和2782個用于測試的視頻片段。
如果您正在尋找一些開發(fā)項目的教程,請查看下面的文章-
您是否曾經(jīng)希望過一些可以為社交媒體圖像添加標注的技術(shù),因為您和您的朋友都無法提出超酷的標注?用于圖像標注的深度學習助您一臂之力。
圖像標注是為圖像生成文本描述的過程。它是計算機視覺和自然語言處理(NLP)的組合任務(wù)。
計算機視覺方法有助于理解并從輸入圖像中提取特征。此外,NLP以正確的單詞順序?qū)D像轉(zhuǎn)換為文本描述。
以下是一些有用的數(shù)據(jù)集,可幫助您使用圖像標注:
COCO是大規(guī)模的對象檢測,分割和標注數(shù)據(jù)集。它由330萬張圖像(標有> 200K)組成,具有150萬個對象實例和80個對象類別,每個圖像有5個標題。
它是一個圖像標注語料庫,由158,915個眾包字幕組成,描述了31,783張圖像。這是Flickr 8k數(shù)據(jù)集的擴展 。新的圖像和標注集中于進行日?;顒雍褪录娜藗儭?/p>
如果您正在尋找項目的實施,我建議您看下面的文章:
另外,我建議您閱讀有關(guān)圖像標注的著名論文。
人體姿勢估計是計算機視覺的有趣應(yīng)用。您一定已經(jīng)聽說過Posenet,它是用于人體姿勢估計的開源模型。簡而言之,姿勢估計是一種計算機視覺技術(shù),可以推斷圖像/視頻中存在的人或物體的姿勢。
在討論姿勢估計的工作之前,讓我們首先了解“人體姿勢骨架”。它是定義一個人的姿勢的一組坐標。一對坐標是肢體。此外,通過識別,定位和跟蹤圖像或視頻中人類姿勢骨架的關(guān)鍵點來執(zhí)行姿勢估計。
如果要開發(fā)姿勢估計模型,以下是一些數(shù)據(jù)集:
MPII Human Pose數(shù)據(jù)集是評估關(guān)節(jié)式姿勢估計的最新基準。該數(shù)據(jù)集包含約25K圖像,其中包含超過4 萬名帶注釋的人體關(guān)節(jié)的人。總體而言,數(shù)據(jù)集涵蓋410種人類活動,每個圖像都有一個活動標簽。
HumanEva-I數(shù)據(jù)集包含與3D人體姿勢同步的7個校準視頻序列。該數(shù)據(jù)庫包含執(zhí)行6個常見動作(例如,步行,慢跑,打手勢等)的4個主題,這些動作被分為訓練,驗證和測試集。
我發(fā)現(xiàn)Google的DeepPose是一篇使用深度學習模型進行姿勢估計非常有趣的研究論文。此外,您可以訪問有關(guān)姿勢估計的多個研究論文,以更好地理解它。
面部表情在非語言交流以及識別人的過程中起著至關(guān)重要的作用。它們對于識別人的情緒非常重要。因此,關(guān)于面部表情的信息通常用于情緒識別的自動系統(tǒng)中。
情緒識別是一項具有挑戰(zhàn)性的任務(wù),因為情緒可能會因環(huán)境,外觀,文化和面部反應(yīng)而異,從而導致數(shù)據(jù)不明確。
面部表情識別系統(tǒng)是一個多階段過程,包括面部圖像處理,特征提取和分類。
以下是您可以用來練習的數(shù)據(jù)集:
Real-world Affective Faces Database
真實世界的情感面孔數(shù)據(jù)庫(RAF-DB)是一個大規(guī)模的面部表情數(shù)據(jù)庫,包含約3萬張多種多樣的面部圖像。它由29672個真實世界的圖像和每個圖像的7維表情分布矢量組成,
您可以閱讀這些資源,以進一步了解您的內(nèi)容-
總而言之,在本文中,我們討論了可以作為初學者實現(xiàn)的10個有趣的計算機視覺項目。這不是一個詳盡的清單。因此,如果您覺得我們錯過了什么,請隨時在下面的評論中添加!
另外,在這里,我列出了一些有用的CV資源,以幫助您探索深度學習和計算機視覺世界:
我們在課程和自我練習中學習的數(shù)據(jù)科學與我們在行業(yè)中工作的數(shù)據(jù)科學有很多差異。我建議您參加這些非常清晰寶貴的免費課程,以了解有關(guān)分析,機器學習和人工智能的所有信息:
我希望你能夠覺得這次的討論對您有意義, 現(xiàn)在輪到你開始自己應(yīng)用計算機視覺了。
雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。
團隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運營,IT咨詢?nèi)耍谛熒?;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。