0
雷鋒網(wǎng)按:本文為AI研習社編譯的技術博客,原標題 An analysis on computer vision problems,作者為 Shravan Murali 。
翻譯 | 狒狒 黃偉聰 Lamaric 校對 | Lamaric 整理 | MY
至少在過去十年間,解決計算機視覺領域內各種問題的技術已經(jīng)有了很大的進步,其中一些值得注意的問題有圖像分類、對象檢測、圖像分割、圖像生成、圖像字幕生成等。在這篇博客文章中,我將簡要地解釋其中的一些問題,并嘗試從人類如何解讀圖像的角度比較這些技術。我還將把這篇文章引導到 AGI(人工智能)領域并加入我的一些想法。
動機
在我們深入研究之前,讓我們從一些公司如何創(chuàng)造性地使用計算機視覺技術的例子中獲得一些動力。據(jù)我所知,其中一個最酷的初創(chuàng)公司是 clarifai.com。Clarifai 由 Matthew Zeiler 創(chuàng)立,他的團隊在 2013 年贏得了 imageNet 挑戰(zhàn)。他的模型將圖像分類中的錯誤率比前一年的最佳精度降低了近 4%。Clarifai 基本上是一個為視覺識別任務提供 API 的 AI 公司,如圖像和視頻標簽。Clarifai 在這里有一個示例。該公司非常有前途,它的圖像和視頻識別技術非常準確。現(xiàn)在讓我們轉到 Facebook 的自動圖像標記。下次登錄你自己的 Facebook 帳戶時,右鍵單擊任何圖像,然后單擊審查元素(這是用于 chrome;其他瀏覽器上有相同的內容)。查看 img 標記中的 alt 屬性(應該看起來像這樣:<img src =「…」alt =「…」/>)。您會發(fā)現(xiàn) alt 屬性的文本前綴為“Image 可能包含:......”。這項技術現(xiàn)在也很精確。這項技術可以識別人、文本、山脈、天空、樹木、植物、戶外和自然等等。另一個很酷的技術是 Google 的技術。轉到 photos.google.com 并在搜索欄中輸入內容。假設您輸入的是“山脈”,那么您將準確地將得到所有照片內容都包含山脈的搜索結果,谷歌搜圖也是如此。關于圖像搜索的最核心部分是,反過來也有效,即,您可以上傳圖像并獲得圖像的最佳描述,并獲得與上載圖像類似的圖像。這項技術也很有意義。
好的,我希望你現(xiàn)在已經(jīng)有了足夠的興趣與動力。但肯定有很多其他類似但是我不曾介紹的技術,事實上僅僅一篇博文不足以讓我闡述所有。現(xiàn)在讓我們來看看一些計算機視覺領域的問題吧!
計算機視覺
圖像分類
圖像分類基本上僅涉及基于圖像的內容標記圖像。通常會有一組固定的標簽,您的模型必須預測最適合圖像的標簽。這個問題對于機器來說肯定很難,因為它看到的只是圖像數(shù)據(jù)中的一連串數(shù)字。
上圖來自 Google 圖片
并且,世界各地通常會舉辦許多圖像分類競賽。Kaggle 是一個去找到這種比賽的一個非常好的平臺。其中最著名的競賽之一是 ImageNet 挑戰(zhàn)賽。ImageNet 根本上說是一個龐大的圖像數(shù)據(jù)庫(在撰寫本文時大約有 1400 萬個圖像),包含 20000 多個圖像標簽。它由斯坦福大學的計算機視覺實驗室維護。ImageNet 挑戰(zhàn)或者說大規(guī)模視覺識別挑戰(zhàn)(LSVRC)是一年一度的競賽,它有各種子類挑戰(zhàn),例如對象分類,對象檢測和對象定位。在 LSVRC 中,特別是對象分類挑戰(zhàn),從 2012 年開始獲得了很多關注,當時 Alex Krizhevsky 使用了著名的 AlexNet,通過它使得圖像的錯誤率降低到 15.7% 而搶盡風頭(當時從未實現(xiàn)過)。而且,看看最新的結果,微軟的 ResNet 實現(xiàn)了 3.57% 的錯誤率,谷歌的 Inception-v3 則達到了 3.46% 錯誤率,而 Inception-v4 已經(jīng)在此方面走得更遠了。
該圖像來自由 Alfredo Canziani,Adam Paszke 和 Eugenio Culurciello 在 2017 年撰寫的這篇論文
對象檢測
圖像中的對象檢測涉及識別各種子圖像并在每個識別的子圖像周圍繪制邊界框。以下是一個例子:
上圖來自 Google 圖片
與圖像分類相比,這個解決起來要稍微復雜一些。在這里你必須更多地處理圖像坐標。目前最著名的檢測方法叫做 Faster-RCNN。RCNN 是區(qū)域卷積神經(jīng)網(wǎng)絡(Region Convolutional Neural Network)。它使用一種名為候選區(qū)域網(wǎng)絡(Region Proposal Network)的技術,該技術負責從根本上對圖像中需要分類和處理的區(qū)域進行局部化。這個 RCNN 模型后來被調整并且效率更高了,現(xiàn)在稱為 Faster-RCNN。卷積神經(jīng)網(wǎng)絡通常用作候選區(qū)域方法的一部分來生成區(qū)域。最近的圖像網(wǎng)絡挑戰(zhàn)(LSVRC 2017)有一個對象探測的挑戰(zhàn),并由一個名為 BDAT 的隊包攬前三,該隊成員來自南京信息科技大學和倫敦帝國理工學院。
圖像分割
圖像分割涉及基于現(xiàn)有對象對圖像進行分割,具有精確的邊界。
圖像分割有兩種類型,語義分割和實例分割。在語義分割中,您必須通過類對象標記每個像素。基本上,在這種情況下,屬于同一類(比如每只貓)的每個對象都將被著色。而在實例分割中,每個對象的分類都不同。這意味著圖片中的每只貓都會有不同的顏色。
以深藍色著色的汽車為例的語義分割:
這是實例分割的典型例子:
上圖來自 Google 圖片
由上同樣可以看出,語義分割是實例分割的子集。因此,接下來我們將著手怎樣解決實例分割。
解決此問題的最新已知技術名為 Mask R-CNN,總的來說它是基于我們之前看到的 R-CNN 技術里的幾個卷積層。微軟、Facebook 和 Mighty Ai 聯(lián)合放出了這個名為 COCO 的數(shù)據(jù)集。它類似于 ImageNet,但主要用于分割和檢測。
圖像描述
這是最酷炫的計算機視覺課題之一,它要結合一點點自然語言處理知識。它包含生成最適合你圖像的描述。
上圖來自 Google 圖片
圖像描述根本上是圖像檢測+描述。圖像檢測是通過我們之前看到的相同 的 Faster R-CNN 方法完成的。描述使用 RNN(遞歸神經(jīng)網(wǎng)絡)完成。更確切地說,使用的是 RNN 的高級版本,LSTM(長短期記憶網(wǎng)絡)。這些 RNN 網(wǎng)絡與我們的常規(guī)深度神經(jīng)網(wǎng)絡非常相似,只是這些 RNN 取決于之前的網(wǎng)絡狀態(tài)。你可以把它想象成一個神經(jīng)網(wǎng)絡,神經(jīng)元隨著時間和空間構建。在結構上,RNN 看起來像這樣:
通常,這些 RNN 用于數(shù)據(jù)與時間相關性較大的問題。例如,如果您想預測句子中的下一個單詞,那么新單詞取決于前一個時間步驟中顯示的所有單詞?,F(xiàn)在讓我們更深入一點,著眼于人類的視覺理解。
為什么人類更善于視覺理解?
在深入了解壯麗的人類大腦的細節(jié)之前,我想先討論這些深度神經(jīng)網(wǎng)絡的缺點。
雖然深度神經(jīng)網(wǎng)絡似乎很精彩和神奇,但遺憾的是它們很容易被愚弄??纯催@個 :
上圖來自 Andrej Karpathy 的博客
如圖所示,每張圖像都是用一個噪點圖像處理之后的,它在視覺上根本不會改變原始圖像,但卻被錯誤分類為鴕鳥!
此類攻擊稱為深度神經(jīng)網(wǎng)絡上的對抗攻擊。他們最初由 Szegedy 等人在 2013 年提出。然后由 Goodfellow 等人在 2014 年進一步發(fā)展。在此基礎上我們發(fā)現(xiàn),可以通過優(yōu)化圖像中的像素強度來找到最小噪聲信號,以優(yōu)先考慮深度神經(jīng)網(wǎng)絡中的不同類而不是當前的類。這促成了生成模型的發(fā)展。目前有 3 種眾所周知的生成模型,即 Pixel RNN / Pixel CNN,變分自動編碼器和生成性對抗網(wǎng)絡。
......
想要繼續(xù)閱讀,請移步至我們的AI研習社社區(qū):https://club.leiphone.com/page/TextTranslation/678
更多精彩內容盡在 AI 研習社。
不同領域包括計算機視覺,語音語義,區(qū)塊鏈,自動駕駛,數(shù)據(jù)挖掘,智能控制,編程語言等每日更新。
雷鋒網(wǎng)雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。