針對計算機(jī)視覺一些問題的分析

本文作者： AI研習(xí)社-譯站

2018-08-21 11:19

導(dǎo)語：在這篇博客文章中，我將簡要地解釋其中的一些問題，并嘗試從人類如何解讀圖像的角度比較這些技術(shù)。

雷鋒網(wǎng)按：本文為AI研習(xí)社編譯的技術(shù)博客，原標(biāo)題 An analysis on computer vision problems，作者為 Shravan Murali 。

翻譯 | 狒狒黃偉聰 Lamaric 校對 | Lamaric 整理 | MY

至少在過去十年間，解決計算機(jī)視覺領(lǐng)域內(nèi)各種問題的技術(shù)已經(jīng)有了很大的進(jìn)步，其中一些值得注意的問題有圖像分類、對象檢測、圖像分割、圖像生成、圖像字幕生成等。在這篇博客文章中，我將簡要地解釋其中的一些問題，并嘗試從人類如何解讀圖像的角度比較這些技術(shù)。我還將把這篇文章引導(dǎo)到 AGI（人工智能）領(lǐng)域并加入我的一些想法。

動機(jī)

在我們深入研究之前，讓我們從一些公司如何創(chuàng)造性地使用計算機(jī)視覺技術(shù)的例子中獲得一些動力。據(jù)我所知，其中一個最酷的初創(chuàng)公司是 clarifai.com。Clarifai 由 Matthew Zeiler 創(chuàng)立，他的團(tuán)隊在 2013 年贏得了 imageNet 挑戰(zhàn)。他的模型將圖像分類中的錯誤率比前一年的最佳精度降低了近 4％。Clarifai 基本上是一個為視覺識別任務(wù)提供 API 的 AI 公司，如圖像和視頻標(biāo)簽。Clarifai 在這里有一個示例。該公司非常有前途，它的圖像和視頻識別技術(shù)非常準(zhǔn)確。現(xiàn)在讓我們轉(zhuǎn)到 Facebook 的自動圖像標(biāo)記。下次登錄你自己的 Facebook 帳戶時，右鍵單擊任何圖像，然后單擊審查元素（這是用于 chrome；其他瀏覽器上有相同的內(nèi)容）。查看 img 標(biāo)記中的 alt 屬性（應(yīng)該看起來像這樣：<img src =「…」alt =「…」/>）。您會發(fā)現(xiàn) alt 屬性的文本前綴為“Image 可能包含：......”。這項技術(shù)現(xiàn)在也很精確。這項技術(shù)可以識別人、文本、山脈、天空、樹木、植物、戶外和自然等等。另一個很酷的技術(shù)是 Google 的技術(shù)。轉(zhuǎn)到 photos.google.com 并在搜索欄中輸入內(nèi)容。假設(shè)您輸入的是“山脈”，那么您將準(zhǔn)確地將得到所有照片內(nèi)容都包含山脈的搜索結(jié)果，谷歌搜圖也是如此。關(guān)于圖像搜索的最核心部分是，反過來也有效，即，您可以上傳圖像并獲得圖像的最佳描述，并獲得與上載圖像類似的圖像。這項技術(shù)也很有意義。

針對計算機(jī)視覺一些問題的分析

好的，我希望你現(xiàn)在已經(jīng)有了足夠的興趣與動力。但肯定有很多其他類似但是我不曾介紹的技術(shù)，事實上僅僅一篇博文不足以讓我闡述所有。現(xiàn)在讓我們來看看一些計算機(jī)視覺領(lǐng)域的問題吧！

計算機(jī)視覺

圖像分類

圖像分類基本上僅涉及基于圖像的內(nèi)容標(biāo)記圖像。通常會有一組固定的標(biāo)簽，您的模型必須預(yù)測最適合圖像的標(biāo)簽。這個問題對于機(jī)器來說肯定很難，因為它看到的只是圖像數(shù)據(jù)中的一連串?dāng)?shù)字。

針對計算機(jī)視覺一些問題的分析

上圖來自 Google 圖片

并且，世界各地通常會舉辦許多圖像分類競賽。Kaggle 是一個去找到這種比賽的一個非常好的平臺。其中最著名的競賽之一是 ImageNet 挑戰(zhàn)賽。ImageNet 根本上說是一個龐大的圖像數(shù)據(jù)庫（在撰寫本文時大約有 1400 萬個圖像），包含 20000 多個圖像標(biāo)簽。它由斯坦福大學(xué)的計算機(jī)視覺實驗室維護(hù)。ImageNet 挑戰(zhàn)或者說大規(guī)模視覺識別挑戰(zhàn)（LSVRC）是一年一度的競賽，它有各種子類挑戰(zhàn)，例如對象分類，對象檢測和對象定位。在 LSVRC 中，特別是對象分類挑戰(zhàn)，從 2012 年開始獲得了很多關(guān)注，當(dāng)時 Alex Krizhevsky 使用了著名的 AlexNet，通過它使得圖像的錯誤率降低到 15.7％而搶盡風(fēng)頭（當(dāng)時從未實現(xiàn)過）。而且，看看最新的結(jié)果，微軟的 ResNet 實現(xiàn)了 3.57％的錯誤率，谷歌的 Inception-v3 則達(dá)到了 3.46％錯誤率，而 Inception-v4 已經(jīng)在此方面走得更遠(yuǎn)了。

針對計算機(jī)視覺一些問題的分析

該圖像來自由 Alfredo Canziani，Adam Paszke 和 Eugenio Culurciello 在 2017 年撰寫的這篇論文

對象檢測

圖像中的對象檢測涉及識別各種子圖像并在每個識別的子圖像周圍繪制邊界框。以下是一個例子：

針對計算機(jī)視覺一些問題的分析

上圖來自 Google 圖片

與圖像分類相比，這個解決起來要稍微復(fù)雜一些。在這里你必須更多地處理圖像坐標(biāo)。目前最著名的檢測方法叫做 Faster-RCNN。RCNN 是區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Region Convolutional Neural Network）。它使用一種名為候選區(qū)域網(wǎng)絡(luò)（Region Proposal Network）的技術(shù)，該技術(shù)負(fù)責(zé)從根本上對圖像中需要分類和處理的區(qū)域進(jìn)行局部化。這個 RCNN 模型后來被調(diào)整并且效率更高了，現(xiàn)在稱為 Faster-RCNN。卷積神經(jīng)網(wǎng)絡(luò)通常用作候選區(qū)域方法的一部分來生成區(qū)域。最近的圖像網(wǎng)絡(luò)挑戰(zhàn)（LSVRC 2017）有一個對象探測的挑戰(zhàn)，并由一個名為 BDAT 的隊包攬前三，該隊成員來自南京信息科技大學(xué)和倫敦帝國理工學(xué)院。

圖像分割

圖像分割涉及基于現(xiàn)有對象對圖像進(jìn)行分割，具有精確的邊界。

圖像分割有兩種類型，語義分割和實例分割。在語義分割中，您必須通過類對象標(biāo)記每個像素?；旧希谶@種情況下，屬于同一類（比如每只貓）的每個對象都將被著色。而在實例分割中，每個對象的分類都不同。這意味著圖片中的每只貓都會有不同的顏色。

以深藍(lán)色著色的汽車為例的語義分割：

針對計算機(jī)視覺一些問題的分析

這是實例分割的典型例子：

針對計算機(jī)視覺一些問題的分析

上圖來自 Google 圖片

由上同樣可以看出，語義分割是實例分割的子集。因此，接下來我們將著手怎樣解決實例分割。

解決此問題的最新已知技術(shù)名為 Mask R-CNN，總的來說它是基于我們之前看到的 R-CNN 技術(shù)里的幾個卷積層。微軟、Facebook 和 Mighty Ai 聯(lián)合放出了這個名為 COCO 的數(shù)據(jù)集。它類似于 ImageNet，但主要用于分割和檢測。

圖像描述

這是最酷炫的計算機(jī)視覺課題之一，它要結(jié)合一點點自然語言處理知識。它包含生成最適合你圖像的描述。

針對計算機(jī)視覺一些問題的分析

上圖來自 Google 圖片

圖像描述根本上是圖像檢測+描述。圖像檢測是通過我們之前看到的相同的 Faster R-CNN 方法完成的。描述使用 RNN（遞歸神經(jīng)網(wǎng)絡(luò)）完成。更確切地說，使用的是 RNN 的高級版本，LSTM（長短期記憶網(wǎng)絡(luò)）。這些 RNN 網(wǎng)絡(luò)與我們的常規(guī)深度神經(jīng)網(wǎng)絡(luò)非常相似，只是這些 RNN 取決于之前的網(wǎng)絡(luò)狀態(tài)。你可以把它想象成一個神經(jīng)網(wǎng)絡(luò)，神經(jīng)元隨著時間和空間構(gòu)建。在結(jié)構(gòu)上，RNN 看起來像這樣：

針對計算機(jī)視覺一些問題的分析

通常，這些 RNN 用于數(shù)據(jù)與時間相關(guān)性較大的問題。例如，如果您想預(yù)測句子中的下一個單詞，那么新單詞取決于前一個時間步驟中顯示的所有單詞?，F(xiàn)在讓我們更深入一點，著眼于人類的視覺理解。

為什么人類更善于視覺理解？

在深入了解壯麗的人類大腦的細(xì)節(jié)之前，我想先討論這些深度神經(jīng)網(wǎng)絡(luò)的缺點。

雖然深度神經(jīng)網(wǎng)絡(luò)似乎很精彩和神奇，但遺憾的是它們很容易被愚弄?？纯催@個：

針對計算機(jī)視覺一些問題的分析

上圖來自 Andrej Karpathy 的博客

如圖所示，每張圖像都是用一個噪點圖像處理之后的，它在視覺上根本不會改變原始圖像，但卻被錯誤分類為鴕鳥！

此類攻擊稱為深度神經(jīng)網(wǎng)絡(luò)上的對抗攻擊。他們最初由 Szegedy 等人在 2013 年提出。然后由 Goodfellow 等人在 2014 年進(jìn)一步發(fā)展。在此基礎(chǔ)上我們發(fā)現(xiàn)，可以通過優(yōu)化圖像中的像素強(qiáng)度來找到最小噪聲信號，以優(yōu)先考慮深度神經(jīng)網(wǎng)絡(luò)中的不同類而不是當(dāng)前的類。這促成了生成模型的發(fā)展。目前有 3 種眾所周知的生成模型，即 Pixel RNN / Pixel CNN，變分自動編碼器和生成性對抗網(wǎng)絡(luò)。

......

想要繼續(xù)閱讀，請移步至我們的AI研習(xí)社社區(qū)：https://club.leiphone.com/page/TextTranslation/678

更多精彩內(nèi)容盡在 AI 研習(xí)社。

不同領(lǐng)域包括計算機(jī)視覺，語音語義，區(qū)塊鏈，自動駕駛，數(shù)據(jù)挖掘，智能控制，編程語言等每日更新。

雷鋒網(wǎng)雷鋒網(wǎng)(公眾號：雷鋒網(wǎng)(公眾號：雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。