美圖AAAI 2018論文：視頻語義理解的類腦智能

本文作者：奕欣

2018-04-02 10:30

專題：AAAI 2018

導語：美圖云視覺技術(shù)部門與中科院自動化所共同合作研發(fā)，提出一種基于類腦智能的無監(jiān)督的視頻特征學習和行為識別的方法 NOASSOM。

美圖云視覺技術(shù)部門

+10

AI影響因子

論文

名稱：AAAI

時間：2018

企業(yè)：美圖

雷鋒網(wǎng) AI 科技評論按：近日，美圖云視覺技術(shù)部門與中科院自動化所共同合作研發(fā)，提出一種基于類腦智能的無監(jiān)督的視頻特征學習和行為識別的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition)，該方法不依賴于標簽信息，可以自適應地、無監(jiān)督地學到視頻的特征表示，相關(guān)成果已發(fā)表在 AAAI 2018 上，并以 oral 的形式在大會上進行了報告。

視頻語義理解一直是學術(shù)界的研究熱點之一。近兩年隨著短視頻領(lǐng)域的火爆發(fā)展，圍繞短視頻的業(yè)務(wù)場景應用也在增長，工業(yè)界應用場景都對視頻內(nèi)容理解提出了迫切的落地需求。與學術(shù)界用的確定性數(shù)據(jù)集不同，工業(yè)界業(yè)務(wù)產(chǎn)生的視頻數(shù)據(jù)具有如下特點：首先，數(shù)據(jù)量大，每天都會有成千上百萬的視頻被上傳；其次，內(nèi)容未知，現(xiàn)實生活中的場景是很復雜的，尤其對于 UGC 內(nèi)容，無法確定用戶上傳的視頻中的主體和場景，行為更是無法預測；再次，時效性，在不同的時間段內(nèi)視頻的主題、場景以及行為是不同的，它可能會隨著時間發(fā)生變化進行轉(zhuǎn)移。因此，在這樣的數(shù)據(jù)集上人工建立標簽體系非常困難。NOASSOM 算法的提出有效解決了算法模型在訓練過程中無標簽輸入的問題。

NOASSOM 是通過模擬視覺皮層中表面區(qū)域的結(jié)構(gòu)來構(gòu)建的，以數(shù)據(jù)驅(qū)動自組織更新，恢復基本視覺皮層中的神經(jīng)元對輸入刺激的反應。NOASSOM 是對 ASSOM 方法的改進。ASSOM 是一種特征提取方法，它可以從輸入數(shù)據(jù)中學習統(tǒng)計模式，并對學到的模式進行自組織排列，從而進行特征表示。但是 ASSOM 只能處理有標簽的數(shù)據(jù)，并且只對線性化的數(shù)據(jù)有效，無法勝任其他復雜情形。NOASSOM 的提出解決了 ASSOM 的這兩個重要問題。首先，NOASSOM 通過引入一個非線性正交映射層，處理非線性的輸入數(shù)據(jù)，并使用核函數(shù)來避免定義該映射的具體形式。其次，通過修改 ASSOM 的損失函數(shù)，使輸入數(shù)據(jù)的每個樣本可以獨立地貢獻于損失函數(shù)，而不需要標簽信息。這樣，NOASSOM 可以有效地、無監(jiān)督地學習數(shù)據(jù)的統(tǒng)計模式和本征表示。圖 1 示意了 NOASSOM 與 ASSOM 的網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別。

美圖AAAI 2018論文：視頻語義理解的類腦智能

圖 1 NOASSOM 與 ASSOM 網(wǎng)絡(luò)結(jié)構(gòu)

ASSOM 由輸入層、子空間層、輸出層組成。NOASSOM 比 ASSOM 增加一個非線性正交映射層，用于實現(xiàn)輸入層和子空間層的非線性正交映射。為保證映射后的子空間基向量仍然保持正交性，NOASSOM 采用正交約束的核函數(shù)：

美圖AAAI 2018論文：視頻語義理解的類腦智能

輸出層使用輸入在子空間的投影表示：

美圖AAAI 2018論文：視頻語義理解的類腦智能

使用投影殘差構(gòu)建損失函數(shù)：

美圖AAAI 2018論文：視頻語義理解的類腦智能

原始的 ASSOM 的損失函數(shù)表示如下：

美圖AAAI 2018論文：視頻語義理解的類腦智能

通過修改損失函數(shù)使每個樣本獨立地貢獻于損失函數(shù)，而不必使用 Class-specific 的數(shù)據(jù)進行有監(jiān)督訓練。NOASSOM 使用隨機梯度下降法對網(wǎng)絡(luò)進行訓練。

美圖AAAI 2018論文：視頻語義理解的類腦智能

在每次迭代之后，重新對基向量進行正交化處理。算法流程圖如下：

美圖AAAI 2018論文：視頻語義理解的類腦智能

NOASSOM 論文進一步還提出一個層級的 NOASSOM 來提取高層的抽象特征，有效地描述視頻中行為軌跡的表觀和運動信息，構(gòu)建了一個層級的 NOASSOM 結(jié)構(gòu)提取視頻中的局部行為特征，并使用 FISHER VECTOR 進行聚合編碼，采用 SVM 進行分類，如圖 2 所示。

美圖AAAI 2018論文：視頻語義理解的類腦智能

圖 2 層級 NOASSOM 特征提取框架

訓練得到的基向量的可視化結(jié)果如圖 3 所示，左邊是表觀信息濾波器，右邊是運動信息濾波器?？梢钥闯霰碛^信息濾波器可以學到一些類似邊緣檢測的濾波器，這樣類型的濾波器對圖像的水平邊沿和垂直邊沿能進行檢測，從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學到了一些類似 Gabor 濾波器的濾波器，這樣的濾波器對運動信息更加敏感，實現(xiàn)對運動信息進行良好的提取。

美圖AAAI 2018論文：視頻語義理解的類腦智能

圖 3 NOASSOM 中基向量的可視化結(jié)果

NOASSOM 中訓練得到的基向量的可視化結(jié)果如圖 2 所示，左邊是表觀信息濾波器，右邊是運動信息濾波器?？梢钥闯霰碛^信息濾波器可以學到一些類似邊緣檢測的濾波器，這樣類型的濾波器能對圖像的水平邊沿和垂直邊沿進行檢測，從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學到了一些類似 Gabor 濾波器學到的信息，這樣的濾波器對運動信息更加敏感，實現(xiàn)對運動信息地魯棒性提取。

NOASSOM 在國際公開大型數(shù)據(jù)集 UCF101, HMDB51 和小型數(shù)據(jù)集 KTH 上進行了評測，獲得了 93.8%，69.3% 和 98.2% 的識別率。在 UCF101 和 HMDB51 上，分別超出使用手工特征的 iDt+HSV 基準方法 5.9% 和 8.2%，并且分別超出使用卷積神經(jīng)網(wǎng)絡(luò)模型的 iDt+CNN 方法 2.3% 和 3.4%，在 KTH 上超過 iDT+MBH 的基準方法 3.2% 以及基于 3D CNN 的方法 8.0%。公開數(shù)據(jù)集上的實驗結(jié)果表明，這種方法優(yōu)于之前基于手工特征的方法和大多基于深度特征的方法。此外，在小數(shù)據(jù)庫上，性能更加優(yōu)于基于 CNN 的方法。更多的技術(shù)細節(jié)和實驗結(jié)果請參考原始論文。

NOASSOM 方法的獨特優(yōu)勢在于，可以從大量沒有標簽的數(shù)據(jù)進行更加快速的訓練，并且獲得和其他基于有標簽數(shù)據(jù)方法性能相當甚至更加優(yōu)越的性能?；谶@項技術(shù)的輸出將被應用于美拍短視頻多個業(yè)務(wù)場景中，如相似視頻的推薦和大規(guī)模視頻檢索，基于短視頻內(nèi)容的用戶聚類和畫像，以及基于短視頻內(nèi)容的運營標簽挖掘等等。

美圖AAAI 2018論文：視頻語義理解的類腦智能

附：

美圖云視覺技術(shù)部門，專注于文本、圖像和視頻等領(lǐng)域的視覺算法研發(fā)和平臺構(gòu)建。部門主導研發(fā)的 AI 視覺分析平臺 DeepNet，提供檢測、分類、語義理解、哈希、OCR 等多個方向的技術(shù)支撐，正在為美圖各產(chǎn)品和業(yè)務(wù)，如美拍短視頻運營、商業(yè)化廣告、推薦業(yè)務(wù)、搜索業(yè)務(wù)和安全審核等提供算法支撐。視覺部門長期招納視覺領(lǐng)域相關(guān)人才，方向不限，有意者請發(fā)簡歷至 lili.zhao@meitu.com

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。