0
本文作者: 奕欣 | 2018-04-02 10:30 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評論按:近日,美圖云視覺技術(shù)部門與中科院自動化所共同合作研發(fā),提出一種基于類腦智能的無監(jiān)督的視頻特征學(xué)習(xí)和行為識別的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),該方法不依賴于標(biāo)簽信息,可以自適應(yīng)地、無監(jiān)督地學(xué)到視頻的特征表示,相關(guān)成果已發(fā)表在 AAAI 2018 上,并以 oral 的形式在大會上進行了報告。
視頻語義理解一直是學(xué)術(shù)界的研究熱點之一。近兩年隨著短視頻領(lǐng)域的火爆發(fā)展,圍繞短視頻的業(yè)務(wù)場景應(yīng)用也在增長,工業(yè)界應(yīng)用場景都對視頻內(nèi)容理解提出了迫切的落地需求。與學(xué)術(shù)界用的確定性數(shù)據(jù)集不同,工業(yè)界業(yè)務(wù)產(chǎn)生的視頻數(shù)據(jù)具有如下特點:首先,數(shù)據(jù)量大,每天都會有成千上百萬的視頻被上傳;其次,內(nèi)容未知,現(xiàn)實生活中的場景是很復(fù)雜的,尤其對于 UGC 內(nèi)容,無法確定用戶上傳的視頻中的主體和場景,行為更是無法預(yù)測;再次,時效性,在不同的時間段內(nèi)視頻的主題、場景以及行為是不同的,它可能會隨著時間發(fā)生變化進行轉(zhuǎn)移。因此,在這樣的數(shù)據(jù)集上人工建立標(biāo)簽體系非常困難。NOASSOM 算法的提出有效解決了算法模型在訓(xùn)練過程中無標(biāo)簽輸入的問題。
NOASSOM 是通過模擬視覺皮層中表面區(qū)域的結(jié)構(gòu)來構(gòu)建的,以數(shù)據(jù)驅(qū)動自組織更新,恢復(fù)基本視覺皮層中的神經(jīng)元對輸入刺激的反應(yīng)。NOASSOM 是對 ASSOM 方法的改進。ASSOM 是一種特征提取方法,它可以從輸入數(shù)據(jù)中學(xué)習(xí)統(tǒng)計模式,并對學(xué)到的模式進行自組織排列,從而進行特征表示。但是 ASSOM 只能處理有標(biāo)簽的數(shù)據(jù),并且只對線性化的數(shù)據(jù)有效,無法勝任其他復(fù)雜情形。NOASSOM 的提出解決了 ASSOM 的這兩個重要問題。首先,NOASSOM 通過引入一個非線性正交映射層,處理非線性的輸入數(shù)據(jù),并使用核函數(shù)來避免定義該映射的具體形式。其次,通過修改 ASSOM 的損失函數(shù),使輸入數(shù)據(jù)的每個樣本可以獨立地貢獻于損失函數(shù),而不需要標(biāo)簽信息。這樣,NOASSOM 可以有效地、無監(jiān)督地學(xué)習(xí)數(shù)據(jù)的統(tǒng)計模式和本征表示。圖 1 示意了 NOASSOM 與 ASSOM 的網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別。
圖 1 NOASSOM 與 ASSOM 網(wǎng)絡(luò)結(jié)構(gòu)
ASSOM 由輸入層、子空間層、輸出層組成。NOASSOM 比 ASSOM 增加一個非線性正交映射層,用于實現(xiàn)輸入層和子空間層的非線性正交映射。為保證映射后的子空間基向量仍然保持正交性,NOASSOM 采用正交約束的核函數(shù):
輸出層使用輸入在子空間的投影表示:
使用投影殘差構(gòu)建損失函數(shù):
原始的 ASSOM 的損失函數(shù)表示如下:
通過修改損失函數(shù)使每個樣本獨立地貢獻于損失函數(shù),而不必使用 Class-specific 的數(shù)據(jù)進行有監(jiān)督訓(xùn)練。NOASSOM 使用隨機梯度下降法對網(wǎng)絡(luò)進行訓(xùn)練。
在每次迭代之后,重新對基向量進行正交化處理。算法流程圖如下:
NOASSOM 論文進一步還提出一個層級的 NOASSOM 來提取高層的抽象特征,有效地描述視頻中行為軌跡的表觀和運動信息,構(gòu)建了一個層級的 NOASSOM 結(jié)構(gòu)提取視頻中的局部行為特征,并使用 FISHER VECTOR 進行聚合編碼,采用 SVM 進行分類,如圖 2 所示。
圖 2 層級 NOASSOM 特征提取框架
訓(xùn)練得到的基向量的可視化結(jié)果如圖 3 所示,左邊是表觀信息濾波器,右邊是運動信息濾波器??梢钥闯霰碛^信息濾波器可以學(xué)到一些類似邊緣檢測的濾波器,這樣類型的濾波器對圖像的水平邊沿和垂直邊沿能進行檢測,從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學(xué)到了一些類似 Gabor 濾波器的濾波器,這樣的濾波器對運動信息更加敏感,實現(xiàn)對運動信息進行良好的提取。
圖 3 NOASSOM 中基向量的可視化結(jié)果
NOASSOM 中訓(xùn)練得到的基向量的可視化結(jié)果如圖 2 所示,左邊是表觀信息濾波器,右邊是運動信息濾波器。可以看出表觀信息濾波器可以學(xué)到一些類似邊緣檢測的濾波器,這樣類型的濾波器能對圖像的水平邊沿和垂直邊沿進行檢測,從而提取良好的輪廓紋理信息。右邊的運動信息濾波器學(xué)到了一些類似 Gabor 濾波器學(xué)到的信息,這樣的濾波器對運動信息更加敏感,實現(xiàn)對運動信息地魯棒性提取。
NOASSOM 在國際公開大型數(shù)據(jù)集 UCF101, HMDB51 和小型數(shù)據(jù)集 KTH 上進行了評測,獲得了 93.8%,69.3% 和 98.2% 的識別率。在 UCF101 和 HMDB51 上,分別超出使用手工特征的 iDt+HSV 基準(zhǔn)方法 5.9% 和 8.2%,并且分別超出使用卷積神經(jīng)網(wǎng)絡(luò)模型的 iDt+CNN 方法 2.3% 和 3.4%,在 KTH 上超過 iDT+MBH 的基準(zhǔn)方法 3.2% 以及基于 3D CNN 的方法 8.0%。公開數(shù)據(jù)集上的實驗結(jié)果表明,這種方法優(yōu)于之前基于手工特征的方法和大多基于深度特征的方法。此外,在小數(shù)據(jù)庫上,性能更加優(yōu)于基于 CNN 的方法。更多的技術(shù)細節(jié)和實驗結(jié)果請參考原始論文。
NOASSOM 方法的獨特優(yōu)勢在于,可以從大量沒有標(biāo)簽的數(shù)據(jù)進行更加快速的訓(xùn)練,并且獲得和其他基于有標(biāo)簽數(shù)據(jù)方法性能相當(dāng)甚至更加優(yōu)越的性能?;谶@項技術(shù)的輸出將被應(yīng)用于美拍短視頻多個業(yè)務(wù)場景中,如相似視頻的推薦和大規(guī)模視頻檢索,基于短視頻內(nèi)容的用戶聚類和畫像,以及基于短視頻內(nèi)容的運營標(biāo)簽挖掘等等。
附:
美圖云視覺技術(shù)部門,專注于文本、圖像和視頻等領(lǐng)域的視覺算法研發(fā)和平臺構(gòu)建。部門主導(dǎo)研發(fā)的 AI 視覺分析平臺 DeepNet,提供檢測、分類、語義理解、哈希、OCR 等多個方向的技術(shù)支撐,正在為美圖各產(chǎn)品和業(yè)務(wù),如美拍短視頻運營、商業(yè)化廣告、推薦業(yè)務(wù)、搜索業(yè)務(wù)和安全審核等提供算法支撐。視覺部門長期招納視覺領(lǐng)域相關(guān)人才,方向不限,有意者請發(fā)簡歷至 lili.zhao@meitu.com
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章