丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

美圖AAAI 2018論文:視頻語義理解的類腦智能

本文作者: 奕欣 2018-04-02 10:30 專題:AAAI 2018
導(dǎo)語:美圖云視覺技術(shù)部門與中科院自動(dòng)化所共同合作研發(fā),提出一種基于類腦智能的無監(jiān)督的視頻特征學(xué)習(xí)和行為識(shí)別的方法 NOASSOM。
論文
名稱:AAAI
時(shí)間:2018
企業(yè):美圖

雷鋒網(wǎng) AI 科技評(píng)論按:近日,美圖云視覺技術(shù)部門與中科院自動(dòng)化所共同合作研發(fā),提出一種基于類腦智能的無監(jiān)督的視頻特征學(xué)習(xí)和行為識(shí)別的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),該方法不依賴于標(biāo)簽信息,可以自適應(yīng)地、無監(jiān)督地學(xué)到視頻的特征表示,相關(guān)成果已發(fā)表在 AAAI 2018 上,并以 oral 的形式在大會(huì)上進(jìn)行了報(bào)告。

視頻語義理解一直是學(xué)術(shù)界的研究熱點(diǎn)之一。近兩年隨著短視頻領(lǐng)域的火爆發(fā)展,圍繞短視頻的業(yè)務(wù)場景應(yīng)用也在增長,工業(yè)界應(yīng)用場景都對(duì)視頻內(nèi)容理解提出了迫切的落地需求。與學(xué)術(shù)界用的確定性數(shù)據(jù)集不同,工業(yè)界業(yè)務(wù)產(chǎn)生的視頻數(shù)據(jù)具有如下特點(diǎn):首先,數(shù)據(jù)量大,每天都會(huì)有成千上百萬的視頻被上傳;其次,內(nèi)容未知,現(xiàn)實(shí)生活中的場景是很復(fù)雜的,尤其對(duì)于 UGC 內(nèi)容,無法確定用戶上傳的視頻中的主體和場景,行為更是無法預(yù)測(cè);再次,時(shí)效性,在不同的時(shí)間段內(nèi)視頻的主題、場景以及行為是不同的,它可能會(huì)隨著時(shí)間發(fā)生變化進(jìn)行轉(zhuǎn)移。因此,在這樣的數(shù)據(jù)集上人工建立標(biāo)簽體系非常困難。NOASSOM 算法的提出有效解決了算法模型在訓(xùn)練過程中無標(biāo)簽輸入的問題。

NOASSOM 是通過模擬視覺皮層中表面區(qū)域的結(jié)構(gòu)來構(gòu)建的,以數(shù)據(jù)驅(qū)動(dòng)自組織更新,恢復(fù)基本視覺皮層中的神經(jīng)元對(duì)輸入刺激的反應(yīng)。NOASSOM 是對(duì) ASSOM 方法的改進(jìn)。ASSOM 是一種特征提取方法,它可以從輸入數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)模式,并對(duì)學(xué)到的模式進(jìn)行自組織排列,從而進(jìn)行特征表示。但是 ASSOM 只能處理有標(biāo)簽的數(shù)據(jù),并且只對(duì)線性化的數(shù)據(jù)有效,無法勝任其他復(fù)雜情形。NOASSOM 的提出解決了 ASSOM 的這兩個(gè)重要問題。首先,NOASSOM 通過引入一個(gè)非線性正交映射層,處理非線性的輸入數(shù)據(jù),并使用核函數(shù)來避免定義該映射的具體形式。其次,通過修改 ASSOM 的損失函數(shù),使輸入數(shù)據(jù)的每個(gè)樣本可以獨(dú)立地貢獻(xiàn)于損失函數(shù),而不需要標(biāo)簽信息。這樣,NOASSOM 可以有效地、無監(jiān)督地學(xué)習(xí)數(shù)據(jù)的統(tǒng)計(jì)模式和本征表示。圖 1 示意了 NOASSOM 與 ASSOM 的網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別。

 美圖AAAI 2018論文:視頻語義理解的類腦智能

圖 1 NOASSOM 與 ASSOM 網(wǎng)絡(luò)結(jié)構(gòu)

ASSOM 由輸入層、子空間層、輸出層組成。NOASSOM 比 ASSOM 增加一個(gè)非線性正交映射層,用于實(shí)現(xiàn)輸入層和子空間層的非線性正交映射。為保證映射后的子空間基向量仍然保持正交性,NOASSOM 采用正交約束的核函數(shù):

美圖AAAI 2018論文:視頻語義理解的類腦智能

輸出層使用輸入在子空間的投影表示:

美圖AAAI 2018論文:視頻語義理解的類腦智能

使用投影殘差構(gòu)建損失函數(shù):

美圖AAAI 2018論文:視頻語義理解的類腦智能

原始的 ASSOM 的損失函數(shù)表示如下:

美圖AAAI 2018論文:視頻語義理解的類腦智能

通過修改損失函數(shù)使每個(gè)樣本獨(dú)立地貢獻(xiàn)于損失函數(shù),而不必使用 Class-specific 的數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練。NOASSOM 使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

美圖AAAI 2018論文:視頻語義理解的類腦智能

美圖AAAI 2018論文:視頻語義理解的類腦智能

在每次迭代之后,重新對(duì)基向量進(jìn)行正交化處理。算法流程圖如下:

美圖AAAI 2018論文:視頻語義理解的類腦智能

NOASSOM 論文進(jìn)一步還提出一個(gè)層級(jí)的 NOASSOM 來提取高層的抽象特征,有效地描述視頻中行為軌跡的表觀和運(yùn)動(dòng)信息,構(gòu)建了一個(gè)層級(jí)的 NOASSOM 結(jié)構(gòu)提取視頻中的局部行為特征,并使用 FISHER VECTOR 進(jìn)行聚合編碼,采用 SVM 進(jìn)行分類,如圖 2 所示。

美圖AAAI 2018論文:視頻語義理解的類腦智能

圖 2 層級(jí) NOASSOM 特征提取框架

訓(xùn)練得到的基向量的可視化結(jié)果如圖 3 所示,左邊是表觀信息濾波器,右邊是運(yùn)動(dòng)信息濾波器??梢钥闯霰碛^信息濾波器可以學(xué)到一些類似邊緣檢測(cè)的濾波器,這樣類型的濾波器對(duì)圖像的水平邊沿和垂直邊沿能進(jìn)行檢測(cè),從而提取良好的輪廓紋理信息。右邊的運(yùn)動(dòng)信息濾波器學(xué)到了一些類似 Gabor 濾波器的濾波器,這樣的濾波器對(duì)運(yùn)動(dòng)信息更加敏感,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)信息進(jìn)行良好的提取。

美圖AAAI 2018論文:視頻語義理解的類腦智能

美圖AAAI 2018論文:視頻語義理解的類腦智能

圖 3 NOASSOM 中基向量的可視化結(jié)果

NOASSOM 中訓(xùn)練得到的基向量的可視化結(jié)果如圖 2 所示,左邊是表觀信息濾波器,右邊是運(yùn)動(dòng)信息濾波器??梢钥闯霰碛^信息濾波器可以學(xué)到一些類似邊緣檢測(cè)的濾波器,這樣類型的濾波器能對(duì)圖像的水平邊沿和垂直邊沿進(jìn)行檢測(cè),從而提取良好的輪廓紋理信息。右邊的運(yùn)動(dòng)信息濾波器學(xué)到了一些類似 Gabor 濾波器學(xué)到的信息,這樣的濾波器對(duì)運(yùn)動(dòng)信息更加敏感,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)信息地魯棒性提取。

NOASSOM 在國際公開大型數(shù)據(jù)集 UCF101, HMDB51 和小型數(shù)據(jù)集 KTH 上進(jìn)行了評(píng)測(cè),獲得了 93.8%,69.3% 和 98.2% 的識(shí)別率。在 UCF101 和 HMDB51 上,分別超出使用手工特征的 iDt+HSV 基準(zhǔn)方法 5.9% 和 8.2%,并且分別超出使用卷積神經(jīng)網(wǎng)絡(luò)模型的 iDt+CNN 方法 2.3% 和 3.4%,在 KTH 上超過 iDT+MBH 的基準(zhǔn)方法 3.2% 以及基于 3D CNN 的方法 8.0%。公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,這種方法優(yōu)于之前基于手工特征的方法和大多基于深度特征的方法。此外,在小數(shù)據(jù)庫上,性能更加優(yōu)于基于 CNN 的方法。更多的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參考原始論文。

NOASSOM 方法的獨(dú)特優(yōu)勢(shì)在于,可以從大量沒有標(biāo)簽的數(shù)據(jù)進(jìn)行更加快速的訓(xùn)練,并且獲得和其他基于有標(biāo)簽數(shù)據(jù)方法性能相當(dāng)甚至更加優(yōu)越的性能。基于這項(xiàng)技術(shù)的輸出將被應(yīng)用于美拍短視頻多個(gè)業(yè)務(wù)場景中,如相似視頻的推薦和大規(guī)模視頻檢索,基于短視頻內(nèi)容的用戶聚類和畫像,以及基于短視頻內(nèi)容的運(yùn)營標(biāo)簽挖掘等等。

美圖AAAI 2018論文:視頻語義理解的類腦智能

附:

美圖云視覺技術(shù)部門,專注于文本、圖像和視頻等領(lǐng)域的視覺算法研發(fā)和平臺(tái)構(gòu)建。部門主導(dǎo)研發(fā)的 AI 視覺分析平臺(tái) DeepNet,提供檢測(cè)、分類、語義理解、哈希、OCR 等多個(gè)方向的技術(shù)支撐,正在為美圖各產(chǎn)品和業(yè)務(wù),如美拍短視頻運(yùn)營、商業(yè)化廣告、推薦業(yè)務(wù)、搜索業(yè)務(wù)和安全審核等提供算法支撐。視覺部門長期招納視覺領(lǐng)域相關(guān)人才,方向不限,有意者請(qǐng)發(fā)簡歷至 lili.zhao@meitu.com

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

美圖AAAI 2018論文:視頻語義理解的類腦智能

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說