丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

騰訊 AI Lab 解讀19篇 ECCV 2018 入選論文

本文作者: 奕欣 2018-08-09 17:58
導語:今年是騰訊AI Lab第二次參加ECCV,共有19篇文章入選。
論文
名稱:ECCV
時間:2018
企業(yè):騰訊

本文轉載自騰訊AI實驗室公眾號(tencent_ailab)

計算機視覺歐洲大會(European Conference on Computer Vision,簡稱ECCV)將于9月8日-14日在德國慕尼黑舉辦,該會議與CVPR、ICCV共稱為計算機視覺領域三大頂級學術會議,每年錄用論文約300篇。

今年是騰訊AI Lab第二次參加ECCV,共有19篇文章入選,以下為摘要解讀。本事項在AI影響因子上有相應加分。

在近期結束的多個頂會中,騰訊AI Lab還有多篇論文入選,位居國內(nèi)企業(yè)前列,包括ACL 2018 (5篇)、ICML 2018(16篇)、CVPR 2018(21篇)和此前的NIPS 2017(8篇)。

1.針對基于優(yōu)化的視覺慣導里程計的動態(tài)傳感器延時建模

Modeling Varying Camera-IMU Time Offset in Optimization-Based Visual-Inertial Odometry

該論文由騰訊AI Lab獨立完成。由于相機和IMU(慣導測量單元)這兩種傳感器提供的信息對于運動估計具有很強的互補性,所以把這兩種傳感器信息融合在一起用于運動估計被學界證實是很有效的。然而,過去大部分的相機和IMU融合方法都是假設使用了全局快門相機和同步的傳感器測量。這個假設在現(xiàn)實情況下往往是不成立的。因為在大部分的消費電子產(chǎn)品里,裝配的往往是卷簾快門相機和非同步的傳感器測量。為了解決這個問題,本文提出了一種基于非線性優(yōu)化的單目視覺慣導融合方法。這種方法對相機和IMU之間的延時進行建模,并把其當作一個可動態(tài)變化的量。本文提出的這種方法可以統(tǒng)一處理使用卷簾快門相機帶來的圖像失真問題和非同步的傳感器測量問題。同時,為了加速優(yōu)化過程中所需要的可變長度IMU測量積分,本文提出了一種基于動態(tài)規(guī)劃和紅黑樹的高效計算方法。最后,為了提高單目視覺慣導融合方法的魯棒性,本文提出了一種對傳感器噪聲建模的初始化方法。本文在Euroc數(shù)據(jù)集和手機采集的數(shù)據(jù)中和目前最好的方法進行了對比。實驗結果表明,本文提出的方法是非常有效的。

2.面向跨年齡人臉識別的正交深度特征分解

Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition

該論文由騰訊AI Lab獨立完成。由于年齡變化會導致人的外貌產(chǎn)生顯著變化,所以跨年齡人臉識別依舊是人臉識別領域的一項重要挑戰(zhàn)。為了減少年齡變化導致的類內(nèi)差異,本文提出了一種稱為正交嵌入CNN(Orthogonal Embedding CNNs, OE-CNNs)的新框架來學習對年齡變化具有魯棒性的深度人臉特征。具體而言,本文將深度人臉特征分解為兩個正交的分量,分別表示與年齡信息相關的分量以及與身份信息相關的分量。通過剝離與年齡信息相關的分量,所得到的身份信息特征便可用于精準的跨年齡人臉識別。此外,為了補充現(xiàn)有的跨年齡人臉數(shù)據(jù)的不足并推進該領域的學術研究,本文還構建了一個全新的跨年齡人臉數(shù)據(jù)集(Cross-Age Face Datset, CAF)。研究者在國際著名的跨年齡人臉識別數(shù)據(jù)集MORPH Album 2,CACD-VS,F(xiàn)G-NET上進行了實驗評估,驗證了所提出的方法的有效性。最后,研究者在通用人臉識別數(shù)據(jù)集LFW上也做了實驗,驗證了本文提出的方法對于通用人臉識別也有很好的泛化性。

3.針對圖像自動描述的遞歸融合網(wǎng)絡

Recurrent Fusion Network for Image Captioning

該論文由騰訊AI Lab主導,與復旦大學合作完成。最近,圖像的自動描述已經(jīng)取得了很大進展,所有最先進的模型都采用了編碼器-解碼器框架。在此框架下,輸入圖像由卷積神經(jīng)網(wǎng)絡(CNN)編碼,然后通過遞歸神經(jīng)網(wǎng)絡(RNN)轉換為自然語言。依賴于該框架的現(xiàn)有模型僅使用一種CNN(例如ResNet或Inception-X)來描述圖像內(nèi)容。因此,不能全面地理解輸入圖像的語義含義,這限制了描述質量的提高。在本文中,為了利用來自多個編碼器的互補信息,提出了一種用于圖像的自動描述任務的遞歸融合網(wǎng)絡(RFNet)。該模型的融合過程可以利用CNN輸出的特征之間的相互關系,來為解碼器生成新的更富含信息的圖像表示。MSCOCO數(shù)據(jù)集上的實驗結果證明了本文提出的RFNet的有效性,它是圖像自動描述領域中一種新的SOTA技術。

4.基于堆疊式循環(huán)一致性生成對抗網(wǎng)絡的無間監(jiān)督圖像到圖像轉換

Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks

該論文由騰訊AI Lab主導,與復旦大學合作完成。最近關于無監(jiān)督的圖像到圖像轉換研究取得了較為顯著的進展,其主要是通過訓練一對具有循環(huán)一致性損失(cycle-consistent loss)的生成對抗網(wǎng)絡(Generative Adversarial Networks)。然而,當圖像分辨率高或者兩個圖像域具有顯著差異時(例如 Cityscapes 數(shù)據(jù)集中圖像語義分割與城市景觀照片之間的轉換),這種無監(jiān)督方法可能產(chǎn)生較差的結果。在本文中,通過把單個轉換分解為多階段轉換,提出了堆疊循環(huán)一致性對抗網(wǎng)絡(SCAN)。其通過學習低分辨率圖像到圖像的轉換,然后基于低分辨率的轉換學習更高分辨率的轉換,這樣做提高了圖像轉換質量并且使得學習高分辨率轉換成為可能。此外,為了適當?shù)乩脕碜郧耙浑A段的學習到的信息,研究者設計了自適應融合塊以學習當前階段的輸出和前一階段的輸出的動態(tài)整合。在多個數(shù)據(jù)集的實驗表明,與以前的單階段方法相比,本文提出的方法可以大大提高圖像到圖像轉換的質量。

5.基于神經(jīng)網(wǎng)絡的雙目圖像風格轉移

Neural Stereoscopic Image Style Transfer

該論文由騰訊AI Lab主導,與電子科技大學合作完成。神經(jīng)風格轉移是一種新興技術,能夠賦予普通圖像以極具吸引力的藝術風格。現(xiàn)有的工作已經(jīng)成功的應用卷積神經(jīng)網(wǎng)絡(CNN)來對2D圖像或視頻進行風格轉移。然而,雙目3D圖像的風格轉移仍然缺乏相應的研究工作。與2D圖像不同,對雙目3D圖像進行風格轉移的時候需要保留輸入圖片的深度信息,否則生成的風格化雙目3D圖像的立體感會被嚴重地破壞。在本文中,研究者構建了一個新穎的雙路徑網(wǎng)絡,雙目3D圖像的每張圖片都是在單獨的路徑中處理。該網(wǎng)絡能夠在對雙目3D圖片進行風格轉移的同時,保留輸入圖片的深度信息。除了使用傳統(tǒng)的感知損失來控制生成圖片的風格化質量外,研究者提出了多層視角損失函數(shù),能夠有效的保留輸入圖片的深度信息。此外,研究者還提出了一個特征聚合模塊,該模塊能夠有效地共享兩條路徑之間的特征信息,在多層視角損失函數(shù)的監(jiān)督下,該模塊能夠進一步保留輸入圖片的深度信息。實驗結果表明,與以前的方法相比,該網(wǎng)絡不僅能夠實現(xiàn)優(yōu)秀的風格轉移效果,還能夠很好的保持原圖的深度信息。

6.視頻再定位

Video Re-localization

該論文由騰訊AI Lab主導,與羅徹斯特大學合作完成。目前,視頻檢索領域已經(jīng)發(fā)展的很成熟,但是這個領域當中還有一些未解決的問題。例如,給定一個查詢視頻,如何在一個長的備選視頻當中找到與查詢視頻語義相關的片段?本文定義了一種名叫視頻重定位(video re-localization)的新任務來解決這樣的問題。視頻重定位有廣泛的應用價值,例如它可以用于視頻片段定位、拷貝檢測、視頻監(jiān)控等。同時,視頻重定位也是一種很難解決的任務,因為語義相關的視頻,可能看起來非常不同。要解決視頻重定位問題,第一個難點就是沒有相關的視頻數(shù)據(jù)集。收集和標注語義相關的視頻,是一項非常費時費力的工作。因此,研究者重新組織了ActivityNet數(shù)據(jù)集中的視頻,用于視頻重定位的研究。然后,本文提出了一種cross gating的雙線性匹配(bilinear matching)模型,用來匹配查詢視頻和備選視頻。最后,研究者用分類的方式,來預測相關片段的起始點和終止點。實驗證明,本文提出的方法要優(yōu)于相應的基線模型。

7.針對人臉超分辨率的超身份同一性卷積神經(jīng)網(wǎng)絡模型

Super-Identity Convolutional Neural Network for Face Hallucination

該論文由騰訊AI Lab與香港中文大學、德克薩斯州大學奧斯汀分校等合作完成。人臉超分辨率是解決利用低分辨率人臉圖像生成高分辨率人臉圖像的生成式任務,同時需要考慮到人的面部感觀非常依賴身份信息。然而,先前的人臉超分辨率方法忽略了對面部身份信息的恢復。本文提出了超身份同一性卷積神經(jīng)網(wǎng)絡(SICNN)來恢復身份同一性,以便于生成接近真實身份的超分辨率人臉圖像。具體地,研究者在超球面的身份度量空間定義一個超身份同一性損失,用于衡量生成圖像和真實高分辨率圖像的身份差異性。然而,直接使用這個損失將導致動態(tài)域不收斂問題,這是由真實高分辨率域與生成高分辨率域之間存在的較大間隔引起的。為了克服這一挑戰(zhàn),研究者提出了一個通過在這兩個域之間構建魯棒的身份度量約束的訓練方法。大量的實驗評估證明,相比之前最先進的方法,在具有挑戰(zhàn)性的對12x14的人臉圖像進行8倍超分辨率任務上,本文提出的SICNN方法取得了更優(yōu)越的超分辨率可視效果。此外,SICNN方法顯著提高了極低分辨率人臉圖像的可識別性。

8.Bi-Real網(wǎng)絡:具有更強表達能力的1-比特卷積神經(jīng)網(wǎng)絡及一種先進訓練算法

Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm

該論文由騰訊AI Lab與香港科技大學、華中科技大學合作完成。本文研究了1-比特卷積神經(jīng)網(wǎng)絡,也即網(wǎng)絡參數(shù)和激活函數(shù)輸出都是二值化。相對于標準的實數(shù)化網(wǎng)絡,1-比特網(wǎng)絡在存儲空間和計算復雜度上具有很大的優(yōu)勢,但是其分類性能還相距甚遠。為了縮小1-比特網(wǎng)絡和實數(shù)化網(wǎng)絡的性能差距,本文提出了一種新的1-比特網(wǎng)絡,名為Bi-Real網(wǎng)絡。其基本思想是通過一個殘差結構,將網(wǎng)絡訓練過程中產(chǎn)生的實數(shù)化輸出(即1-比特卷積層的輸出,Sign激活函數(shù)的輸入)與下一模塊的輸出結合,大幅度提高了網(wǎng)絡的表征潛力,且沒有增加額外的計算成本。為了更好地挖掘出Bi-Real網(wǎng)絡的表征潛力,本文提出了全新的訓練算法,包括三個具體的創(chuàng)新點:1)設計對Sign激活函數(shù)的更緊致可導估計函數(shù);2)利用參數(shù)幅值相關的梯度來更新參數(shù);3)設計更合適的實數(shù)化網(wǎng)絡對Bi-Real網(wǎng)絡進行初始化。本工作以殘差神經(jīng)網(wǎng)絡為主干網(wǎng)絡,設計了兩種不同深度的Bi-Real網(wǎng)絡,分別為18層和34層,并在ImageNet數(shù)據(jù)集上進行了測試,它們分別取得了56.4%和62.2%的top-1識別精度。相較于當前最先進的1-比特網(wǎng)絡(即XNOR網(wǎng)絡),Bi-Real網(wǎng)絡取得了10%以上的相對精度提高。

9.基于多樣性和隨機性的圖聚類方法的增量多圖匹配

Incremental Multi-graph Matching via Diversity and Randomness based Graph Clustering

該論文由騰訊AI Lab與上海交通大學、亞利桑那州立大學合作完成。多圖匹配涉及在多個圖結構之間找到對應關系,現(xiàn)有方法主要通過一次性匹配全量的方式來求解該問題。然而,實際應用中,往往需要應對不斷新增的圖樣本。這一需求促使本文提出了一個增量式的多圖在線匹配方法。具體而言,通過分組內(nèi)的樣本多樣性,我們對圖樣本進行分組,每次新的樣本被歸入某一分組,進行在線匹配,并將信息在不同分組間傳遞與更新。實驗證明,我們的在線匹配方法在不明顯犧牲精度的情形下,顯著提高了計算效率。

10.Pixel2Mesh: 從單幀RGB圖像生成三維網(wǎng)孔模型

Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images

該論文由騰訊AI Lab與復旦大學、普林斯頓大學、Intel Labs合作完成。本文提出了一種端到端的深度學習框架,可從單張彩色圖片直接生成3D mesh。受深度神經(jīng)網(wǎng)絡特性的限制,以前的方法通常用volume或者point cloud表示三維形狀,將它們轉換為更易于使用的mesh并非易事。與現(xiàn)有方法不同,本文使用圖卷積神經(jīng)網(wǎng)絡表示3D mesh,利用從輸入圖像中提取的特征逐步對橢球進行變形從而產(chǎn)生正確的幾何形狀。本文使用由粗到精的模式進行生成,使得整個變形過程更加穩(wěn)定。此外,本文還定義了幾種與mesh相關的損失函數(shù)捕捉不同級別的特性,以保證視覺上有吸引力并且物理上高重建精度。大量實驗表明,本文的方法不僅定性上可以生成細節(jié)更加充分的mesh模型,而且定量上與當前最好的方法相比也實現(xiàn)了更高的重建精度。

11.針對行人重識別的姿態(tài)歸一化的圖像生成方法

Pose-Normalized Image Generation for Person Re-identification

該論文由騰訊AI Lab與復旦大學、倫敦瑪麗皇后大學等合作完成。行人重識別問題通常面臨兩大主要的挑戰(zhàn):(1) 缺乏大量出現(xiàn)在多個監(jiān)控視頻下的行人訓練數(shù)據(jù);(2)需求在巨大姿態(tài)變化的數(shù)據(jù)中訓練學習到對身份信息敏感、且具有視角不變性的特征。在本論文工作中,提出了一個全新的深度圖像生成模型,通過生成逼真的特定姿態(tài)下的行人圖片來解決上述兩個難點。該模型基于對抗生成網(wǎng)絡(GAN)進行改進,實現(xiàn)行人重識別問題中的行人姿態(tài)歸一化目標,由此本文命名為姿態(tài)歸一化對抗生成網(wǎng)絡(PN-GAN)。具體地,研究者利用姿態(tài)歸一化對抗生成網(wǎng)絡生成額外不同姿態(tài)的行人圖片,從中學習到一種新的具有姿態(tài)不變性的行人特征。大量實驗結果表明該特征可以很好的與原始行人圖片特征形成互補,從而提升行人重識別任務的準確度。更重要的是,在本論文中,考慮并提出了一種更具真實適用性的無監(jiān)督學習問題,并且通過實驗證明該模型在該問題下具有潛在的強大的泛化能力,即對于一個全新的行人重識別數(shù)據(jù)或行人監(jiān)控網(wǎng)絡,該模型可以在不進行任何微調訓練的前提下取得較好的精度。

12.深入研究深度信息: 利用語意關聯(lián)和關注度驅動損失函數(shù)進行單目深度估計

Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss

該論文由騰訊AI Lab與香港城市大學、美國伊利諾伊州大學香檳城分校合作完成。機器學習技術提升了單目圖像的深度估計效果,研究者觀察到在現(xiàn)有的訓練數(shù)據(jù)中深度圖像的像素值呈現(xiàn)出一個長尾分布。然而,大部分已有方法并未特別處理深度區(qū)域在圖像中的分布不平衡問題,從而導致其模型在估計圖像中遠距離區(qū)域時性能受限。在本文中,研究者調研了長尾分布的特性,深入挖掘圖像中遠距離區(qū)域并提出一種由關注度驅動的損失函數(shù)來監(jiān)督式的訓練神經(jīng)網(wǎng)絡。除此之外,為了更好的利用圖像的語義信息進行單目深度估計,研究者提出了一個協(xié)同網(wǎng)絡從而自動的學習這兩個任務的共通性。在關注度驅動的損失函數(shù)和協(xié)同網(wǎng)絡的共同作用下,圖像的深度估計和語義標注性能得到了相互提升。研究者在挑戰(zhàn)性的室內(nèi)數(shù)據(jù)庫進行了實驗,其結果表明本文提出的方法在單目深度估計和語義標注任務中取得了最優(yōu)的效果。

13.針對語義分割和單目深度預測的聯(lián)合任務遞歸學習

Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation

該論文由騰訊AI Lab與南京理工大學合作完成。本文提出了一種全新的聯(lián)合任務遞歸學習的框架,用于聯(lián)合解決語義分割和單目深度預測問題。該模型能依靠序列化的任務級別的相互作用遞歸地改善兩個任務的結果。為了兩個任務能相互促進,研究者將它們的相互作用嵌入到任務注意力模塊(TAM)來自適應地增強兩個任務的對應相關的模式特征。而且,為了讓預測更可信,研究者通過顯式連接之前的響應,將兩個任務過去的學習經(jīng)歷傳播到下一次網(wǎng)絡預測。任務級別的相互作用序列最終演化成從粗到細的尺度遞變,這樣所需要的細節(jié)信息能夠漸進式地重建出來。在NYU depth v2和SUN RGB-D兩個數(shù)據(jù)集上的實驗結果表明本文提出的方法能夠取得最前沿的單目深度預測和圖像語義分割結果。

14.模塊化生成對抗網(wǎng)絡

Modular Generative Adversarial Networks

該論文由騰訊AI Lab與英屬哥倫比亞大學合作完成。現(xiàn)有多領域圖像變換方法嘗試用一個單一模型取得映射結果。然而,這些方法的可擴展性和魯棒性有限。受模塊網(wǎng)絡啟發(fā),本文提出了一種含有多個可重復利用且兼容模塊的多領域圖像變換模型ModularGAN,來實現(xiàn)不同功能的圖像變換。這些模塊可同時訓練,并且可以根據(jù)圖像變換涉及的領域被選擇來聯(lián)合使用以組建不同結構的網(wǎng)絡。這賦予ModularGAN優(yōu)異的可擴展性用以變換圖像到任意希望的領域。實驗結果顯示,該模型不僅展現(xiàn)出引人注目的視覺效果,并且能在多領域臉部特征遷移的任務上超過現(xiàn)有最優(yōu)的方法。

15.基于單張圖片的人像虛化效果生成

Rendering Portraitures from Monocular Camera and Beyond

該論文由騰訊AI Lab與清華大學、加州大學默賽德分校、英偉達合作完成。淺景深是攝影的一種藝術效果,通常需要單鏡頭反光相機和某些攝影技巧來產(chǎn)生這樣的效果。最近,手機的雙鏡頭被用來估計場景的深度,并模擬了肖像拍攝的效果。然而,這種技術不能應用到已經(jīng)拍攝的照片上,而且對于拍攝對象與攝像機距離很近的人像拍攝應用中。本文中,提出了一種全自動方法實現(xiàn)單目照相機的肖像渲染。具體地,研究者首先利用卷積神經(jīng)網(wǎng)絡來估計一個輸入圖像的相對深度和肖像分割圖。由于來自單張圖片的初始分割結果通常較為粗糙且缺少細節(jié),因此研究者進一步學習相鄰像素間的相互關系來改進分割結果。通過改進的分割估計和深度結果,研究者利用條件隨機場和摳像技術對圖像進行模糊渲染。另外,研究者訓練了空間變換的遞歸神經(jīng)網(wǎng)絡來加速渲染過程。大量實驗驗證,本文提出的方法相對現(xiàn)有方法具有更好的人像虛化效果。

16. 面向目標檢測任務的深度特征金字塔再組合

Deep Feature Pyramid Reconfiguration for Object Detection

該論文由騰訊AI Lab與清華大學合作完成。目前最好的目標檢測器大多通過特征金字塔來學習多尺度表示從而取得更高的檢測精度。然而,當前特征金字塔的設計在如何整合不同尺度的語義信息方面仍然不夠高效。為此,本文在調研當前主流特征金字塔方法的基礎上把特征金字塔轉換為特征的再組合過程,創(chuàng)造性地提出了一種高度非線性但是計算快速的結構將底層表示和高層語義特征進行整合。具體而言,該網(wǎng)絡由兩個模塊組成:全局注意力和局部再組合。這兩個模塊分布能全局和局部地去在不同的空間和尺度上提取任務相關的特征。重要的是,這兩個模塊具有輕量級、可嵌入和可端到端訓練的優(yōu)點。在基于SSD的框架上,該模型取得里比原始模型及其他變體方法明顯更好的檢測精度,而且沒有犧牲實時的處理速度。

17.弱監(jiān)督下的區(qū)域提名網(wǎng)絡和目標檢測

Weakly Supervised Region Proposal Network and Object Detection

該論文由騰訊AI Lab與華中科技大學、德州大學阿靈頓分校、約翰斯·霍普金斯大學合作完成?;诰矸e網(wǎng)絡的區(qū)域提名生成方法(RPN)通過邊框標注進行訓練,是當前全監(jiān)督目標檢測器一個核心部分。然而弱監(jiān)督目標檢測器因為缺乏邊框標注,所以沒有得益于基于CNN的提名生成方法,而只能依賴傳統(tǒng)的提名生成方法,例如選擇性搜索法。這篇文章提出了一種只利用圖片級的標注的區(qū)域提名網(wǎng)絡,該網(wǎng)絡由兩個步驟組成。第一個步驟是通過探尋卷積網(wǎng)絡的低層信息來評價滑動窗口的目標顯著性;第二個步驟利用基于區(qū)域的卷積分類器來修正第一階段所生成的提名邊框。本文提出的網(wǎng)絡適用于弱監(jiān)督目標檢測,可以嵌入到任意弱監(jiān)督檢測器,并共享卷積計算。在PASCAL VOC和ImageNet的檢測數(shù)據(jù)集上的實驗表明,此方法比其他弱監(jiān)督檢測方法高大約3%的平均識別率。

18.局部多樣性要有多局部?以動態(tài)基礎集合強化行列式點過程以及在有監(jiān)督視頻摘要中的應用

How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization

該論文由騰訊AI Lab與中佛羅里達大學、愛荷華大學合作完成。大量的視頻內(nèi)容和高觀看頻率呼喚自動的視頻摘要算法,而這些算法的一個關鍵屬性是能夠對多樣性建模。如果視頻長達數(shù)小時——比如第一視角的視頻一般都很冗長,則有必要對視頻的局部多樣性建模。局部多樣性指的是對短時間片段的摘要是有多樣性的,但是如果一些片段在視頻中出現(xiàn)時間相距很遠,則允許它們同時出現(xiàn)在摘要中——即使它們看起來相似。在本文中,提出了一種基于行列式點過程(SeqDPP)的新的概率模型,用于動態(tài)控制視頻片段的時間跨度,并在該視頻片段上施加局部多樣性。研究者使SeqDPP能夠主動學習如何從輸入視頻中推斷局部多樣性的局部范圍。由此產(chǎn)生的模型對最大似然估計(MLE)類型的訓練方法提出極大的挑戰(zhàn),同時也受到暴露偏差和不可微分的評估指標的影響。為了解決這些問題,研究者設計了一種強化學習算法來訓練提出的模型。大量實驗驗證了該模型和新的學習算法優(yōu)于以前的方法,尤其明顯優(yōu)于基于MLE的方法。

19.提高行列式點過程以及在有監(jiān)督視頻摘要中的應用

Improving Sequential Determinantal Point Processes for Supervised Video Summarization

該論文由騰訊AI Lab與中佛羅里達大學、麻省理工學院、愛荷華大學合作完成?,F(xiàn)在制作視頻比以往任何時候都容易。無處不在的視頻數(shù)據(jù)已經(jīng)成為信息發(fā)現(xiàn)和提取的重要來源,但計算的挑戰(zhàn)也是無與倫比的。自動視頻摘要已成為瀏覽、搜索、和索引可視內(nèi)容的重要需求。本文采用時序行列式點過程(SeqDPPs)進行有監(jiān)督的視頻摘要,通過概率分布對多樣性進行建模。研究者從兩方面改進了這個模型。在學習方面,提出了一種大間距算法來解決SeqDPP中的暴露偏差問題。在建模方面,設計了一個新的概率分布,當它被集成到SeqDPP時,最終模型允許用戶輸入對摘要的期望長度。此外,還顯著拓展了現(xiàn)有的視頻摘要數(shù)據(jù)庫:1)加入更多的第一視角的視頻,2)收集高密度的用戶注釋,以及3)提高評估方案。研究者用該數(shù)據(jù)集進行了大量實驗(總共約60小時的視頻),并將該方法與幾個現(xiàn)有方法進行了比較。


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

騰訊 AI Lab 解讀19篇 ECCV 2018 入選論文

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說