丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給雪莉?休斯敦
發(fā)送

0

騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017

本文作者: 雪莉?休斯敦 編輯:郭奕欣 2017-07-23 13:40 專題:CVPR 2017
導語:騰訊AI Lab有六篇論文入選CVPR,下面我們逐一介紹入選的幾篇論文。

CVPR是近十年來計算機視覺領(lǐng)域全球最有影響力、內(nèi)容最全面的頂級學術(shù)會議,由全球最大的非營利性專業(yè)技術(shù)學會IEEE(電氣和電子工程師協(xié)會)主辦。2017谷歌學術(shù)指標(Google Scholar)按論文引用率排名, CVPR位列計算機視覺領(lǐng)域榜首。據(jù)雷鋒網(wǎng)AI科技評論了解,今年CVPR審核了2620篇文章,最終收錄783篇,錄取率29%,口頭報告錄取率僅2.65%。

騰訊AI Lab計算機視覺總監(jiān)劉威博士介紹到,「CVPR的口頭報告一般是當年最前沿的研究課題,在學界和工業(yè)界都影響很大,每年都集齊如斯坦福大學和谷歌等全球最知名高校和科技公司。

今年,騰訊AI Lab有六篇論文入選CVPR,下面雷鋒網(wǎng)AI科技評論將逐一介紹這幾篇論文的摘要。 

論文一:《實時視頻風格轉(zhuǎn)化實現(xiàn)》——Real Time Neural Style Transfer for Videos

最近的研究工作已經(jīng)表明了使用前饋卷積神經(jīng)網(wǎng)絡來實現(xiàn)圖像快速風格轉(zhuǎn)變的可行性。而清華大學與騰訊AI實驗室的研究基于這一點在實踐上更近了一步,他們通過使用前饋網(wǎng)絡對視頻進行風格轉(zhuǎn)化,同時還保持了風格化視頻幀圖像的時間一致性。在《實時視頻風格轉(zhuǎn)化實現(xiàn)》這篇論文中,作者介紹到,他們所使用的前饋網(wǎng)絡是通過強制執(zhí)行連續(xù)幀的輸出既保持原有的風格又具有良好的連續(xù)性進行的訓練得到的。更具體的,作者提出了一種混合損失(hybrid loss)理論,充分利用輸入畫面幀的畫面信息,圖像的風格信息和連續(xù)幀的時間信息對圖像進行處理。為了計算在訓練階段的時間損失,作者提出了一種全新的兩幀協(xié)同訓練的機制。與原先直接硬性的將已有的畫面風格轉(zhuǎn)入視頻的方法相比,這種全新的方式摒除了原有方法對耗時優(yōu)化的依賴,即可保持畫面的時間連續(xù)性,又消除了畫面閃爍的問題,確保視頻風格遷移實時、高質(zhì)、高效和完整性,從而實現(xiàn)更好的視覺欣賞效果。

論文鏈接:Real Time Neural Style Transfer for Videos

論文二:《基于病理圖片預測方法——WSISA》——WSISA: Making Survival Prediction from Whole Slide Histopathological Images

德州大學阿靈頓分校(University of Texas-Alington)與騰訊AI實驗室提出了就基于病理圖片進行的病人生存預測方法——WSISA,有效地支持大數(shù)據(jù)時代的精準個性化醫(yī)療。眾所周知的是,基于圖像的精準醫(yī)院技術(shù)很早就進入人們的視野,并可通過這種技術(shù)對癌癥病人進行更好的治療。然而,病理組織學的整幅圖像(WSI,Whole Slide Histopathological Image)的千兆像素(gigapixel)分辨率在計算量上否定了傳統(tǒng)生存模型在該領(lǐng)域的可行性。這種模型通常需要進行手動標記,并需在感興趣的區(qū)域(ROI,Region of Interest)進行區(qū)分,因此,在千兆像素的圖像中,計算機無法直接的通過區(qū)分出來的圖塊進行學習。另外,由于腫瘤的異質(zhì)性,通過一小部分的圖塊并不能完全代表病人的生存狀態(tài)。同時,用于生存預測訓練的病人樣本通常不足。這都給生存預測帶來難點。在這篇論文中,作者提出了一種有效的分析框架克服了上文介紹的難點,即WSISA,全尺寸、無標注、基于病理圖片的病人生存有效預測方法。首先通過自適應采樣方法提取每個WSI上的各個小圖塊(patch),然后將小圖塊進行分組劃分簇。作者提出了訓練基于深度卷積生存(DeepConvSurv)預測結(jié)果的累積模型來記性病人層面的預測。與現(xiàn)有的基于圖像的生存模型相比不同的是,這種模型可以有效地提取和利用WSI上所有可進行區(qū)分的小圖塊來進行預測。在目前的研究領(lǐng)域,這種方法還未有人提出過。通過論文中的方法,作者用三種數(shù)據(jù)集對膠質(zhì)瘤和非小細胞肺癌的生存預測進行了研究,研究結(jié)果證實了WSISA架構(gòu)可以極大程度的提高預測的精準性。

論文鏈接:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

論文三:《用于弱監(jiān)督對象定位的深度自學習》——Deep Self-Taught Learning for Weakly Supervised Object Localization

由新加坡國立大學(National University of Singapore)和騰訊AI實驗室聯(lián)合發(fā)布的論文《用于所監(jiān)督對象定位的深度自學習》提出的依靠檢測器自身段改進訓練樣本質(zhì)量,不斷增強檢測器性能的一種全新的深度自學習方法,破解了所監(jiān)督目標檢測問題中訓練樣本質(zhì)量低的瓶頸。大多數(shù)現(xiàn)有的弱監(jiān)督定位(WSL)方法通過對圖像級別的監(jiān)督學習識別到的特征區(qū)塊來進行探測器的學習。然而,這些特征不包含空間位置的相關(guān)信息,同時對探測器的學習來說,其所提供的樣本數(shù)據(jù)質(zhì)量都比較差。為了克服這樣的問題,本文提出了一種深度自學習方法,是檢測器學習獲取可靠的樣本對象特征并以此為基礎重新訓練自己。相應的,隨著探測器本身檢測能力的提高和提供的位置信息質(zhì)量的提高,于是便能進一步的提高較好質(zhì)量的數(shù)據(jù)。為了實現(xiàn)這樣的自學習,文中提出了一個種子樣本采集方法,通過圖像到對象的傳輸和密集的子圖采集獲取可靠的正樣本來進行探測器的初始化。作者進一步的提供了一種在線支持樣本收集計劃來動態(tài)地選擇最為可信的正樣本,并提供成熟的訓練方法對探測器進行訓練。為了防止探測器在訓練過程中陷入因過適應而造成的困境中,作者還引入了一種方法來引導自學習過程?;赑ASCAL 2007和2012的實驗結(jié)果則證實了這種方法相較于現(xiàn)有方法的顯著效率優(yōu)勢。

論文鏈接:Deep Self-Taught Learning for Weakly Supervised Object Localization

論文四:《多樣性圖像標注》——Diverse Image Annotation

由沙特阿拉伯的阿布多拉國王科技大學與騰訊AI實驗室聯(lián)合發(fā)表的論文《多樣圖像標注》提出了一種新的圖像自動標注方式,即用少量多樣性的標簽表達盡量多的圖像信息,其充分利用標簽之間的語義關(guān)系,從而使得自動標注的結(jié)果與人類標注的結(jié)果更加相近。DIA(多樣圖樣標注)的目標是使用有限數(shù)量的標簽對圖像進行描述,因此,使用的標簽需要涵蓋盡可能多的有用信息。相比于常規(guī)性的圖像標注任務,DIA要求的標簽不僅是對圖像的代表信息,還需要相互關(guān)聯(lián),從而減少冗余。為了實現(xiàn)這一目標,作者吧DIA設定為子集選擇問題,并基于有條件的DPP(Determinantal Point Process行列式點處理)模型(其同時具備代表性representation和多樣性diversity)。通過進一步地在候選標簽中探索語義層次和同義詞來選擇適宜的語義連接路徑。即為,在進行標簽選擇時,對同一個圖像進行標注時拋棄那些相近的語義,避免同時出現(xiàn)。這種限制正是被嵌入在有條件的DPP模型算法中。傳統(tǒng)標注方法中,標簽的選擇則僅關(guān)注了整體圖像的代表性(包括:準確性,查全率和F1得分)而正忽略了標簽的多樣性特征。因此,本論文所提出的新的方法是在傳統(tǒng)方法基礎上的一大提升。通過另一衍生主題的研究,可以證實文中所提出的方法與人類標注的模式更為相近?;趦蓚€benchmark數(shù)據(jù)集的實驗結(jié)果則證實了通過這種方法做出的多樣性圖像標注更讓人滿意。

論文鏈接:Diverse Image Annotation

論文五:《利用對稱性和/或曼哈頓特性對單個和多個圖像進行三維物體結(jié)構(gòu)設計》——Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

這是一篇由騰訊AI實驗室、約翰霍普金斯大學和加州大學洛杉磯分校聯(lián)合發(fā)表的論文,其論述了利用對稱性和/或曼哈頓特性對單個和多個圖像進行三維物體結(jié)構(gòu)設計的方法。許多人工設計制造的物體都具有內(nèi)在對稱性和曼哈頓結(jié)構(gòu)特性。這篇論文建立通過假設一個正交投影模型,當單幅或多幅圖像均來自從一個類別的物體,比如,不同的汽車,提出了一個使用對稱性和曼哈頓特性對三維空間模型進行估計的方法。通過分析,僅使用單幅圖像中的曼哈頓特性就足以將所對應的相機投影進行恢復,同時,再使用對稱性將其3D結(jié)構(gòu)進行恢復。然而,因為單一圖像的閉塞性,很難從其中提取曼哈頓特性。延伸到多個圖像的狀態(tài),則可以使用物體的對稱性,這時不再需要曼哈頓軸。因此,通過這樣的思路,作者提出了一種新的剛性結(jié)構(gòu),它利用運動方法,利用物體的對稱性和使用同一個分類的多幅圖像作為輸入,從而進行三維物體的結(jié)構(gòu)設計。通過Pascal3D+數(shù)據(jù)集的實驗證實了這種方法相較于一般方法的明顯優(yōu)勢。

論文鏈接:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

論文六:《SCA-CNN:卷積神經(jīng)網(wǎng)絡中的注意力模型》——SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

由浙江大學、哥倫比亞大學,山東大學、騰訊AI實驗室和新加坡國立大學(National University of Singapore)聯(lián)合發(fā)表的論文《SCA-CNN:卷積神經(jīng)網(wǎng)絡中的注意力模型》針對圖像描述生成任務,基于卷積網(wǎng)絡的多層特征來動態(tài)生成文本描述,進而提出了空間及頻道感知上的注意力模型。當前,視覺注意力已經(jīng)成功的應用于結(jié)構(gòu)預測的任務,比如:視覺字幕和問答功能?,F(xiàn)有的視覺注意力模型通常是基于空間的,即通過對視覺注意力的空間概率建模重置對輸入圖像進行編碼的卷積神經(jīng)網(wǎng)絡(CNN)的最后一個轉(zhuǎn)換層特征映射。然而,研究認為,這種空間注意力不一定符合注意力機制,即結(jié)合語境固定時間的動態(tài)特征提取,因為卷積神經(jīng)網(wǎng)絡的特征是自然空間的,頻道感知的和多層的。在這篇論文中,作者引入了一種新穎的卷積神經(jīng)網(wǎng)絡,稱為SCA-CNN,其將空間和頻道感知注意力融合進卷積神經(jīng)網(wǎng)絡。在實現(xiàn)給圖像增加字幕的任務時,SCA-CNN動態(tài)的調(diào)整在多層特征映射中句子生成的語境,從而編譯視覺注意力的兩個特征:where(即在所層疊中注意力的空間位置)和what(即吸引注意力的頻道)。論文通過三種benchmark的圖像字幕數(shù)據(jù)集對提出的SCA-CNN架構(gòu)進行評估,包括:Flickr8K,F(xiàn)lickr30和MSCOCO。通過評估證實了基于SCA-CNN架構(gòu)進行圖像字幕注解相對于目前已有方法的明顯優(yōu)勢。

論文鏈接:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

雷鋒網(wǎng)整理編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說