1
本文作者: AI研習(xí)社 | 2019-12-25 17:06 |
Hi 歡迎來到Paper 研習(xí)社每日精選欄目,Paper 研習(xí)社(paper.yanxishe.com)每天都為你精選關(guān)于人工智能的前沿學(xué)術(shù)論文供你參考,以下是今日的精選內(nèi)容——
目錄
Deep Interest Evolution Network for Click--‐Through Rate Prediction
Scene Text Recognition from Two--‐Dimensional Perspective
ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games
edBB: Biometrics and Behavior for Assessing Remote Education
3D Volumetric Modeling with Introspective Neural Networks
Trainable Undersampling for Class--‐Imbalance Learning
Deep Audio Prior
CNN-generated images are surprisingly easy to spot... for now
UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing
Learning Singing From Speech
Deep Interest Evolution Network for Click--‐Through Rate Prediction
作者:Guorui Zhou / Na Mou / Ying Fan / Qi Pi / Weijie Bian / Chang Zhou / Xiaoqiang Zhu / Kun Gai
發(fā)表時(shí)間:2018/12/12
論文鏈接:https://paper.yanxishe.com/review/7813?from=leiphonecolumn1225
推薦理由:一.解決問題:旨在估計(jì)用戶點(diǎn)擊概率的點(diǎn)擊率(CTR)預(yù)測(cè)已成為廣告系統(tǒng)的核心任務(wù)之一。對(duì)于CTR預(yù)測(cè)模型,有必要捕獲用戶行為數(shù)據(jù)背后的潛在用戶興趣。此外,考慮到外部環(huán)境和內(nèi)部認(rèn)知的變化,用戶興趣會(huì)隨著時(shí)間動(dòng)態(tài)變化。有多種用于興趣建模的CTR預(yù)測(cè)方法,其中大多數(shù)將行為的表示直接視為興趣,而缺乏針對(duì)具體行為背后的潛在興趣的專門建模。而且,很少有工作考慮利益的變化趨勢(shì)。
二. 創(chuàng)新點(diǎn)在本文中,我們提出了一種新穎的模型,稱為深度興趣演化網(wǎng)絡(luò)(DIEN),用于CTR預(yù)測(cè)。具體來說,我們?cè)O(shè)計(jì)興趣提取器層以從歷史行為序列中捕獲時(shí)間興趣。在這一層,我們引入了輔助損失,以監(jiān)督每一步的利息提取。由于用戶興趣的多樣性,尤其是在電子商務(wù)系統(tǒng)中,我們提出了興趣演變層來捕獲相對(duì)于目標(biāo)商品的興趣演變過程。在興趣演化層,注意力機(jī)制被新穎地嵌入到順序結(jié)構(gòu)中,并且在興趣演化過程中增強(qiáng)了相對(duì)興趣的影響。在針對(duì)公共和工業(yè)數(shù)據(jù)集的實(shí)驗(yàn)中,DIEN的性能明顯優(yōu)于最新的解決方案。值得注意的是,DIEN已部署到淘寶的展示廣告系統(tǒng)中,其點(diǎn)擊率提高了20.7%。
Scene Text Recognition from Two--‐Dimensional Perspective
作者:Minghui Liao / Jian Zhang
發(fā)表時(shí)間:2018/12/20
論文鏈接:https://paper.yanxishe.com/review/7814?from=leiphonecolumn1225
推薦理由:受語音識(shí)別的啟發(fā),最近的最新算法大多將場(chǎng)景文本識(shí)別視為序列預(yù)測(cè)問題。盡管獲得了優(yōu)異的性能,但是這些方法通常忽略了一個(gè)重要事實(shí),即圖像中的文本實(shí)際上分布在二維空間中。它與語音本質(zhì)上是完全不同的,語音本質(zhì)上是一維信號(hào)。原則上,直接將文本特征壓縮為一維形式可能會(huì)丟失有用的信息并引入額外的噪音。在本文中,我們從二維角度處理場(chǎng)景文本識(shí)別。設(shè)計(jì)了一個(gè)簡(jiǎn)單但有效的模型,稱為字符注意完全卷積網(wǎng)絡(luò)(CA-FCN),用于識(shí)別任意形狀的文本。場(chǎng)景文本識(shí)別是通過語義分割網(wǎng)絡(luò)實(shí)現(xiàn)的,其中采用了字符的關(guān)注機(jī)制。結(jié)合詞形成模塊,CA-FCN可以同時(shí)識(shí)別腳本并預(yù)測(cè)每個(gè)字符的位置。實(shí)驗(yàn)表明,該算法在常規(guī)和非常規(guī)文本數(shù)據(jù)集上均優(yōu)于先前的方法。此外,事實(shí)證明,在文本檢測(cè)階段中精確定位的不精確性更為強(qiáng)大,這在實(shí)踐中非常普遍。
ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games
作者:Shmakov Alexander /Lanier John /McAleer Stephen /Achar Rohan /Lopes Cristina /Baldi Pierre
發(fā)表時(shí)間:2019/12/10
論文鏈接:https://paper.yanxishe.com/review/7827?from=leiphonecolumn1225
推薦理由:在多智能體強(qiáng)化學(xué)習(xí)中,最近的許多成功都發(fā)生在兩人零和游戲中。在這些游戲中,虛擬自我玩法和最小極大樹搜索等算法可以收斂到近似Nash平衡。雖然在兩人零和游戲中玩納什均衡策略是最佳的,但在n人一般和游戲中,它變成了信息量少得多的解決方案概念。盡管缺少令人滿意的解決方案概念,但在現(xiàn)實(shí)世界中,n玩家游戲構(gòu)成了絕大多數(shù)的多代理情況。在本文中,我們提出了一個(gè)用于研究n玩家游戲中強(qiáng)化學(xué)習(xí)的新框架。我們希望通過分析代理在這些環(huán)境中學(xué)到的行為,社區(qū)可以更好地理解這一重要的研究領(lǐng)域,并朝著有意義的解決方案概念和研究方向發(fā)展。有關(guān)此框架的實(shí)現(xiàn)和其他信息,請(qǐng)參見https://colosseumrl.igb.uci.edu/。
edBB: Biometrics and Behavior for Assessing Remote Education
作者:Hernandez-Ortega Javier /Daza Roberto /Morales Aythami /Fierrez Julian /Ortega-Garcia Javier
發(fā)表時(shí)間:2019/12/10
論文鏈接:https://paper.yanxishe.com/review/7828?from=leiphonecolumn1225
推薦理由:我們提供了一個(gè)用于遠(yuǎn)程教育中學(xué)生監(jiān)控的平臺(tái),該平臺(tái)由捕獲生物特征和行為數(shù)據(jù)的傳感器和軟件組成。我們定義了一組任務(wù)來獲取行為數(shù)據(jù),這些數(shù)據(jù)對(duì)于應(yīng)對(duì)遠(yuǎn)程評(píng)估過程中自動(dòng)學(xué)生監(jiān)控中的現(xiàn)有挑戰(zhàn)很有用。此外,我們發(fā)布了一個(gè)初始數(shù)據(jù)庫,其中包含來自20個(gè)不同用戶的數(shù)據(jù),這些用戶使用一組基本傳感器來完成這些任務(wù):攝像頭,麥克風(fēng),鼠標(biāo)和鍵盤;以及更先進(jìn)的傳感器:NIR相機(jī),智能手表,其他RGB相機(jī)和EEG頻段。來自計(jì)算機(jī)的信息(例如系統(tǒng)日志,MAC,IP或Web瀏覽歷史記錄)也將被存儲(chǔ)。在每個(gè)獲取會(huì)話期間,每個(gè)用戶完成三種不同類型的任務(wù),生成不同性質(zhì)的數(shù)據(jù):鼠標(biāo)和擊鍵動(dòng)態(tài),面部數(shù)據(jù)和音頻數(shù)據(jù)等。設(shè)計(jì)任務(wù)時(shí)要牢記兩個(gè)主要目標(biāo):i)分析此類生物統(tǒng)計(jì)和行為數(shù)據(jù)的能力以在遠(yuǎn)程評(píng)估期間檢測(cè)異常,并且ii)研究這些數(shù)據(jù)的能力,例如腦電圖,心電圖或近紅外視頻估計(jì)有關(guān)用戶的其他信息,例如他們的注意力水平,壓力的存在或他們的脈搏率。
3D Volumetric Modeling with Introspective Neural Networks
作者:Jingjing Li / Mengmeng Jing / Ke Lu / Lei Zhu / Yang Yang / Zi Huang
發(fā)表時(shí)間:2018/12/20
論文鏈接:https://paper.yanxishe.com/review/7829?from=leiphonecolumn1225
推薦理由:零樣本學(xué)習(xí)(ZSL)和冷啟動(dòng)推薦(CSR)分別是計(jì)算機(jī)視覺和推薦系統(tǒng)中的兩個(gè)難題。通常,在不同社區(qū)中對(duì)它們進(jìn)行獨(dú)立調(diào)查。但是,本文揭示了ZSL和CSR是相同意圖的兩個(gè)擴(kuò)展。例如,它們都試圖預(yù)測(cè)看不見的類,并涉及兩個(gè)空間,一個(gè)空間用于直接特征表示,另一個(gè)空間用于補(bǔ)充描述。但是,沒有從ZSL角度解決CSR的現(xiàn)有方法。
這項(xiàng)工作首次將CSR公式化為ZSL問題,并提出了量身定制的ZSL方法來處理CSR。具體來說,我們提出了一種低階線性自動(dòng)編碼器(LLAE),它在本文中挑戰(zhàn)了三個(gè)關(guān)鍵點(diǎn),即域移位,偽相關(guān)和計(jì)算效率。LLAE由兩部分組成,低級(jí)編碼器將用戶行為映射為用戶屬性,對(duì)稱解碼器根據(jù)用戶屬性重建用戶行為。在ZSL和CSR任務(wù)上進(jìn)行的大量實(shí)驗(yàn)證明了該方法是雙贏的,即,不僅ZSL模型可以處理CSR,而且與幾種傳統(tǒng)的最新方法相比,其性能也得到了顯著改善。CSR的考慮也可以使ZSL受益。
Trainable Undersampling for Class--‐Imbalance Learning
作者:Minlong Peng1 / Qi Zhang1 / Xiaoyu Xing1 / Tao Gui1 / Xuanjing Huang1 Yu-Gang Jiang1
發(fā)表時(shí)間:2018/12/20
論文鏈接:https://paper.yanxishe.com/review/7830?from=leiphonecolumn1225
推薦理由:
一 解決問題
欠采樣已廣泛應(yīng)用于班級(jí)不平衡學(xué)習(xí)領(lǐng)域。大多數(shù)現(xiàn)有欠采樣方法的主要缺陷是它們的數(shù)據(jù)采樣策略是基于啟發(fā)式的,并且與所使用的分類和評(píng)估指標(biāo)無關(guān)。因此,他們可能會(huì)在數(shù)據(jù)采樣過程中為分類器丟棄翔實(shí)的實(shí)例
二 創(chuàng)新點(diǎn)
在這項(xiàng)工作中,我們提出了一種基于欠采樣的元學(xué)習(xí)方法來解決此問題。該方法的關(guān)鍵思想是對(duì)數(shù)據(jù)采樣器進(jìn)行參數(shù)設(shè)置,并對(duì)其進(jìn)行訓(xùn)練,以優(yōu)化評(píng)估指標(biāo)上的分類性能。我們通過強(qiáng)化學(xué)習(xí)解決了用于訓(xùn)練數(shù)據(jù)采樣器的不可微優(yōu)化問題。通過將評(píng)估指標(biāo)優(yōu)化合并到數(shù)據(jù)采樣過程中,所提出的方法可以了解對(duì)于給定的分類和評(píng)估指標(biāo)應(yīng)丟棄哪個(gè)實(shí)例。另外,作為數(shù)據(jù)級(jí)別的操作,此方法可以輕松地應(yīng)用于任意評(píng)估指標(biāo)和分類,包括非參數(shù)評(píng)估指標(biāo)和分類(例如C4.5和KNN)。
Deep Audio Prior
作者:Tian Yapeng /Xu Chenliang /Li Dingzeyu
發(fā)表時(shí)間:2019/12/21
論文鏈接:https://paper.yanxishe.com/review/7831?from=leiphonecolumn1225
推薦理由:眾所周知,深度卷積神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)從大量數(shù)據(jù)中提取緊湊而強(qiáng)大的數(shù)據(jù)。我們有興趣在沒有訓(xùn)練數(shù)據(jù)集的情況下應(yīng)用深度網(wǎng)絡(luò)。
在本文中,作者介紹了深音頻先驗(yàn)(DAP),它利用了網(wǎng)絡(luò)的結(jié)構(gòu)和單個(gè)音頻文件中的時(shí)間信息。具體而言,作者證明了在解決具有挑戰(zhàn)性的音頻問題(例如通用盲源分離,交互式音頻編輯,音頻紋理合成和音頻共分離)之前,可以將隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)與經(jīng)過精心設(shè)計(jì)的音頻一起使用。為了了解先驗(yàn)音頻的魯棒性,作者構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集\ emph {Universal-150},用于使用各種聲源進(jìn)行通用聲源分離。在定性和定量評(píng)估方面,其顯示出比以前的作品更好的音頻結(jié)果。作者還將進(jìn)行徹底的消融研究,以驗(yàn)證我們的設(shè)計(jì)選擇。
CNN-generated images are surprisingly easy to spot... for now
作者:Wang Sheng-Yu /Wang Oliver /Zhang Richard /Owens Andrew /Efros Alexei A.
發(fā)表時(shí)間:2019/12/23
論文鏈接:https://paper.yanxishe.com/review/7834?from=leiphonecolumn1225
推薦理由:在這項(xiàng)工作中,作者詢問是否有可能創(chuàng)建一個(gè)“通用”檢測(cè)器,以區(qū)分CNN生成的真實(shí)圖像,而與所使用的體系結(jié)構(gòu)或數(shù)據(jù)集無關(guān)。
為了測(cè)試這一點(diǎn),作者收集了一個(gè)由11種不同的基于CNN的圖像生成器模型生成的偽圖像組成的數(shù)據(jù)集,這些模型被選擇來跨越當(dāng)今常用架構(gòu)的空間(ProGAN,StyleGAN,BigGAN,CycleGAN,StarGAN,GauGAN,DeepFakes,級(jí)聯(lián)精煉)網(wǎng)絡(luò),隱式最大似然估計(jì),二階注意力超分辨率,黑暗中看到)。
作者證明,經(jīng)過精心的預(yù)處理和后處理以及數(shù)據(jù)增強(qiáng),僅在一個(gè)特定的CNN生成器(ProGAN)上進(jìn)行訓(xùn)練的標(biāo)準(zhǔn)圖像分類器就可以令人驚奇地將其很好地推廣到看不見的架構(gòu),數(shù)據(jù)集和訓(xùn)練方法(包括剛剛發(fā)布的StyleGAN2)。我們的發(fā)現(xiàn)表明,當(dāng)今的CNN生成的圖像存在一些常見的系統(tǒng)缺陷,從而阻止了它們實(shí)現(xiàn)逼真的圖像合成,這是一種令人著迷的可能性。
UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing
作者:Wang Nan /Zhou Yabin /Han Fenglei /Zhu Haitao /Zheng Yaojing
發(fā)表時(shí)間:2019/12/21
論文鏈接:https://paper.yanxishe.com/review/7835?from=leiphonecolumn1225
推薦理由:在現(xiàn)實(shí)世界的水下環(huán)境中,海底資源的勘探,水下考古學(xué)和水下捕魚都依賴于各種傳感器,視覺傳感器由于其信息量高,非侵入性和被動(dòng)性而成為最重要的傳感器。但是,與波長(zhǎng)有關(guān)的光衰減和反向散射會(huì)導(dǎo)致顏色失真和霧度效應(yīng),從而降低圖像的可見性。
為了解決這個(gè)問題,首先,作者提出了一種無監(jiān)督的生成對(duì)抗網(wǎng)絡(luò)(GAN),用于基于改進(jìn)的水下成像模型從空中圖像和深度圖對(duì)生成逼真的水下圖像(顏色失真和霧度效果)。其次,采用合成水下數(shù)據(jù)集進(jìn)行有效訓(xùn)練的U-Net,用于色彩還原和除霧。作者的模型使用端到端自動(dòng)編碼器網(wǎng)絡(luò)直接重建水下清晰圖像,同時(shí)保持場(chǎng)景內(nèi)容結(jié)構(gòu)的相似性。
通過作者的方法獲得的結(jié)果定性和定量地與現(xiàn)有方法進(jìn)行了比較。通過該模型獲得的實(shí)驗(yàn)結(jié)果證明了在開放的現(xiàn)實(shí)世界水下數(shù)據(jù)集上的良好性能,并且在一個(gè)NVIDIA 1060 GPU上運(yùn)行時(shí),處理速度可以達(dá)到125FPS。源代碼和示例數(shù)據(jù)集可通過此https URL公開獲得。
Learning Singing From Speech
作者:Zhang Liqiang /Yu Chengzhu /Lu Heng /Weng Chao /Wu Yusong /Xie Xiang /Li Zijin /Yu Dong
發(fā)表時(shí)間:2019/12/20
論文鏈接:https://paper.yanxishe.com/review/7836?from=leiphonecolumn1225
推薦理由:作者提出了一種算法,該算法能夠在僅給出正常語音樣本的情況下合成高質(zhì)量目標(biāo)說話者的歌聲。提出的算法首先將語音和歌唱合成整合到一個(gè)統(tǒng)一的框架中,并學(xué)習(xí)語音和歌唱合成任務(wù)之間可共享的通用說話人嵌入。具體而言,在統(tǒng)一的訓(xùn)練框架中,將通過語音合成目標(biāo)從正常語音中學(xué)到的說話者嵌入與通過語音合成目標(biāo)從演唱樣本中學(xué)習(xí)的說話者共享。這使得有經(jīng)驗(yàn)的演講者可以嵌入可口述的演講和演唱形式。
作者評(píng)估了所提出算法在歌唱語音轉(zhuǎn)換任務(wù)上的效果,該算法的原始歌唱內(nèi)容被純粹從正常說話樣本中獲悉的另一位演講者的聲音音色所覆蓋。作者的實(shí)驗(yàn)表明,所提出的算法會(huì)產(chǎn)生高質(zhì)量的歌聲,聽起來僅與目標(biāo)說話者的語音(僅給出正常語音樣本)高度相似。作者相信,提出的算法將為更廣泛的用戶和應(yīng)用打開唱歌合成和轉(zhuǎn)換的新機(jī)會(huì)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。