丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

本文作者: 奕欣 2018-08-21 17:00 專題:KDD 2018
導(dǎo)語(yǔ):我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢?是否邀請(qǐng)自己院系當(dāng)中的另外一位教授參與進(jìn)來(lái)就能夠大大地提高項(xiàng)目成功的可能性?

雷鋒網(wǎng) AI 科技評(píng)論按:在即將召開(kāi)的數(shù)據(jù)挖掘頂會(huì) ACM SIGKDD 2018 上,圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)(DM2 Laboratory, CSE, University of Notre Dame)的論文《Multi-Type Itemset Embedding for Learning Behavior Success》被主會(huì)錄用。本文作者為圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)三年級(jí)博士生王達(dá)恒,導(dǎo)師是圣母大學(xué)計(jì)算機(jī)系助理教授蔣朦。

Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)

DM2 Laboratory, CSE, University of Notre Dame (圣母大學(xué)計(jì)算機(jī)系DM2研究團(tuán)隊(duì))

引出問(wèn)題

對(duì)于博士學(xué)生來(lái)說(shuō),如何提高科研質(zhì)量和產(chǎn)量一直是學(xué)術(shù)生涯里的中心話題。相較于高年級(jí)的博士生而言,剛踏入科研領(lǐng)域的低年級(jí)博士生往往由于缺乏足夠的知識(shí)積淀與經(jīng)驗(yàn),對(duì)于估計(jì)論文中稿的可能性與找出提高中稿率的辦法顯得力不從心。我自己作為一名剛剛跨過(guò)第二個(gè)學(xué)年的博士生,對(duì)這一點(diǎn)的體驗(yàn)格外深刻。

理想情況下,當(dāng)我們開(kāi)始一個(gè)新的以論文發(fā)表為導(dǎo)向的研究項(xiàng)目的時(shí)候,我們希望擁有合適的研究團(tuán)隊(duì)(其中包含多個(gè)技能互補(bǔ)的學(xué)者與專家),足夠清晰的研究問(wèn)題,科學(xué)合理的研究方法,以及定位恰當(dāng)?shù)哪繕?biāo)會(huì)議。但在現(xiàn)實(shí)中,我們往往很難在一開(kāi)始就達(dá)到這樣的配置。那么我們能否利用人工智能來(lái)從大量的成功經(jīng)驗(yàn)(以往成功發(fā)表的論文)當(dāng)中建立起預(yù)測(cè)模型來(lái)幫助我們判斷呢?更進(jìn)一步地,我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢?是否邀請(qǐng)自己院系當(dāng)中的另外一位教授參與進(jìn)來(lái)就能夠大大地提高項(xiàng)目成功的可能性?或者說(shuō)有哪些優(yōu)秀的文章值得一讀、甚至必須一讀,以提高論文中稿率?這些都是非常實(shí)用且有趣的問(wèn)題。

問(wèn)題難點(diǎn)

客觀上來(lái)說(shuō),每一篇學(xué)術(shù)論文都是一個(gè)非常復(fù)雜的行為產(chǎn)物,包含了多種不同類(lèi)型的上下文信息。常見(jiàn)的成功發(fā)表論文一般會(huì)有多個(gè)作者,一些框定研究領(lǐng)域和具體問(wèn)題的關(guān)鍵詞,大量的文獻(xiàn)引用,以及發(fā)表的會(huì)議信息。因此,準(zhǔn)確地判斷一篇論文在目標(biāo)會(huì)議上的命中率也是一個(gè)尤為困難的問(wèn)題。而從數(shù)據(jù)中千千萬(wàn)萬(wàn)的備選中找出最具備技能互補(bǔ)性的研究者來(lái)推薦給我們,更是困難。我們需要的是一個(gè)能夠有效地表示論文行為以及其上下文信息的載體。

傳統(tǒng)的方法是利用矩陣或者張量分解來(lái)得到低維度的數(shù)據(jù)對(duì)象表示。也就是說(shuō),我們可以構(gòu)建一個(gè)巨大的矩陣,其中包含了所有論文以及上下文項(xiàng)的信息,然后通過(guò)分解這個(gè)矩陣來(lái)得到論文與上下文項(xiàng)的低維度表示。但這這并不適用于多個(gè)上下文項(xiàng)屬于同一種類(lèi)型的情況,例如在一篇論文中有多個(gè)作者與引用。而當(dāng)我們的數(shù)據(jù)量變得更大的時(shí)候,用單個(gè)龐大的矩陣來(lái)表示整個(gè)數(shù)據(jù)集顯然也不是個(gè)高效的選擇。

表征學(xué)習(xí)的方法為我們提供了一些較好的思路:如果我們能夠?qū)W習(xí)到論文以及其包含的上下文項(xiàng)的向量表征的話,我們關(guān)心的預(yù)測(cè)以及推薦問(wèn)題將會(huì)迎刃而解。值得提到的是近兩年比較流行網(wǎng)絡(luò)嵌入學(xué)習(xí)。這些方法基于保存節(jié)點(diǎn)與節(jié)點(diǎn)之間鄰近度的思路,能夠?qū)⒕W(wǎng)中的節(jié)點(diǎn)快速地學(xué)習(xí)成向量表征。當(dāng)擁有了節(jié)點(diǎn)的向量表征之后,我們能夠輕易地利用向量?jī)?nèi)積來(lái)運(yùn)算出節(jié)點(diǎn)與節(jié)點(diǎn)之間的相似度,從而幫我們完成節(jié)點(diǎn)分類(lèi)與邊預(yù)測(cè)等任務(wù)。但網(wǎng)絡(luò)嵌入學(xué)習(xí)的方法并不能適用于我們的情況:我們關(guān)心的是由一組由多類(lèi)型上下文項(xiàng)構(gòu)成的論文是否能夠在未來(lái)成功發(fā)表,而不是該篇論文是否和某一個(gè)作者在網(wǎng)中有較高的相似度。

我們的方法

針對(duì)于這些問(wèn)題,我們提出了全新的嵌入學(xué)習(xí)方法。首先,我們將所有的行為看做一個(gè)多類(lèi)型集合的結(jié)構(gòu)。例如一篇論文就可以被看做一個(gè)由作者、關(guān)鍵詞、目標(biāo)會(huì)議、引用等四種類(lèi)型組成的集合結(jié)構(gòu);其中作者、關(guān)鍵詞、引用允許有多個(gè)上下文項(xiàng),而一篇論文只對(duì)應(yīng)一個(gè)上下文項(xiàng)。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

這樣,一個(gè)行為的向量表征就可以由其包含的上下文項(xiàng)表征通過(guò)加權(quán)求和得到。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法


我們進(jìn)一步通過(guò)運(yùn)算行為向量的二階模長(zhǎng)(取雙曲正玄值)來(lái)得到一個(gè)行為的成功率。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

之后,我們通過(guò)隨機(jī)梯度下降的方法來(lái)優(yōu)化實(shí)際行為成功率分布于預(yù)測(cè)行為成功率分布之間的距離,最終學(xué)習(xí)得到數(shù)據(jù)集中所有行為以及上下文項(xiàng)的低維度向量表征。

在這里需要強(qiáng)調(diào)的有兩點(diǎn):1. 我們?cè)诘途S度嵌入空間中保存了行為的成功特征(多類(lèi)型上下文項(xiàng)集合的結(jié)構(gòu));2. 在大多數(shù)時(shí)候,我們的數(shù)據(jù)集中只包含了觀測(cè)到的成功的行為,而不包含失敗的行為數(shù)據(jù)。因此,我們也需要通過(guò)全新的負(fù)向采樣的方式來(lái)構(gòu)建訓(xùn)練負(fù)例。為此,我們提出了兩種創(chuàng)新的多類(lèi)型上下文項(xiàng)集合負(fù)向采樣方法。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

在第一種負(fù)向采樣方法中,我們要求生成的負(fù)例需要與對(duì)應(yīng)的正例擁有相同的上下文項(xiàng)數(shù)量。這樣,我們能夠避免完全隨機(jī)采樣所造成的不合理的負(fù)例子。而很多時(shí)候,我們會(huì)發(fā)現(xiàn)某一些類(lèi)型的上下文項(xiàng)帶有一些特點(diǎn)。例如一篇文章可以對(duì)應(yīng)多個(gè)作者,但通常只對(duì)應(yīng)一個(gè)目標(biāo)會(huì)議。我們?cè)诖嗽O(shè)計(jì)了我們更精細(xì)的第二種負(fù)向采樣方法:要求生成負(fù)例的時(shí)候遵循正例的類(lèi)型頻率分布。這樣,我們能夠生成更近似于正例但是并不存在的負(fù)例用于訓(xùn)練。

實(shí)驗(yàn)結(jié)果

我們搜集了接近一萬(wàn)篇公開(kāi)發(fā)表的計(jì)算機(jī)領(lǐng)域相關(guān)論文用于實(shí)驗(yàn)。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

在預(yù)測(cè)任務(wù)當(dāng)中,我們的模型表現(xiàn)優(yōu)于所有網(wǎng)嵌入學(xué)習(xí)模型(LINE,DeepWalk,Node2Vec,Metapath2Vec)以及經(jīng)典的降維模型 PCA。其中,第二種負(fù)向采樣方法(Pn)優(yōu)于第一種負(fù)向采樣方法(Pt)。 而且當(dāng)我們?cè)O(shè)置相對(duì)較高的權(quán)重給作者類(lèi)型的時(shí)候,我們能得到整體最優(yōu)的效果。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

在推薦任務(wù)中,我們能得到一致的結(jié)論,我們的模型同樣優(yōu)于其他模型。特別是對(duì)于相對(duì)較難的推薦作者任務(wù)和推薦引用任務(wù)(總量分別為12300與18971),我們的模型擁有更明顯的優(yōu)勢(shì)。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

對(duì)于我們模型的優(yōu)勢(shì),一個(gè)更直觀的方法是把測(cè)試?yán)姓鎸?shí)的文章與假文章在低維度嵌入空間中可視化出來(lái)。我們可以看到左邊的真實(shí)論文向量在空間中明顯地延伸;而假論文的向量接近于原點(diǎn)。這樣一長(zhǎng)一短的文章向量顯示了我們的預(yù)測(cè)模型有足夠的能力去鑒別真實(shí)論文與假論文之間的差別,從而提供準(zhǔn)確地命中率預(yù)測(cè)給我們。

有趣的發(fā)現(xiàn)

另外,我們?cè)趯?shí)驗(yàn)過(guò)程中也有一些有趣的發(fā)現(xiàn)。

我們另外從Google Scholar中搜集了測(cè)試?yán)姓鎸?shí)論文的引用數(shù)量。從圖中我們能夠發(fā)現(xiàn)在我們模型中得到更高預(yù)測(cè)命中率的論文相較于預(yù)測(cè)命中率更低的論文明顯得到了更多次的引用。這樣的結(jié)論幾乎出現(xiàn)在2001至2015所有的年份當(dāng)中。

 人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

最后,希望我們的發(fā)現(xiàn)與研究對(duì)你有所幫助。

原版論文請(qǐng)參照:

Wang, D., Jiang, M., Zeng, Q., Eberhart, Z., & Chawla, N. V. (2018, July). Multi-Type Itemset Embedding for Learning Behavior Success. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 2397-2406). ACM.

論文原文可移步雷鋒網(wǎng)AI研習(xí)社社區(qū)資源區(qū)下載。 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

人工智能告訴你如何組隊(duì)發(fā)文章?KDD 2018論文提出多元多類(lèi)型集合的表征學(xué)習(xí)方法

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)