0
雷鋒網(wǎng) AI 科技評(píng)論按:作為世界數(shù)據(jù)挖掘領(lǐng)域最高級(jí)別的國(guó)際會(huì)議,ACM SIGKDD 在近期發(fā)布了 2019 年度的征稿通知。通知表明會(huì)議今年采取雙盲審制,結(jié)果出爐前投稿者不得擅自將論文發(fā)布于 arXiv 等平臺(tái)上。此外,只有那些在文章中公開研究代碼和數(shù)據(jù)的論文才有資格競(jìng)選「最佳論文」一獎(jiǎng)。
按官網(wǎng)最新發(fā)布的科研類(Research)征稿通知表明,今年的大會(huì)將采取雙盲審核制,所有提交論文必須嚴(yán)格按照相關(guān)規(guī)定進(jìn)行撰寫,不得包含作者姓名和附屬機(jī)構(gòu)信息。通知中特別強(qiáng)調(diào),在投稿截止以前或在投稿審核過程中以技術(shù)報(bào)告等形式對(duì)外公開(尤其是 arXiv)發(fā)表的文章,將會(huì)被大會(huì)拒稿。
內(nèi)容截自官網(wǎng)
至于偏重實(shí)際問題解決的應(yīng)用數(shù)據(jù)科學(xué)類(Applied Data Science Track)征稿則不作此要求。
內(nèi)容截自官網(wǎng)
今年官網(wǎng)將「可重現(xiàn)性」作為重點(diǎn)列為「重要政策」的首條,鼓勵(lì)作者們在文中公開研究代碼和數(shù)據(jù)、匯報(bào)方法在公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并盡可能完整描述所使用的算法和資源。為了培養(yǎng)共享風(fēng)氣,KDD 2019 規(guī)定只有在文章最后額外提交兩頁(yè)體現(xiàn)「可重現(xiàn)性」內(nèi)容的論文,才有資格競(jìng)選「最佳論文」一獎(jiǎng)。
無(wú)獨(dú)有偶,另一頂級(jí)人工智能會(huì)議 ICML 今年同樣做了類似規(guī)定。
內(nèi)容截自官網(wǎng)
至于選題(科研類)方面,KDD 今年的推薦選題范圍包括:
大數(shù)據(jù):用于文本和圖形分析、機(jī)器學(xué)習(xí)、優(yōu)化、并行和分布式數(shù)據(jù)挖掘(云+map-reduce)系統(tǒng)、作用于大數(shù)據(jù)的新穎算法和統(tǒng)計(jì)技術(shù)等。
數(shù)據(jù)科學(xué):分析科學(xué)和商業(yè)數(shù)據(jù)、社交網(wǎng)絡(luò)、時(shí)間序列算法;挖掘序列、流、文本、網(wǎng)絡(luò)、圖形、規(guī)則、模式、日志數(shù)據(jù)、時(shí)空數(shù)據(jù)、生物數(shù)據(jù);推薦系統(tǒng)、廣告計(jì)算、多媒體、金融和生物信息學(xué)等。
基礎(chǔ)研究:模型和算法、漸近分析;模型選擇、降維、關(guān)系/結(jié)構(gòu)化學(xué)習(xí)、矩陣和張量方法、概率和統(tǒng)計(jì)方法;深度學(xué)習(xí);流形學(xué)習(xí)、分類、聚類、回歸、半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí);個(gè)性化、安全和隱私和可視化等。
那些在新興主題上富有灼見的論文以及在推動(dòng)技術(shù)研究上具有重大貢獻(xiàn)的應(yīng)用型論文,也同樣受到科研類征稿委員會(huì)的歡迎。
有投稿 & 參會(huì)需求的同學(xué)劃重點(diǎn)了,今年的 KDD 大會(huì)將于 2019 年 8 月 4 日——8 日在美國(guó)阿拉斯加州安克雷奇市舉行,具體投稿時(shí)間安排如下:
投稿截止日期:2019 年 2 月 3 日
投稿接收通知:2019 年 4 月 28 日
論文定稿提交:2019 年 5 月 17 日
更多詳盡的 KDD 2019 征稿要求,可自行參閱:
征稿要求
https://www.kdd.org/kdd2019/calls/view/kdd-2019-call-for-research-papers
論文提交網(wǎng)址
最后,為了讓大家能夠更直觀地了解 KDD 大會(huì)在科研類論文接收上的喜好,進(jìn)而提高投稿命中率,雷鋒網(wǎng) AI 科技評(píng)論在此為大家整理了一份包含 KDD 大會(huì)歷年(2016——2018)科研類論文錄用情況、論文主題分布以及最佳論文的信息清單。此外,我們還轉(zhuǎn)載了一篇伊利諾伊香檳大學(xué)在讀博士生 Bihan Wen 關(guān)于頂會(huì)投稿寫作技巧的知乎回答,希望能對(duì)大家有所幫助。
附錄1:KDD 歷年接收論文情況
【2016年】
科研類論文錄用情況:
審核總數(shù)為 784 篇,收錄 142 篇。
接收論文主題分布:
內(nèi)容整體更偏重實(shí)際應(yīng)用中所產(chǎn)生的大規(guī)模數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),偏重解決實(shí)際問題。
Research Track 最佳論文:
FRAUDAR: Bounding Graph Fraud in the Face of Camouflage
作者:Bryan Hooi, Hyun Ah Song, Alex Beutel, Neil Shah, Kijung Shin, Christos Faloutsos(全來(lái)自 Carnegie Mellon University)
論文鏈接:http://www.cs.cmu.edu/~christos/PUBLICATIONS/kdd16-fraudar.pdf
摘要 :根據(jù)用戶和他們?cè)u(píng)論的產(chǎn)品,或跟隨者與被跟隨者的偶圖信息,我們應(yīng)當(dāng)如何識(shí)別虛假評(píng)論或跟風(fēng)評(píng)論?現(xiàn)存的欺詐檢測(cè)方法(譜檢測(cè)等)試圖識(shí)別結(jié)點(diǎn)的密集子圖表,這些結(jié)點(diǎn)與保留下來(lái)的圖表保持較少的聯(lián)系。這些欺詐者能夠使用「?jìng)窝b」手段,即通過用真誠(chéng)的目標(biāo)增添評(píng)論或跟隨評(píng)論,并使得這些評(píng)論看起來(lái)「常態(tài)化」來(lái)規(guī)避這些檢測(cè)方法。更為糟糕的是,有些欺詐者利用誠(chéng)實(shí)用戶的「黑客賬戶」,這種偽裝手段確實(shí)是有組織的。我們研究的聚焦點(diǎn)在于發(fā)現(xiàn)以偽裝手段或黑客賬戶存在的欺詐者。我們提出 FRAUDAR,一種用于 (a) 抵制偽裝手段,(b) 提供欺詐者有效性的上限,(c) 能夠有效應(yīng)用于真實(shí)數(shù)據(jù)的算法。各種各樣攻擊條件下獲得的實(shí)驗(yàn)結(jié)果表明,F(xiàn)RAUDAR 在檢測(cè)偽裝性欺詐和非偽裝性欺詐的精度方面都優(yōu)于其最大競(jìng)爭(zhēng)算法。此外,在運(yùn)用推特跟隨者-被跟隨者 14.7 億邊緣圖表的真實(shí)實(shí)驗(yàn)中,F(xiàn)RAUDAR 成功地檢測(cè)出一個(gè)包括 4000 多被檢測(cè)賬戶的子圖表,其中大多數(shù)擁有推特賬戶的人表示他們用的是跟隨者購(gòu)買的服務(wù)。
【2017年】
科研類論文錄用情況:
審核總數(shù)為 748 篇,收錄 130 篇,包括 64 篇 oral,66 篇 poster,錄用率分別占 8.6% 及 8.8%。
接收論文主題分布:
論文中最受歡迎的話題是:時(shí)間與時(shí)序數(shù)據(jù)(temporal and time-series data),圖算法(graph algorithms)。
Research Track 最佳論文:
Accelerating Innovation Through Analogy Mining
作者:Tom Hope (Hebrew University of Jerusalem);Joel Chan (Carnegie Mellon University);Aniket Kittur (Carnegie Mellon University);Dafna Shahaf (Hebrew University of Jerusalem)
論文鏈接:https://arxiv.org/pdf/1706.05585.pdf
摘要:大型概念資源庫(kù)(如美國(guó)專利數(shù)據(jù)庫(kù))可以向人們提供類似問題的解決方案的靈感,從而加速創(chuàng)新和發(fā)現(xiàn)。然而在這些龐大而凌亂的資源庫(kù)中發(fā)現(xiàn)有用的信息,對(duì)于人類或自動(dòng)化技術(shù)來(lái)說仍是一個(gè)挑戰(zhàn)。傳統(tǒng)的解決方法有,具有高度關(guān)系結(jié)構(gòu)(如謂詞演算表征)但非常稀疏,且成本很高的人工創(chuàng)建的數(shù)據(jù)庫(kù)。更為簡(jiǎn)單的機(jī)器學(xué)習(xí)/信息檢索相似性度量可以擴(kuò)展到大型的自然語(yǔ)言數(shù)據(jù)集,但很難解釋結(jié)構(gòu)相似性,而這又是類比的核心。這篇論文探討了學(xué)習(xí)更簡(jiǎn)單的結(jié)構(gòu)表征的可行性和價(jià)值,特別是「問題模式」,它規(guī)定了產(chǎn)品的目的,以及實(shí)現(xiàn)該目的的機(jī)制。論文中的方法結(jié)合眾包和 CNN,提取產(chǎn)品描述中的目的和機(jī)制向量表示。論文表明,這些學(xué)習(xí)到的向量能比傳統(tǒng)的信息檢索方法,以更高精度和更快速度找到類比。在一個(gè)思想實(shí)驗(yàn)中,模型檢索的類比能力提升了產(chǎn)生創(chuàng)意的可能性。研究結(jié)果表明,學(xué)習(xí)和利用較弱的結(jié)構(gòu)表征,是大規(guī)模計(jì)算類比的有效方法。
【2018年】
論文錄用情況:
審核總數(shù)為 983 篇,收錄 178 篇,包括 104 篇 oral,74 篇 poster,錄用率分別占 10.9% 及 7.5%。
接收論文主題分布:
深度學(xué)習(xí)仍占主流,不過監(jiān)督及無(wú)監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)等領(lǐng)域呈現(xiàn)新高。
Research Track 最佳論文:
Adversarial Attacks on Neural Networks for Graph Data
作者:Daniel Zügner (Technical University of Munich); Amir Akbarnejad (Technical University of Munich); Stephan Günnemann (Technical University of Munich)
論文鏈接:https://arxiv.org/pdf/1805.07984.pdf
摘要:應(yīng)用到圖的深度學(xué)習(xí)模型已經(jīng)在節(jié)點(diǎn)分類任務(wù)上實(shí)現(xiàn)了強(qiáng)大的性能。盡管此類模型數(shù)量激增,但目前仍未有研究涉及它們?cè)趯?duì)抗攻擊下的魯棒性。而在它們可能被應(yīng)用的領(lǐng)域(例如網(wǎng)頁(yè)),對(duì)抗攻擊是很常見的。圖深度學(xué)習(xí)模型會(huì)輕易地被欺騙嗎?在這篇論文中,我們介紹了首個(gè)在屬性圖上的對(duì)抗攻擊研究,具體而言,我們聚焦于圖卷積模型。除了測(cè)試時(shí)的攻擊以外,我們還解決了更具挑戰(zhàn)性的投毒/誘發(fā)型(poisoning/causative)攻擊,其中我們聚焦于機(jī)器學(xué)習(xí)模型的訓(xùn)練階段。
附錄 2 :《如何寫好一篇高質(zhì)量的IEEE/ACM Transaction級(jí)別的計(jì)算機(jī)科學(xué)論文?》
@ Bihan Wen(知乎 ID)
其他作者都說得很好,我認(rèn)為他們說的都是很正確地寫作之「道」。
我這里再補(bǔ)充幾點(diǎn)我的體會(huì),可以說是一些寫作之「術(shù)」。
雖然說只是一些技巧,但親測(cè)是對(duì)最后文章中與不中密切相關(guān)。在首先掌握了正確的「道」以后,其實(shí)成敗往往就在「術(shù)」上面。
首先聲明,我的研究領(lǐng)域是圖像/視頻/視覺/機(jī)器學(xué)習(xí)這一類,所以我的經(jīng)驗(yàn)有些可能僅僅適用于這個(gè)圈子。
這些內(nèi)容,我是同時(shí)從當(dāng)作者和當(dāng)審稿人兩邊的經(jīng)驗(yàn)總結(jié)而來(lái)的。
兵法講,打仗需要知己知彼。投稿中與不中,其實(shí)是取決于與審稿人的博弈。諸君切記....
"If you know the enemy and know yourself, you need not fear the result of a hundred battles.
If you know yourself but not the enemy, for every victory gained you will also suffer a defeat.
If you know neither the enemy nor yourself, you will succumb in every battle.」
-- Sun Tzu, The Art of War, 500bc
第一個(gè)術(shù),是寫作思路的正確認(rèn)識(shí)和調(diào)整。
我認(rèn)為計(jì)算機(jī)頂會(huì),和 IEEE TRANS 的投稿思路,其實(shí)略微有所不同:
投計(jì)算機(jī)領(lǐng)域頂會(huì)的思路,之所以會(huì)不同于 IEEE TRANS,這里面的區(qū)別主要是因?yàn)閷徃逯贫炔惶粯樱喉敃?huì)的審稿人一般會(huì)要求在很短時(shí)間內(nèi),提交很多份稿件的審稿意見。這就意味著,他們可能很難非常仔細(xì)地去讀你文章的內(nèi)容,甚至更可能出現(xiàn)審稿人的專業(yè)并不是十分匹配文章領(lǐng)域這種現(xiàn)象。而 IEEE TRANS 一般會(huì)給審稿人相對(duì)寬松一點(diǎn)的審稿時(shí)間,我有時(shí)候在 deadline 前沒審?fù)辏€可以找 AE 要求延期。而且 IEEE TRANS 的審稿人,在看完文章的 abstract 之后如果發(fā)現(xiàn)研究興趣不想關(guān),是可以拒絕審稿的。所以我感覺這樣找到匹配的審稿人的概率更大,一般出來(lái)的 comment 也就更可能說中你文章的要害。
基于此,我認(rèn)為投頂會(huì)更需要注意,把你想要表達(dá)的 message,要簡(jiǎn)潔、直接、突出,在最顯眼的地方總結(jié)并告訴審稿人,甚至要做到 spoon feeding。之后你整篇文章的正文都是要為了這幾個(gè)主要 message(你的 novelty, contribution, highlight 等等)而服務(wù),做說明,或者是提供證據(jù)支持。把文章做得直接了當(dāng),因?yàn)轫敃?huì)在投稿之后,就一輪 rebuttal 你可以和審稿人交流,而且很大概率審稿人不太會(huì)修改之前的意見。所以第一輪審稿人是不是能很快抓到你的文章主旨,對(duì)他們的印象分非常重要。你方便審稿人,審稿人也就方便你。
投 IEEE TRANS 這類就有點(diǎn)不太一樣,因?yàn)榇蠖鄶?shù)時(shí)候,你初投稿只要質(zhì)量過關(guān)有干貨,都不太會(huì)被直接 rej,拿到 major rev 還是有機(jī)會(huì)通過修改最后被接受。所以你的側(cè)重點(diǎn)是要盡量讓內(nèi)容充實(shí),這也可以增加你文章的分量以及影響力。本來(lái)期刊的意義,就是需要把你的工作做完整做透,然后再總結(jié)出一套系統(tǒng)化的結(jié)論,所以刊物論文允許你自由發(fā)揮的空間就更多,你可以表達(dá)更加復(fù)雜更全面的 message。而會(huì)議論文,你需要做取舍,多余的東西不行就扔 supp,不要什么都往正文放,正文需要突出重點(diǎn)。
第二個(gè)術(shù),是對(duì)自己這個(gè)工作的定位,以決定要去投哪一個(gè)級(jí)別的刊物。
我一般會(huì)從三個(gè)緯度來(lái)衡量一個(gè)工作的質(zhì)量:(1)創(chuàng)新性,(2)理論證明度,(3)實(shí)驗(yàn)效果。
如果是一般 IEEE TRANS 這個(gè)檔次,比如 TIP, TSP 這類的接受論文,我認(rèn)為這三點(diǎn)要占兩點(diǎn)才有中的希望。如果三點(diǎn)都有都很強(qiáng),那么恭喜你,你可以很充容悠然地寫一篇 paper,然后期待 review 期間和審稿人談笑風(fēng)生了。如果這三點(diǎn)只有兩點(diǎn)很強(qiáng),那么你就需要注意一下寫作技巧了:要不你就要把你的這兩個(gè)主要賣點(diǎn)給做強(qiáng),比如你的實(shí)驗(yàn)結(jié)果是 state-of-the-art,你就要搞到 superior result;要不你的創(chuàng)新性開天辟地,但是效果不足,那你就要說明這個(gè) idea 在未來(lái)的工作中有很強(qiáng)的潛力;要不你的理論性很強(qiáng),那么你就要說明,很多應(yīng)用類的工作都需要你這個(gè)理論的支持,用以奠定基礎(chǔ)。
基本上,如果你在創(chuàng)新性,理論證明度和實(shí)驗(yàn)效果中,能有兩點(diǎn)很強(qiáng),你都可以博一把 IEEE TRANS 這個(gè)級(jí)別的。如果你只有一點(diǎn)站得住腳,那么我覺得你還是應(yīng)該理智地放棄,target 一個(gè)低級(jí)別的刊物比較好,因?yàn)槊鎸?duì)無(wú)盡的 review,一方面會(huì)占用你大量時(shí)間,一方面你的工作遲遲不能發(fā)表也會(huì)打擊你的士氣。
如果你的 target 是一些比較難中的 IEEE TRANS,比如 TPAMI,IJCV 這一類;或者你是打算投 CVPR,NIPS,ICML,KDD 這一類很難中的會(huì),那么我認(rèn)為一個(gè)合格應(yīng)該需要占據(jù)我提到的全部三點(diǎn)?;蛘呔退闫渲心骋稽c(diǎn)可能比較弱,那么其他兩點(diǎn)就需要很強(qiáng),再外加一點(diǎn)運(yùn)氣。
第三個(gè)術(shù),是關(guān)于實(shí)驗(yàn)部分:
我所在的領(lǐng)域,是很重視實(shí)驗(yàn)的可重復(fù)性。所以一般我審稿都會(huì)更 trust 那些在論文中,承諾會(huì)把代碼公開的工作。
如果你的工作,對(duì)應(yīng)的是一個(gè)在領(lǐng)域內(nèi)的標(biāo)準(zhǔn)應(yīng)用,比如圖像分類,圖像超分辨,等等,你一定要確保
你的對(duì)比算法 cover 了這個(gè)領(lǐng)域內(nèi)最新,最流行,和效果最好的那幾個(gè)。
你所用的數(shù)據(jù)庫(kù)和實(shí)驗(yàn)設(shè)定,一定要是領(lǐng)域內(nèi)大家所認(rèn)定標(biāo)準(zhǔn)的。
你衡量結(jié)果的 metric 一定要是這個(gè)領(lǐng)域廣泛接受的。
你的算法一定要在 fair 的情況下和其他算法對(duì)比。
因?yàn)檫@四點(diǎn)任何一個(gè)沒做對(duì),都會(huì)有機(jī)會(huì)被 reviewer 質(zhì)疑,然后要求修改實(shí)驗(yàn)。我認(rèn)為修改實(shí)驗(yàn)可能是文章修改里面最痛苦的一部分。。。所以千萬(wàn)要一開始就防患于未然。
個(gè)人認(rèn)為這些都是很適用的技巧,希望對(duì)你有幫助。
先寫這些,如果大家感興趣,我再來(lái)補(bǔ)充。
GL 勇士們!
鏈接:https://www.zhihu.com/question/22790506/answer/316005175
來(lái)源:知乎
附錄 3 :ACM SIGKDD 簡(jiǎn)介
ACM SIGKDD(國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì),Conference on Knowledge Discovery and Data Mining,,簡(jiǎn)稱 KDD)是世界數(shù)據(jù)挖掘領(lǐng)域的最高級(jí)別的國(guó)際會(huì)議,由 ACM(Association of Computing Machinery,計(jì)算機(jī)學(xué)會(huì))的數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專委會(huì)(SIGKDD)負(fù)責(zé)協(xié)調(diào)籌辦,被中國(guó)計(jì)算機(jī)協(xié)會(huì)薦為 A 類會(huì)議。自 1995 年以來(lái),KDD 已經(jīng)以大會(huì)的形式連續(xù)舉辦了二十余屆全球峰會(huì),作為數(shù)據(jù)挖掘領(lǐng)域最頂級(jí)的學(xué)術(shù)會(huì)議,KDD 大會(huì)以論文接收嚴(yán)格聞名,每年的接收率不超過 20%,因此頗受行業(yè)關(guān)注。
雷鋒網(wǎng) AI 科技評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。