0
本文作者: 叢末 | 2019-04-17 22:15 |
雷鋒網(wǎng) AI 科技評(píng)論按:亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(Pacific Asia Knowledge Discovery and Data Mining,PAKDD)是亞太地區(qū)數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)國(guó)際會(huì)議,旨在為數(shù)據(jù)挖掘相關(guān)領(lǐng)域的研究者和從業(yè)者提供一個(gè)可自由 分享經(jīng)驗(yàn)的國(guó)際化論壇,該會(huì)議在全球數(shù)據(jù)挖掘領(lǐng)域享有盛譽(yù),一直受到業(yè)內(nèi)各國(guó)科學(xué)家的高度重視和廣泛認(rèn)可。4 月 15 日至 17 日,第 23 屆 PAKDD 2019 在澳門(mén)隆重舉行,雷鋒網(wǎng) AI 科技評(píng)論前往現(xiàn)場(chǎng)為大家?guī)?lái)報(bào)道。
15 日的 PAKDD 2019 開(kāi)幕式上,南京大學(xué)周志華教授的精彩致辭拉開(kāi)了本次大會(huì)的序幕。他提到,今年 PAKDD 在澳門(mén)舉辦承載著兩項(xiàng)非凡的意義:一是今年恰逢澳門(mén)回歸中國(guó) 20 周年,這次會(huì)議能夠讓來(lái)自世界各國(guó)的領(lǐng)域研究者們見(jiàn)證澳門(mén)回歸中國(guó) 20 年以來(lái)的發(fā)展;二是目前中國(guó)在大力推進(jìn)以深圳、香港以及澳門(mén)為中心的粵港澳大灣區(qū)建設(shè),在之前的 2001 年以及 2011 年,PAKDD 曾先后選址香港、深圳召開(kāi),因此今年到訪澳門(mén),似乎也在冥冥之中呼應(yīng)著粵港澳大灣區(qū)的中心建設(shè),對(duì)于澳門(mén)的意義不言而喻。
PAKDD 2019 整場(chǎng)大會(huì)包括 4 場(chǎng)重磅演講( 3 場(chǎng) Keynote 演講+ 1 場(chǎng) PAKDD 2018 最具影響力論文展示)、20 場(chǎng) Oral Sessions、5 場(chǎng) Workshops 及 6 場(chǎng) Tutorials。下面就讓我們盤(pán)點(diǎn)一下本次大會(huì)需要關(guān)注的重點(diǎn)內(nèi)容。
今年大會(huì)共收到投遞論文 567 篇,最終收錄論文 137 篇,收錄率為 24.1%。整個(gè)審稿流程有 55 位 Senior PC 及 379 位 PC 參與。
在論文主題上,排在前三的分別為醫(yī)療和生物信息學(xué)領(lǐng)域的應(yīng)用(12.4%)、分類(9.5%)以及數(shù)據(jù)挖掘領(lǐng)域中的深度學(xué)習(xí)理論和應(yīng)用(7.4%)。而收錄率排在前三的論文主題則分別為網(wǎng)絡(luò)和圖數(shù)據(jù)挖掘(45.5%)、非結(jié)構(gòu)性和半結(jié)構(gòu)性數(shù)據(jù)挖掘(35.0%)以及序列數(shù)據(jù)挖掘(33.3%)。
在論文的國(guó)家/地區(qū)分布上,今年大會(huì)共收到了來(lái)自 46 個(gè)國(guó)家或地區(qū)的的論文投稿,其中排在前三的國(guó)家/地區(qū)是中國(guó)、美國(guó)和澳大利亞,分別為 284 篇、60 篇以及 52 篇。而論文收錄率最高的國(guó)家/地區(qū)則是加拿大和印度,收錄率都為 30%;其后是中國(guó)、美國(guó)、中國(guó)香港以及新西蘭,收錄率分別為 24.3%、23.3%、23.1% 以及 22.2%。
Keynote 演講
大會(huì)首日,普渡大學(xué)副教授 Jennifer Neville 帶來(lái)了主題為《Towards Relational AI -- the good, the bad, and the ugly of learning over networks 》的 Keynote 演講。
她指出,關(guān)系模型通過(guò)超越對(duì)于更傳統(tǒng)的機(jī)器學(xué)習(xí)方法的獨(dú)立假設(shè),現(xiàn)在能夠成功利用在實(shí)體之間關(guān)系中觀察到的常見(jiàn)附加信息。具體來(lái)說(shuō),尤其當(dāng)個(gè)體數(shù)據(jù)稀疏時(shí),網(wǎng)絡(luò)模型能夠使用關(guān)系信息來(lái)改善對(duì)于用戶興趣、行為和交互的預(yù)測(cè)。然而需要權(quán)衡的是,由于目前存在的算法和統(tǒng)計(jì)等方面的挑戰(zhàn),大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的異構(gòu)性、部分可觀察性和相互依賴性導(dǎo)致研究者難以開(kāi)發(fā)有效且無(wú)偏的方法。
在本次演講中,Jennifer Neville重點(diǎn)討論了這些問(wèn)題,并介紹了用于大規(guī)模社交和信息網(wǎng)絡(luò)中的關(guān)系學(xué)習(xí)的幾種通用方法,此外,她還分享了關(guān)系模型對(duì)于隱私、社區(qū)兩級(jí)分化以及錯(cuò)誤信息傳播的潛在影響。
作為本次大會(huì)的第二位 Keynote 演講者,羅格斯大學(xué)終身教授、百度人才智庫(kù)主任熊輝教授在大會(huì)第二日帶來(lái)了主題為《Talent Analytics: Prospects and Opportunities》的演講。他主要從大數(shù)據(jù)在人才管理的應(yīng)用層面展開(kāi)本次演講。
他表示,大數(shù)據(jù)趨勢(shì)現(xiàn)在已步入人才管理領(lǐng)域,而規(guī)模人力資源(HR)數(shù)據(jù)的可用性則能夠?yàn)槠髽I(yè)領(lǐng)導(dǎo)者提供了解人才行為并產(chǎn)生有用的人才知識(shí)的好機(jī)會(huì),從而為工作中的實(shí)時(shí)決策和有效的人員管理提供智能化協(xié)助。
對(duì)此,他也向現(xiàn)場(chǎng)嘉賓介紹了為智能人力資源管理開(kāi)發(fā)的一套強(qiáng)大的創(chuàng)新大數(shù)據(jù)技術(shù),并進(jìn)行了招聘、績(jī)效評(píng)估、人才儲(chǔ)備和發(fā)展、工作匹配、團(tuán)隊(duì)管理、領(lǐng)導(dǎo)力發(fā)展和組織文化等方面的詳盡分析。 與此同時(shí),,他還現(xiàn)場(chǎng)演示了如何將人才分析應(yīng)用于市場(chǎng)趨勢(shì)分析和金融投資等其他業(yè)務(wù)應(yīng)用場(chǎng)景中。
大會(huì)最后一天,大會(huì)迎來(lái)了羅維拉·維爾吉利大學(xué)名譽(yù)教授 Josep Domingo-Ferrer 的演講,他的演講主題為《Empowering Subjects, Users and Controllers when Anonymizing Big Data for Knowledge Discovery and Data Mining 》。
大數(shù)據(jù)在尤其是與人類行為和交互相關(guān)的模式、趨勢(shì)和關(guān)聯(lián)性分析中的應(yīng)用日益增多。但是,隨著《歐洲通用數(shù)據(jù)保護(hù)條例》(GDPR)這一條例逐漸成為全球現(xiàn)實(shí)數(shù)據(jù)的保護(hù)標(biāo)準(zhǔn),個(gè)人驗(yàn)證信息(PII)的任何有目的性的用途都必須進(jìn)行明確規(guī)定且需由數(shù)據(jù)主體明確許可,除此之外,PII 還不能進(jìn)行二次使用。因此,用于 PII 的探索性數(shù)據(jù)幾乎無(wú)法符合 GDPR 標(biāo)準(zhǔn)。
而使用匿名數(shù)據(jù)集來(lái)代替 PII 則是一種不錯(cuò)的方法,這是因?yàn)槟涿麛?shù)據(jù)不屬于 GDPR 的范圍。然而這一方法也存在其問(wèn)題,即基于統(tǒng)計(jì)披露控制和隱私模型的匿名化技術(shù)在使用小數(shù)據(jù)時(shí)間的算法和假設(shè)時(shí),必須進(jìn)行徹底修改、更新甚至需要進(jìn)行替換來(lái)處理大數(shù)據(jù),具體包括數(shù)據(jù)主體如何能夠控制它的數(shù)據(jù)以及如何實(shí)現(xiàn)在大量數(shù)據(jù)收集器、控制器和處理器中的匿名;是否可以合并匿名數(shù)據(jù)集從而獲取大數(shù)據(jù)集;當(dāng)前的隱私模型是否能夠共享基本規(guī)則從而將匿名數(shù)據(jù)升級(jí)為大數(shù)據(jù);是否存在可保障所有隱私模型的通用或幾乎通用的匿名方法等問(wèn)題。
在本次演講中,他不僅介紹了這些問(wèn)題的當(dāng)前現(xiàn)狀,還分享了該領(lǐng)域未來(lái)研究工作方向:一方面,他認(rèn)為該領(lǐng)域應(yīng)該致力于改善大數(shù)據(jù)的匿名技術(shù),從而讓數(shù)據(jù)主體、用戶以及控制者都能夠?qū)⑦@項(xiàng)技術(shù)用起來(lái);另一方面,他也呼吁研究者加強(qiáng)對(duì)非結(jié)構(gòu)性或非文本數(shù)據(jù)的匿名研究等。
PAKDD 2018 最具影響力論文展示
除了三場(chǎng) Keynote 演講,PAKDD 2018「最有影響力論文獎(jiǎng) 」(Most Influential Paper Award)獲獎(jiǎng)?wù)撐摹禨upport Vector Machine Classifier》的展示也是現(xiàn)場(chǎng)參會(huì)者關(guān)注的一大焦點(diǎn)。該論文發(fā)表于 PAKDD 2008,在十年時(shí)間的積淀和考驗(yàn)中,最終拿下 PAKDD 2018「最有影響力論文獎(jiǎng) 」,它的作者為劉秋閣、何清、史忠植這三位來(lái)自中國(guó)科學(xué)院的老師。本次大會(huì)上,作者之一何清研究員帶來(lái)了精彩的論文展示。
與此前利用內(nèi)核來(lái)評(píng)估特征空間中數(shù)據(jù)點(diǎn)點(diǎn)積的 SVM 算法不同,在本論文中,數(shù)據(jù)點(diǎn)由單隱藏層前饋網(wǎng)絡(luò)(SLFN)顯式映射到特征空間,同時(shí),它的輸入權(quán)重是隨機(jī)生成的。 從理論上講,這一公式可以解釋為正則化網(wǎng)絡(luò)(RN)的一種特殊形式,它能夠提供比 SLFNs - 極限學(xué)習(xí)機(jī)(ELM)算法更好的泛化性能,并最終得出一種極其簡(jiǎn)單和計(jì)算快速的非線性 SVM 算法。該算法只需要對(duì)一個(gè)潛在的、順序與訓(xùn)練數(shù)據(jù)集大小無(wú)關(guān)的小矩陣執(zhí)行反轉(zhuǎn)。 實(shí)驗(yàn)結(jié)果表明,本論文所提出的極限 SVM 所產(chǎn)生的泛化性能,基本上都要比 ELM 所產(chǎn)生的更好,并且其運(yùn)行速度也比其他非線性 SVM 算法快得多。
「卓越貢獻(xiàn)獎(jiǎng)」(Distinguished Contributions Award)
今年「卓越貢獻(xiàn)獎(jiǎng)」這一重磅獎(jiǎng)項(xiàng)頒給了新加坡管理大學(xué)的 Ee-Peng Lim 教授。
「卓越貢獻(xiàn)獎(jiǎng)」是 PAKDD 于 2005 年創(chuàng)立的具有終身成就獎(jiǎng)性質(zhì)的獎(jiǎng)項(xiàng),旨在表彰亞太地區(qū)數(shù)據(jù)挖掘領(lǐng)域有長(zhǎng)期卓越貢獻(xiàn)的學(xué)者,每年僅獎(jiǎng)給一人(其中有兩年空缺)。
曾經(jīng)獲得該獎(jiǎng)項(xiàng)的華人學(xué)者包括:
周志華(2016 年):南京大學(xué)教授,計(jì)算機(jī)系主任,南京大學(xué)人工智能學(xué)院院長(zhǎng),歐洲科學(xué)院外籍院士,ACM、AAAS、AAAI、IEEE、IAPR、IET/IEE 等學(xué)會(huì)的會(huì)士。
劉歡(2012 年):美國(guó)亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)與工程、信息學(xué)與決策系統(tǒng)工程系教授,IEEE、ACM Fellow。
Hongjun Lu(2005 年):生前曾任香港科技大學(xué)教授,博士畢業(yè)于美國(guó)威斯康辛大學(xué)麥迪遜分校。
「青年成就獎(jiǎng)」(Early Career Award)
今年獲得「青年成就獎(jiǎng)」的是新加坡管理大學(xué)的 Feida Zhu 教授。
「青年成就獎(jiǎng)」基于青年學(xué)者博士畢業(yè)后的前 10 年時(shí)間的研究工作進(jìn)行評(píng)選,旨在勉勵(lì)為亞太地區(qū)數(shù)據(jù)挖掘做出優(yōu)秀成就的青年學(xué)者,每年僅授予一名獲獎(jiǎng)?wù)摺?/p>
曾經(jīng)獲得該獎(jiǎng)項(xiàng)的華人學(xué)者包括:
俞揚(yáng)(2018 年):南京大學(xué)人工智能學(xué)院教授,于 2011 年獲得南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系博士學(xué)位。
「最有影響力論文獎(jiǎng) 」(Most Influential Paper Award)
今年的「最有影響力論文獎(jiǎng) 」授予了《On Link Privacy in Randomizing Social Network》這篇曾發(fā)表于 PAKDD 2009 上的論文,論文作者為北卡羅萊納大學(xué)夏洛特分校博士生應(yīng)嘯瑋(現(xiàn)在美國(guó) Pandora Media 任職)及其導(dǎo)師 Xintao Wu 副教授(現(xiàn)任美國(guó)阿肯色大學(xué)講座教授)。
「最具影響力論文獎(jiǎng) 」面向 10 年前在 PAKDD 上發(fā)表的論文,旨在表彰過(guò)去 10 年間最具影響力的論文作者。該獎(jiǎng)項(xiàng)采用 Google 學(xué)術(shù)選取出候選論文,之后由該獎(jiǎng)項(xiàng)的委員會(huì)審核并衡量各篇論文的引用質(zhì)量。審核過(guò)程中的一項(xiàng)重要標(biāo)準(zhǔn)是:論文必須提出了能夠改變?nèi)祟愃季S方式的新穎而重大的想法。
曾經(jīng)第一作者為華人獲得該獎(jiǎng)項(xiàng)的論文包括:
《Support Vector Machine Classifier》(2018 年),作者為:劉秋閣(中國(guó)科學(xué)院),何清(中國(guó)科學(xué)院),史忠植 (中國(guó)科學(xué)院)。
《Enhancing Effectiveness of Outlier Detections for Low Density Patterns》(2012 年),作者為:唐杰(清華大學(xué)),Zhixiang Chen(普渡大學(xué)),Ada Wai-Chee Fu(香港中文大學(xué)),David Wai-Lok Cheung(香港大學(xué))。
作為 PAKDD 的重要獎(jiǎng)項(xiàng), 今年「 最佳論文獎(jiǎng)」、「 最佳學(xué)生論文獎(jiǎng)」、「最佳應(yīng)用論文獎(jiǎng) 」三項(xiàng)最佳論文獎(jiǎng)的頒布也備受關(guān)注。
「 最佳論文獎(jiǎng)」(Best Paper Award)
今年的「 最佳論文獎(jiǎng)」頒給了香港科技大學(xué)張穎華、張宇在楊強(qiáng)教授指導(dǎo)下完成的論文《Parameter Transfer Unit for Deep Neural Networks》。
「 最佳學(xué)生論文獎(jiǎng)」(Best Student Paper Award)
本次獲得「 最佳學(xué)生論文獎(jiǎng)」的論文是由南京大學(xué)的 Heng-Yi Li 和 Ming Li 在周志華教授指導(dǎo)下共同完成的《Towards one reusable model for various software defect mining tasks》。
「最佳應(yīng)用論文獎(jiǎng) 」( Best Application Paper Award)
「最佳應(yīng)用論文獎(jiǎng) 」則由 Jianfei Zhang、 Shengrui Wang、Lifei Chen、Gongde Guo、Rongbo Chen 以及 Alain Vanasse 合作完成的論文《Time-dependent Survival Neural Network for Remaining Useful Life Prediction》摘得。
另外于大會(huì)最后一天公布獲獎(jiǎng)結(jié)果的 PAKDD 2019 第 4 屆自動(dòng)機(jī)器學(xué)習(xí)挑戰(zhàn)賽(AutoML Challenge)也同樣值得關(guān)注。
自動(dòng)機(jī)器學(xué)習(xí)挑戰(zhàn)賽(AutoML Challenge)
PAKDD 2019 第 4 屆自動(dòng)機(jī)器學(xué)習(xí)挑戰(zhàn)賽(AutoML Challenge)的主題是「 AutoML for Lifelong Machine Learning」,本次比賽要求參賽選手創(chuàng)建一個(gè)自動(dòng)預(yù)測(cè)模型(沒(méi)有任何人為干預(yù)),并在一個(gè)終身機(jī)器學(xué)習(xí)(Lifelong Machine Learning)設(shè)置中訓(xùn)練和評(píng)估該模型。本次本賽共有 127 個(gè)隊(duì)伍參加,最終有 31 個(gè)隊(duì)伍進(jìn)入決賽,據(jù)悉,本次比賽共收到 550 多個(gè)方案。
最終獲勝的隊(duì)伍為:
冠軍:《DeepBlueAI》,羅志鵬,黃堅(jiān)強(qiáng),陳明健(深蘭科技)
亞軍:《ML Intelligence》,包夢(mèng)蛟,Hui Xue,Yihuan Mao,Yujing Wang(微軟亞洲研究院 & 北航)
季軍:《Meta_Learners》,熊錚,蔣繼研,張文鵬(清華大學(xué))
以上為 PAKDD 2019 的所有重點(diǎn)內(nèi)容,后續(xù)雷鋒網(wǎng) AI 科技評(píng)論還將前往各大國(guó)際學(xué)術(shù)頂會(huì)為大家?guī)?lái)現(xiàn)場(chǎng)報(bào)道,敬請(qǐng)關(guān)注!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。