0
本文作者: 奕欣 | 2017-08-30 11:41 | 專題:KDD 2017 |
雷鋒網AI科技評論:SIGKDD是ACM在數(shù)據挖掘領域的頂級學術會議,每年都吸引著超過2000位來自世界各地的頂級數(shù)據挖掘學者,以及知名企業(yè)代表前來參加。然而,大會的論文接收每年卻僅約200篇,接收率不超過20%。
今年的KDD大會剛剛于加拿大新斯科舍省的首府哈利法克斯(Halifax)落下帷幕。在KDD 20余年的歷史中,越來越多的的華人元素體現(xiàn)在了會議當中。從參與度到科研成就,從影響力到活動組織,華人的力量無處不在且無可替代。作為人工智能和數(shù)據挖掘領域的先驅者,微軟同樣在KDD 2017中表現(xiàn)突出,并在發(fā)展中不斷尋求新的突破。
無論是從參與KDD會議的人數(shù)、論文發(fā)表數(shù)、論文影響力,還是從獲獎情況、參與活動組織和參展情況等多個方面來看,厚積薄發(fā)的華人力量正在強勢崛起,在KDD領域擁有世界有目共睹的優(yōu)異表現(xiàn)。
越來越多的華人參與到了SIGKDD當中。KDD 2017的注冊總人數(shù)達到了1656人,是在美國以外舉行的KDD會議中參與人數(shù)最多的一次,其中華人注冊參會的人數(shù)僅次于美國。但今年KDD的兩個track的錄取率卻分別只有17%(Research Track)和21%(Applied Data Science Track),且僅有一半的論文被選為進行口頭展示(oral presentation)。
據統(tǒng)計,今年大會的兩個研究熱點分別是時序數(shù)據和圖算法。大部分的委員會成員以及提交的論文來自美國和中國。其中中國作者貢獻了超過13%的論文。
在華人參與度持續(xù)上升的同時,華人作者的研究工作也越來越有影響力。微軟學術搜索總結了最近5年KDD最具影響力的作者(如下圖所示),圖中泡泡的大小表明了最近五年所發(fā)表KDD的論文數(shù),橫軸表明了作者總體在數(shù)據挖掘領域的聲望排名,越靠右的排名越高。該排名不僅參考了KDD發(fā)表文章的引用次數(shù),還參考了作者之間互相引用的情況。如果一篇文章被高聲望的作者引用,那么此文章的質量可能更好??v軸則表明了作者在KDD的威望排名,該排名主要參考了每篇KDD論文標準化后的被引用數(shù)量,位置越高排名就越高。
圖上的21位學者可以認為是目前在數(shù)據挖掘領域最有影響力的代表人物,可以看到華人學者占據了超過半數(shù)的位置(13人),且不少都占據了非常有影響力的位置,例如微軟亞洲研究院的鄭宇博士和謝幸博士。
今年的大會中,不少獎項也都由華人包攬。KDD 2017杰出服務獎(Service Award)授予給了香港科技大學的楊強教授,以表彰他在數(shù)據挖掘和人工智能領域非凡的服務和貢獻。同時,還特別提到了楊強教授在中國成立的SIGKDD China,以及多年來在中國推動數(shù)據挖掘、機器學習和人工智能研究的作用。
KDD 2017創(chuàng)新獎(Innovation Award)則頒發(fā)給了加拿大西蒙弗雷澤大學的裴健教授,認可了他在frequent pattern mining領域做出的杰出貢獻。裴健教授在他的talk里面回顧了當年frequent pattern mining研究的PrefixSpan和FPGrowth,并且展望了未來pattern mining和深度學習以及神經網絡進行結合的發(fā)展前景。
此外,本屆KDD Cup數(shù)據挖掘比賽共有3582支隊伍參與,覆蓋全球50個國家,730所高校,比賽規(guī)模史上最大,來自中國的隊伍包攬了全部獎項。此次比賽分兩個任務:預測車輛從路口到收費站的平均用時和高速收費站車流量預測。其中,由微軟、美團、北京航空航天大學組成的Convolution團隊將兩項任務的第一名都收入囊中,雷鋒網AI科技評論也對此團隊做過詳細的報道和采訪,詳情請參看《KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團隊討教了他們的“成功方法論”》。
華人還在KDD 2017中組織了高品質的活動。在今年的大會上,UCBerkeley的郁彬教授發(fā)表了主題演講,討論了數(shù)據的三個最重要的原則:可預測性,穩(wěn)定性和可計算性。因此,郁彬教授成為了在數(shù)據挖掘領域頂級會議中第一位女性的大會主題講者。
華人學者們還組織了包括城市計算(Urban Computing)、大規(guī)模網絡表達學習(Learning Representations of Large Scale Networks)在內的7個專題講座。KDD 2017的首日下午,大會特別為SIGKDD China舉行了中國數(shù)據挖掘會議(Data Science @China),吸引了眾多聽眾參與。會議在KDD China秘書長、微軟亞洲研究院資深研究員鄭宇博士的主持下進行。香港科技大學的楊強教授,羅格斯大學的熊輝教授,微軟亞洲研究院的鄭宇博士,今日頭條AI實驗室的李磊博士,滴滴出行研究院的副院長葉杰平博士,西蒙弗雷澤大學的裴健教授,以及清華大學的唐杰和崔鵬教授分別分享了各自最新的研究成果。
SIGKDD China主要委員以及KDD兩任主席劉兵、裴健和韓家煒教授合影
中國企業(yè)在KDD的參與也越來越積極。據主辦方介紹,KDD 2017總共的贊助費用超過了54萬美元,僅次于去年在舊金山舉行的KDD 2016。仔細看一看今年的贊助商列表,就會發(fā)現(xiàn)中國公司已經出現(xiàn)在了顯著的位置(雷鋒網AI科技評論按:去年滴滴同樣是鉆石贊助商)。
作為人工智能和數(shù)據挖掘領域的先驅者,微軟在本次大會上一如既往地展示了非常多的研究成果。來自微軟的研究員們分別組織了五場不同主題的教程演講(Tutorials)以及一場實踐教程(Hands-on Tutorial),內容涵蓋了利用對照實驗(A/B testing)加速軟件創(chuàng)新,群體感知(crowd sourcing),大規(guī)模層次數(shù)據分類技術,社交網絡數(shù)據分析,城市計算,以及利用R語言的可擴展的數(shù)據科學技術等核心技術領域。其中,微軟亞洲研究院資深研究員鄭宇博士組織了城市計算的教程演講。
鄭宇博士在城市計算教程演講環(huán)節(jié)
今年,微軟參與發(fā)表了9篇KDD論文,涉及領域豐富全面。在來自微軟雷德蒙研究院的工作“A Century of Science: Globalization of Scientific Collaborations, Citations and Innovations” 中,研究人員收集了從1900到2015年間所發(fā)表的8900萬篇已經數(shù)字化的學術論文,進而學習了過去一個世紀中科技進步的演化過程。
研究員們發(fā)現(xiàn),科學的進步已經從個人的單獨工作越來越多地向共同合作的形式所轉變,并且能夠很明顯的觀察到,在作者合作和研究工作的互相引用中,越來越多的國際合作已經展現(xiàn)。但在上世紀初超過90%的創(chuàng)新工作都在英國和美國,而目前這樣的比例已經下降到了50%左右。微軟研究院的研究人員希望通過分析這些數(shù)據可以為業(yè)界提供一些啟示,讓現(xiàn)有的國際科技合作和資助計劃變得更有效率。
另外一篇來自微軟的論文“ReasoNet: Learning to Stop Reading in Machine Comprehension”則提出了一個利用新的數(shù)據網絡結構來教計算機閱讀和理解文章,并根據文章的內容回答相應的問題。
ReasoNet引入了一種結束狀態(tài)來緩解推理深度的限制,并且利用增強學習技術,當它能從已有的信息中產生正確的回答時,ReasoNets可以動態(tài)地決定是否需要繼續(xù)理解中間結果或者提前結束閱讀。這項技術在許多機器理解的數(shù)據庫(如 CNN, Daily Mail Stanford SQuAD和 structured Graph Reachability)驗證中,都得到了非常好的結果。
我們微軟亞洲研究院城市計算組在KDD 2017發(fā)表了一篇題目為“Planning Bike Lanes based on Sharing Bikes’ Trajectories” 的論文。該論文的基本思想是利用大量共享單車(摩拜)的軌跡數(shù)據,結合政府在市政建設上的限制和要求(如,預算、服務人群以及施工和管理的便捷性),利用大數(shù)據和人工智能技術提出自行車道規(guī)劃的建議。
這項技術未來將能夠實現(xiàn)公司、政府和人民群眾三贏的局面,把技術更好地融入人們的現(xiàn)實生活中。具體細節(jié)請點擊閱讀《借力摩拜單車軌跡大數(shù)據,微軟亞洲研究院如何更好規(guī)劃自行車道?》。
除此之外,其他微軟在KDD 2017所發(fā)表的論文如下:
Discrete Content-aware Matrix Factorization
論文鏈接:http://www.kdd.org/kdd2017/papers/view/discrete-content-aware-matrix-factorization
Mixture Factorized Ornstein-Uhlenbeck Processes for Time-Series Forecasting
Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments
Deep Probe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Network
Discovering Concepts Using Large Table Corpus
論文鏈接:http://www.kdd.org/kdd2017/papers/view/discovering-concepts-using-large-table-corpus
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。