0
本文作者: 叢末 | 2018-08-20 14:07 | 專題:KDD 2018 |
一年一度的 ACM SIGKDD (知識發(fā)現(xiàn)與數據挖掘會議)今年將于 8 月 19 日至 23 日在英國倫敦召開,屆時,雷鋒網 AI 科技評論也將緊密追蹤,并為大家?guī)硪痪€精彩報道。
作為這一會議的最重要的組成部分之一,KDD 今年的 Keynote 邀請了 4 位嘉賓,將分別對數據挖掘的應用場景和方式、最新進展以及未來發(fā)展趨勢進行解讀。
雷鋒網對本屆 KDD Keynote 嘉賓介紹及演講主題整理如下:
David Hand:倫敦帝國理工大學數學系名譽教授、高級研究員
David Hand 教授是一位高級研究員,也是倫敦帝國理工大學數學系的名譽教授,曾任倫敦帝國理工大學統(tǒng)計學院院長。他是英國科學院院士、英國精算師協(xié)會的榮譽研究員,曾擔任過兩屆皇家統(tǒng)計學會主席。此外,他也是英國統(tǒng)計局的非執(zhí)行董事、歐洲統(tǒng)計咨詢委員會成員、加拿大統(tǒng)計科學研究所國際科學咨詢委員會成員、劍橋信息數學研究所顧問委員會成員。
David Hand 教授已經發(fā)表了 300 篇論文、出版了 29 本圖書,涵蓋數據挖掘原理、信息生成、測量理論與實踐、不可能性原理以及國家福利等主題。在 2002 年,他被授予皇家統(tǒng)計學會的 Guy 獎章。2012 年,他和他的研究小組為信貸業(yè)的貢獻贏得了信用收藏和風險獎。2013 年,他又因對研究與創(chuàng)新的服務獲得大英帝國官佐勛章。2016 年,他還被授予 George Box 獎章。
主題:數據科學在金融中的應用
數據科學在金融中的應用為主觀決策到數據和事實驅動決策的轉變所帶來的力量提供了一種完美的闡釋。在 50 多年的時間里,整個金融行業(yè)都歷經了顛覆性的變革。數據科學的金融應用主要集中于三個寬泛的領域:精算和保險、消費金融和金融投資。精算和保險是最早一批采用數據科學理念的工作,在這一概念出現(xiàn)之前,甚至在電腦被發(fā)明出來之前,數據就在這一領域得到應用。然而現(xiàn)在,最先進的數據科學技術并沒有在這些領域中得到應用,這也意味著現(xiàn)代數據分析理念在金融行業(yè)的應用具備相當大的潛力。
消費金融被視為數據革命中最早也是最成功的案例之一。早在 20 世紀 60 年代第一張信用卡出現(xiàn)的時候,針對客戶在金融交易中產生的龐雜數據的分析技術就極大地推動了數據挖掘和數據科學概念的發(fā)展。但如今,新模型類型以及新數據來源,正為數據科學的重大發(fā)展帶來諸多機遇。
在金融投資中,經典經濟學中的「有效市場假說」認為金融市場具有不可預測性。這一說法雖然看起來很像真的,但本質上還是錯誤的。這意味著使用先進的數據分析方法去發(fā)掘傳統(tǒng)理論與實際現(xiàn)狀間的細微差異成為可能。其他的數據科學問題,如數據質量、道德與安全,以及對模型局限性的了解的需求,在金融應用的情境中變得尤其突出。
Alvin E. Roth:諾貝爾經濟學獎獲得者、斯坦福大學經濟學教授
Alvin E. Roth 是斯坦福大學的 Craig & Susan McCaw 經濟學教授、哈佛大學經濟學和工商管理的 Gund 教授。他從事于博弈論、實驗經濟學和市場設計等領域的研究,并曾與其他人共同獲得了 2012 年諾貝爾經濟學獎。
主題:市場設計和計算機化市場
交易和集市是歷史悠久的人類活動產物,但近年來,它們變得越來越重要,部分原因為當今市場日益計算機化。而智能手機的出現(xiàn),也使得它們無處不在。我們可以通過智能手機預訂前往機場的汽車、抵達倫敦的飛機以及到達后需要住宿的酒店房間。當我們這樣做時,我們留下了一條很容易與其他數據流結合的數據軌跡。這不僅改變了我們與市場的互動方式,也改變了我們看待和管理隱私的方式。我將討論計算機化市場的一些最新進展,并推測未來的一些發(fā)展趨勢。
鄭宇懷:牛津大學統(tǒng)計學系數據機器學習教授、DeepMind 研究科學家
鄭宇懷是牛津大學統(tǒng)計學系的統(tǒng)計機器學習教授,也是 DeepMind 的研究科學家。他在多倫多大學獲得博士學位(師從 Geoffrey Hinton),在加州大學伯克利分校(與 Michael Jordan 共事)和新加坡國立大學(獲得李光耀博士后獎學金)負責博士后工作。在來到牛津大學之前,他曾在加州大學洛杉磯分校蓋茨比計算神經科學系任講師,也曾任牛津大學學院的輔導研究員。
他是 ICML(國際機器學習大會)2017 、AISATS(人工智能與統(tǒng)計國際會議) 2010 的 programme co-chair,也曾在 NIPS(神經信息處理系統(tǒng)大會)2017 上進行了特邀大會演講。他的研究領域是數據和智能的計算基礎,也從事規(guī)模化的機器學習、概率模型、無參數貝葉斯以及 DeepMind 的研究工作。
主題:面向一些小數據問題的大數據學習
機器學習的諸多新進展,都是由可用數據在數量和多樣性方面的爆發(fā)式增長和數據處理所使用的大幅增長的計算資源所推動。這就引出了一個問題,即機器學習系統(tǒng)是否一定需要大量的數據才能順利完成任務。在元學習、終身學習、學會學習、多任務學習等問題的研究中,一項重大的新進展便是發(fā)現(xiàn)身邊的數據集往往具有異構性,并且事實上,一個大數據集比每一組都面向不同任務的很多更小的數據集,看上去更具生產力。例如,在推薦系統(tǒng)中,每個用戶都可被當做一組小的相關數據集對應的不同任務,并且 AI 的一個圣杯就是如何開發(fā)從少量數據中就能夠快速學會完成新任務的系統(tǒng)。
這種情景下,問題就變成了如何利用任務之間的相似性來「學會快速學習」。實現(xiàn)這個目標的一個視角是,所有的任務都可以看作是從這個世界中取樣得到的,讓系統(tǒng)完成大量任務以使其學到豐富的關于這個世界的先驗知識,并借助豐富的知識來快速解決未來遇到的新任務。
這是一個非?;钴S、充滿生機和多樣性的研究領域,最近也有許多不同的研究方法被提出。在本次交流中,我將從概率和 DeepMind 的角度來表達我對這個問題的看法,并介紹我在最近參與的這個方向上的一些努力。
周以真:哥倫比亞大學數據科學研究所所長
周以真教授是哥倫比亞大學數據科學研究所所長和計算機科學教授。她是卡耐基梅隆大學的計算機科學顧問教授,自 1985 年起就在學校擔任教職,曾兩度擔任計算機科學系的負責人。2013-2017 年,她曾擔任微軟研究院的副總裁。2007-2010 年,她曾擔任國家科學基金會計算機與信息科學與工程理事會的副主任。她獲得了麻省理工學院的本科、碩士和博士學位。
她主要研究高可信計算、規(guī)范和驗證,并行和分布式系統(tǒng),程序設計語言以及軟件工程等領域的課題。她目前的興趣點是安全和隱私的基礎,高可信人工智能則是她的另一個關注點。迄今為止,她共曾擔任 ACM 月刊與 ACM 通訊等 12 個期刊的編委。
她現(xiàn)在還是以下機構的成員:醫(yī)學藍絲帶專家組國家圖書館、美國藝術與科學學院所屬的科學、工程和技術咨詢委員會、純粹與應用數學研究所理事會、數學界女性協(xié)會指導委員會、阿里巴巴達摩院技術咨詢委員會。此外,她還是美國藝術與科學院、美國科學促進協(xié)會、國際計算機協(xié)會(ACM)以及電氣與電子工程師協(xié)會(IEEE)的 Fellow。她曾于 2011 年獲得 CRA 杰出服務獎,于 2014 年獲得 ACM 杰出服務獎。
主題:數據,為美好
我用「數據,為美好」這一口號來表達我們整個數據科學界該如何促進數據科學的發(fā)展,尤其是如何培養(yǎng)未來幾代的數據科學家。
首先,我們應該使用數據科學來為人類和社會造福。數據科學應該用以改善人們的生活,以及人、組織和機構之間的關系。數據科學在與其他學科協(xié)作時,應該用以幫助解決例如氣候變化、教育、能源、環(huán)境、醫(yī)療保健、不平等以及社會公正等社會層面的巨大挑戰(zhàn)。
其次,我們應該以良好的方式使用數據。首字母縮寫詞 FATES 可以看做是「good」意義的詳細解釋。Fairness(公正)意味著我們建立的模型可用來做出無偏見的決策或預測。Accountability(責任)指的是為機器所做出的的決策,確定和匹配人或物的責任。Transparency(透明)指向最終用戶保持開放和透明,讓他們了解到例如分類、決策、預測等結果是如何得出的。Ethics(倫理)是說需要關注倫理和隱私保護相關數據的采集和使用,以及我們所建立的自動系統(tǒng)做出的的倫理決策。Safty(安全)和 Security(防護)則是指要確保我們所建立的系統(tǒng)是安全的(沒有任何危害)和防護性的(能抵御惡意行為)。
接下來就請大家關注雷鋒網對 KDD 的持續(xù)報道吧。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。