0
本文作者: 張馳 | 2017-08-01 18:45 | 專題:ICML 2017 |
ICML是國際頂級的機器學習會議,它與NIPS一起,是機器學習與人工智能研究領域影響力極高的兩個主要會議。今年的ICML將于8月6-11日在澳大利亞悉尼召開,屆時雷鋒網(wǎng)也將前往現(xiàn)場進行報道。
早在5月時,ICML 2017被接受的論文就已經(jīng)公布了。今年的ICML收到了創(chuàng)紀錄的1676篇論文,434篇被接受(也創(chuàng)下了新紀錄)。OpenAI的研究科學家Andrej Karpathy對這些論文作了分析,并發(fā)現(xiàn)了一些有趣的事。
根據(jù)分析,所有論文中共出現(xiàn)了961個機構名稱,其中420個只出現(xiàn)了一次。論文數(shù)前30名的機構如下:
統(tǒng)計中Google和微軟的論文數(shù)排在了前兩名,CMU排第三。需要注意的是,統(tǒng)計中Google、Google公司、Google大腦和Google Research都屬于一個類別,同樣的還有斯坦福和斯坦福大學。一篇論文中多個人屬于同一機構時會合并。
從這些統(tǒng)計中也可以看出,工業(yè)界發(fā)表的論文占了不小的比例。Karpathy統(tǒng)計了一些比較知名的工業(yè)界實驗室的論文狀況,比如DeepMind、Google、微軟、Facebook、IBM、迪士尼、亞馬遜和Adobe,發(fā)現(xiàn)他們的論文占論文總數(shù)的14%。而如果算上其它不太知名業(yè)界公司的論文,他認為約20-25%的論文有公司參與。也就是說,ICML 2017的論文中約四分之三是完全來自學術界。
另外,由于DeepMind和Google可以算一家,加在一起它們共參與60篇論文,占總論文的6.3%。
逐年分析這些論文可以發(fā)現(xiàn),在2011年時很少有工業(yè)界研究出現(xiàn)在ICML上。而現(xiàn)在公司的參與有了很顯著的提高。不過學術界仍然做得很好,貢獻了很大一部分論文。
還有其它一些比較有趣的統(tǒng)計數(shù)據(jù)。
以第一作者身份論文被接受最多的是一位中國研究者朱澤園,他有5篇論文被接受。他如今在北美的微軟研究院工作。
對第一作者所在機構進行統(tǒng)計,排名前五的是CMU(25),Google(19),DeepMind(15),MIT(14)和UCB(14),可見Google的實力。微軟研究院以10篇排在第七。
純數(shù)量統(tǒng)計并不能反應真實的研究狀況,一個更重要的指標或許是論文被引用的情況,畢竟論文不是生來平等的。工業(yè)界與學術界內(nèi)容被引用的情況如何,這點還沒有統(tǒng)計。
ICML也也是窺見機器學習最新趨勢的途徑之一。深度學習當然是重要的內(nèi)容,但雷鋒網(wǎng)檢索標題發(fā)現(xiàn),只有6篇文章含這一關鍵詞。其它出現(xiàn)頻率較高的研究領域還有:強化學習,隨機及高斯過程,嵌入(embeddings),貝葉斯優(yōu)化,AutoML(用機器學習探索神經(jīng)網(wǎng)絡架構)等。
除了論文,ICML上最受關注的要屬每天的主題演講了。今年大會安排了四場主題演講,涵蓋了AI的前沿、應用和社會影響等方面。
牛津大學Peter Donnelly
他演講的主題是:基因組學、大數(shù)據(jù)與機器學習:理解生命圖普,推動醫(yī)療革命。演講會通過具體的例子來說明,將機器學習和其他推理工具應用于基因組數(shù)據(jù)的機會和挑戰(zhàn)。
Donnelly是維康信托中心人類遺傳學研究室主任和牛津大學統(tǒng)計學教授,以及Genomics Plc公司CEO。他是牛津大學博士,曾任倫敦大學和芝加哥大學教授。他的早期研究工作涉及人口遺傳學隨機模型的開發(fā),后來逐漸開發(fā)研究遺傳和基因組數(shù)據(jù)統(tǒng)計方法。他和團隊開發(fā)了多種廣泛使用的統(tǒng)計算法,包括STRUCTURE和PHASE。他還領導了一個名為wWGS500的項目,在其中牛津大學與Illumina合作,對500名具有一系列臨床條件的個體進行測序,以評估臨床醫(yī)學中全基因組測序的短期潛力,這一項目也是NHS 100000基因組計劃的前身。
過去10多年,基因測序的成本呈指數(shù)級下降,而未來10多年,或許會有近10億人進行基因測序。海量的基因數(shù)據(jù)與個人的病歷信息和可穿戴設備信息的結合,將顯著提高我們評估個體健康風險、預測健康狀況以及做出個性化治療的能力。
哈佛大學Latanya Sweeney
她的演講主題是:AI設計者如何影響公民生活
作為哈佛大學政府和技術學院教授,Sweeney的使命是開發(fā)和運用技術,來評估和解決社會、政治和管理問題。她的重點研究領域是技術對人類的影響,她本人還是Technology Science總編輯 。她對數(shù)據(jù)隱私也很感興趣,是哈佛數(shù)據(jù)隱私實驗室主任。
她認為,技術設計者(Technology designer)是新的決策者。雖然他們沒有經(jīng)過選舉,而且大多數(shù)人不知道他們的名字,但正是他們開發(fā)工具和創(chuàng)新時做出的決定,影響了那些能規(guī)范我們?nèi)粘I畹拇a。 隱私和安全是新技術的第一個挑戰(zhàn),而隨著技術的進步,生活的方方面面都會被重新定義。
DeepMind的Raia Hadsell
她的演講主題是:邁向現(xiàn)實世界的加強學習
她是DeepMind的高級研究科學家,在深度學習和機器人領域有10多年研究經(jīng)驗。她早期的研究與用暹羅網(wǎng)絡進行多學科學習有關,這可以用于不變特征學習。她的博士導師是Yann LeCun,后來加入CMU的機器人研究所,以及SRI International。她在2014年初加入了DeepMind,開始研究通用人工智能。她目前的研究側(cè)重于AI代理和機器人系統(tǒng)持續(xù)學習的挑戰(zhàn)。
深度強化學習已經(jīng)迅速發(fā)展成為頗具潛力的人工智能研究領域,大量的雅達利游戲也被用于許多基礎開發(fā)的主要基準。隨著研究的成熟,更重要的是開發(fā)復雜的學習系統(tǒng),以解決更復雜的任務。她屆時會介紹DeepMind的最近研究,這些研究與在現(xiàn)實世界和具有復雜任務結構的挑戰(zhàn)性環(huán)境中進行端到端學習有關。
馬克斯·普朗克智能系統(tǒng)研究所Bernhard Sch?lkopf
他的演講主題是:因果學習。
Sch?lkopf的主要研究領域是機器學習和因果推理。他將研究應用于許多不同的領域,比如生物醫(yī)學問題、計算攝影和天文學。他曾在AT&T貝爾實驗室和英國的微軟研究院工作。他是德國科學院的成員,獲得過國際模式識別協(xié)會的J.K. Aggarwal獎。
在機器學習中,會使用數(shù)據(jù)來自動尋找依賴關系,目的是對未來進行預測。大多數(shù)機器學習方法都建立在統(tǒng)計學上,當然也可以進一步分析數(shù)據(jù)在統(tǒng)計依賴性后的因果結構。Sch?lkopf認為,這樣的因果知識可以幫助在機器學習任務中做出預測。他在演講中也會提到因果模型對機器學習任務的影響,如遷移學習和半監(jiān)督學習。
雷鋒網(wǎng)將在現(xiàn)場帶來ICML 2017的即時報道,敬請關注我們的后續(xù)文章。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章