0
本文作者: skura | 2019-04-22 16:51 |
雷鋒網(wǎng) AI 科技評(píng)論按,近日,亞太地區(qū)數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)國(guó)際會(huì)議——第 23 屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(Pacific Asia Knowledge Discovery and Data Mining,PAKDD)在澳門成功舉行。本次大會(huì),南京大學(xué)人工智能學(xué)院院長(zhǎng)周志華首先做了開幕致辭,第四范式首席科學(xué)家楊強(qiáng)教授、普渡大學(xué)副教授 Jennifer Neville、羅格斯大學(xué)大學(xué)終身教授熊輝、羅維拉·維爾吉利大學(xué)名譽(yù)教授 Josep Domingo-Ferrer 等知名科學(xué)家先后在現(xiàn)場(chǎng)分享了對(duì)于知識(shí)挖掘領(lǐng)域最新的思考與技術(shù)進(jìn)展。
除此之外,大會(huì)另一個(gè)重要看點(diǎn)是由第四范式、ChaLearn、微軟、亞馬遜聯(lián)合舉辦的「PAKDD 2019 AutoML Challenge」挑戰(zhàn)賽,現(xiàn)場(chǎng)公布了大賽最終成績(jī)并舉行了頒獎(jiǎng)儀式,深蘭科技 DeepBlueAI 、微軟亞洲研究院、北航組成的 ML Intelligence 以及清華大學(xué)的 Meta_Learners 三只來(lái)自中國(guó)的隊(duì)伍包攬了本次比賽前三名,充分展示國(guó)內(nèi)在 AutoML 研究領(lǐng)域的實(shí)力。
據(jù)悉,本次 AutoML 大賽共吸引了全球 127 支隊(duì)伍參加,提交超 550 個(gè)競(jìng)賽方案,最終有 31 支隊(duì)伍進(jìn)入決賽進(jìn)行最終的比拼。比賽共分為 Feedback phase、Test phase、AutoML phase 三個(gè)階段,最終成績(jī)按照 AutoML phase 的 AUC 結(jié)果進(jìn)行評(píng)估排序得出,前三名成績(jī)排序在 Feedback phase、AutoML phase 兩個(gè)階段均一致。
本次比賽題目是貼近實(shí)際應(yīng)用的終身自動(dòng)機(jī)器學(xué)習(xí)(AutoML for Lifelong Machine Learning),旨在解決實(shí)際應(yīng)用過(guò)程中,數(shù)據(jù)分布不斷變化的動(dòng)態(tài)環(huán)境給自動(dòng)化機(jī)器學(xué)習(xí)帶來(lái)的難題。在設(shè)計(jì)能夠自主實(shí)現(xiàn)終身機(jī)器學(xué)習(xí)的方案中,需兼顧計(jì)算效率、多種特征類型、概念漂移(Concept Drift)、終身機(jī)器學(xué)習(xí)設(shè)定等諸多挑戰(zhàn)。
以本次大賽冠軍 DeepBlueAI 方案為例,囊括了自動(dòng)特征工程、自動(dòng)特征選擇、自動(dòng)模型調(diào)參、自動(dòng)模型融合等步驟的 AutoML 框架,并對(duì)數(shù)據(jù)類別不均衡、概念漂移、時(shí)間空間等方面進(jìn)行了針對(duì)性的處理和優(yōu)化,同時(shí)也有針對(duì)性的對(duì)概念漂移問(wèn)題進(jìn)行處理,并且利用了多種策略對(duì)運(yùn)行時(shí)間和運(yùn)行內(nèi)存進(jìn)行了有效的控制,以確保解決方案能在規(guī)定時(shí)間和有限內(nèi)存下完成整個(gè)流程,并最終在挑戰(zhàn)賽中脫穎而出。
除了 DeepBlueAI 外,ML Intelligence 本次參賽方案也提供另一類的方法,我們都知道 AutoML 系統(tǒng)從每一批數(shù)據(jù)的輸入到每一批的輸出,實(shí)現(xiàn)端到端的自動(dòng)化,完全不需要人參與,其中核心是自動(dòng)算法,包括自動(dòng)配置,自動(dòng)調(diào)參,自動(dòng)特征衍生和自動(dòng)篩選等。本次競(jìng)賽方案中,ML Intelligence 為了能適應(yīng)一個(gè)長(zhǎng)時(shí)學(xué)習(xí)和在線學(xué)習(xí)的場(chǎng)景,能夠適應(yīng)特征或者樣本的概念漂移,提出了一種基于模型的 (model based) 的方法,這與傳統(tǒng)的基于分布 (distribution based) 的概念漂移檢測(cè)方法不同,不需要用人的經(jīng)驗(yàn)來(lái)做一些分布指標(biāo)就能夠?qū)崿F(xiàn)漂移特征的自動(dòng)檢測(cè)。實(shí)際操作是訓(xùn)練一個(gè)特別簡(jiǎn)單的 GBDT 模型,來(lái)區(qū)分兩個(gè)時(shí)間窗的樣本,通過(guò)特征重要性排序來(lái)排序分布偏移的大小。然后為了適應(yīng)場(chǎng)景,對(duì)高階衍生特征和原始重要特征做了不同的處理。
另外,Meta_Learners 團(tuán)隊(duì)本次設(shè)計(jì)了一套基于梯度提升樹(Gradient Boosting Tree)、概念遷移自適應(yīng)的自動(dòng)機(jī)器學(xué)習(xí)(AutoML)系統(tǒng)。在傳統(tǒng) AutoML 框架基礎(chǔ)上,結(jié)合本次比賽的特點(diǎn)進(jìn)行了針對(duì)性的設(shè)計(jì)。首先,在特征工程方面針對(duì)類別特征高基數(shù)、長(zhǎng)尾分布的特點(diǎn)采用了頻數(shù)編碼;并設(shè)計(jì)了自動(dòng)特征工程模塊,可以針對(duì)不同數(shù)據(jù)集的特點(diǎn),高效地提取出有助于提升模型預(yù)測(cè)效果的多種特征組合;在概念遷移自適應(yīng)方面,采用自適應(yīng)的流式協(xié)同編碼技術(shù),提高數(shù)據(jù)集的表征一致性,從而提升了預(yù)測(cè)性能。在超參數(shù)調(diào)節(jié)上,團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)合了先驗(yàn)知識(shí)和自動(dòng)搜索的層次化自動(dòng)調(diào)參策略,從而保障整個(gè)系統(tǒng)運(yùn)行的效率和魯棒性。
盡管本次大賽周期覆蓋了中國(guó)春節(jié)假期以及學(xué)生的期末放假時(shí)期,但是競(jìng)爭(zhēng)非常激烈;同時(shí),由于 NeurIPS 2018 的冠軍隊(duì)伍也公布了他們的方案,我們也看到這一屆的前三效果都遠(yuǎn)遠(yuǎn)超出了 NeurIPS 2018 年的冠軍解決方案效果;在整體方案上,這次前三在時(shí)序特征處理、不平衡數(shù)據(jù)處理以及對(duì)概念漂移問(wèn)題的處理相比 NeurIPS AutoML 的解決方案都有了非常多的創(chuàng)新與進(jìn)步。
近年來(lái),AutoML 學(xué)術(shù)研究和應(yīng)用逐漸從前沿研究邁入了行業(yè)主流發(fā)展的階段,越來(lái)越多的研究機(jī)構(gòu)和企業(yè)都紛紛開始 AutoML 的研究工作。PAKDD 2019 AutoML 挑戰(zhàn)賽是今年 AutoML 的首場(chǎng)挑戰(zhàn)賽,接下來(lái)會(huì)迎來(lái)今年 KDD CUP 2019 AutoML 和 NeurIPS 2019 AutoDL 兩場(chǎng) AutoML 年度大賽,其中 KDD CUP 是首次舉辦 AutoML 挑戰(zhàn)賽,不僅開創(chuàng)了該項(xiàng)賽事 22 年歷史的先河,更印證了 AutoML 進(jìn)入學(xué)術(shù)研究和行業(yè)應(yīng)用的上升期。
值得欣慰的是,AutoML 在國(guó)內(nèi)的發(fā)展一直處于領(lǐng)先水平。本次 PAKDD 2019 AutoML 競(jìng)賽前三名被中國(guó)隊(duì)包攬,充分展示了中國(guó)在 AutoML 領(lǐng)域的科研實(shí)力。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。