0
本文作者: 章敏 | 2016-08-29 15:39 |
摘要:由于存儲(chǔ)硬件和數(shù)據(jù)采集技術(shù)的不斷發(fā)展,越來(lái)越多數(shù)據(jù)正被收集。數(shù)據(jù)的傳入流量非常的龐大,以至于數(shù)據(jù)挖掘技術(shù)無(wú)法跟上其腳步。收集的數(shù)據(jù)往往有多余的或不相關(guān)的特征/實(shí)例,它們會(huì)限制分類的性能。特征選取和實(shí)例選取是通過(guò)消除無(wú)用數(shù)據(jù)來(lái)幫忙緩解該問(wèn)題的過(guò)程。本文提出了一系列使用差分進(jìn)化算法(Differential Evolution )的算法,實(shí)現(xiàn)特征選取,實(shí)例選取,以及特征選取和實(shí)例選取的結(jié)合。數(shù)據(jù)的減少,分類精度和訓(xùn)練時(shí)間與原來(lái)的數(shù)據(jù)和現(xiàn)有的算法有的一拼。十個(gè)不同難度數(shù)據(jù)集中的實(shí)驗(yàn)研究表明:新發(fā)展的算法可以成功的減小數(shù)據(jù)的規(guī)模,而且在大多數(shù)情況下可以維持合作增加分級(jí)性能。此外,計(jì)算時(shí)間也有著實(shí)質(zhì)性的減少。本次工作是第一次系統(tǒng)性的,在分級(jí)中研究一系列特征/實(shí)例選取算法,且結(jié)果表明實(shí)例選取問(wèn)題比特征選取問(wèn)題更難解決,但方法有效的話,就可以大大減小數(shù)據(jù)的規(guī)模并提供巨大的利益。
關(guān)鍵詞:差分進(jìn)化算法·特征選取·實(shí)例選取·分級(jí)
Bing Xue
學(xué)歷:惠靈頓維多利亞大學(xué)工程與計(jì)算機(jī)科學(xué)學(xué)院博士
研究方向:人工智能,機(jī)器學(xué)習(xí),大數(shù)據(jù)/連接生物學(xué),統(tǒng)計(jì),工程和數(shù)學(xué)的數(shù)據(jù)庫(kù)
相關(guān)學(xué)術(shù)論文:
·"A Survey on Evolutionary Computation Approaches to Feature Selection"(IEEE Transaction on Evolutionary Computation .Aug. 2016)
·"Cross-Domain Reuse of Extracted Knowledge in Genetic Programming for Image Classification"(IEEE Transaction on Evolutionary Computation 2016)
via:PRICAI 2016
PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。