丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

本文作者: 汪思穎 2019-07-08 11:17
導(dǎo)語:細(xì)節(jié)分享

雷鋒網(wǎng) AI 科技評論按,近日,IEEE ISI 2019 國際大數(shù)據(jù)分析競賽結(jié)果出爐,今年的競賽包括企業(yè)投資價值評估和法律訴訟類型預(yù)測兩個賽題,來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團(tuán)隊分別取得了一項冠軍和一項季軍的優(yōu)異成績,本文作者羅志鵬(深蘭科技北京 AI 研發(fā)中心),他為雷鋒網(wǎng) AI 科技評論獨家撰寫了該團(tuán)隊在企業(yè)投資價值評估賽題中的算法思路與技術(shù)細(xì)節(jié)分享。

背景介紹

IEEE 年度國際會議是安全信息學(xué)領(lǐng)域的旗艦會議,于 2003 年首次在美國亞利桑那州圖森市召開。在過去的 16 年中,IEEE ISI 會議已經(jīng)從傳統(tǒng)的智能和安全領(lǐng)域發(fā)展到多領(lǐng)域聯(lián)合研究與創(chuàng)新。今年,第 17 屆 IEEE ISI 會議在中國深圳于 7 月 1 日至 3 日由深圳人工智能與數(shù)據(jù)科學(xué)研究所主辦。

為了促進(jìn)人工智能分析行業(yè)的發(fā)展,并為學(xué)術(shù)交流和技術(shù)討論提供一個平臺,IEEE ISI 會議發(fā)起了此次國際大數(shù)據(jù)分析競賽 (IEEE ISI 2019 年世界杯,IWC 2019)。本競賽面向全球高校、研究機(jī)構(gòu)、企業(yè)、政府開放。共有來自中國、美國、巴基斯坦、伊拉克、英國、德國、挪威 7 個國家,來自華為、京東、滴滴等知名企業(yè),以及來自清華大學(xué)、北京大學(xué)、浙江大學(xué)等知名高校的三百余支隊伍參賽,參賽總?cè)藬?shù)逾千人。

團(tuán)隊成績

在企業(yè)投資價值評估賽題中 DeepBlueAI 團(tuán)隊以較大領(lǐng)先優(yōu)勢獲得冠軍,排名如下:

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 1 最終排行榜

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

賽題介紹

本次比賽提供了基于 3500 家上市公司全量信息,描述公司在財務(wù)、法務(wù)、股權(quán)、經(jīng)營狀況、輿論等方面的屬性特征,包含企業(yè)的工商信息、年報、財務(wù)信息、納稅信息、股權(quán)信息、法務(wù)信息、知識產(chǎn)權(quán)信息、經(jīng)營信息、購地信息等數(shù)據(jù)(以實際發(fā)布的數(shù)據(jù)集為準(zhǔn))。這些數(shù)據(jù)來自于官方統(tǒng)計平臺,數(shù)據(jù)真實可信。每一家企業(yè)對應(yīng)一個類目 ID。參賽選手需要合理運用現(xiàn)有數(shù)據(jù)集材料,篩選出對競賽有價值的信息進(jìn)行特征構(gòu)建和模型訓(xùn)練。

本次會議共有兩個賽題:

賽題 1 企業(yè)投資價值評估

參賽者可參照企業(yè)的年報、財務(wù)信息、經(jīng)營信息、資產(chǎn)信息、稅務(wù)信息,知識產(chǎn)權(quán)等企業(yè)綜合信息對企業(yè)投資情況進(jìn)行打分,為投資者提供投資依據(jù)。

賽題 2 法律訴訟類型預(yù)測

參賽者可根據(jù)企業(yè)的法院公告、裁判文書、動產(chǎn)抵押、司法凍結(jié)、行政處罰、欠稅信息、開庭公告等法務(wù)信息預(yù)測企業(yè)未來一段時間可能收到的法律訴訟類型,為企業(yè)規(guī)避法律風(fēng)險。

本文接下來分享賽題 1 的思路與技術(shù)細(xì)節(jié)。

評測指標(biāo)

使用均方根誤差 RMSE 作為本次競賽的主要性能指標(biāo)。返回結(jié)果越小代表模型性能越好。比賽成績以參賽團(tuán)隊提交的測試集結(jié)果為準(zhǔn),此部分占總成績 90%。同時會根據(jù)代碼的魯棒性、可擴(kuò)展性、可讀性為算法模型打分,此部分占總成績 10%。比賽最終排名取決于以上兩部分成績總和。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

題目特點以及主要工作

在這次比賽中,主要有以下難點:

  1. 數(shù)據(jù)維度廣

    該賽題主辦方提供 37 張 xlsx 格式的數(shù)據(jù)表格,一共包括 304 列。

  2. 信息復(fù)雜

    包括公司產(chǎn)品信息、工商基本信息、購地信息、海關(guān)進(jìn)出口信息、年報信息、融資信息、商標(biāo)信息、上市財務(wù)信息、專利信息、招標(biāo)信息等。

  3. 數(shù)據(jù)特征類型豐富

    包括字符串、數(shù)值型、類目型、時間等。

  4. 數(shù)據(jù)量小

    訓(xùn)練集僅有 3000 條。

對于這樣大量的字段,如果直接采用人工去做特征,一方面工作量巨大,另外一方面很多特征也難以想到。故團(tuán)隊成員基于以上難點,采用了自研的 AutoML 系統(tǒng)進(jìn)行建模,該系統(tǒng)包括了自動數(shù)據(jù)清洗、自動特征工程、自動特征選擇、自動模型調(diào)參、自動模型融合等步驟,能極大的提高任務(wù)建模的效率,并且在此次競賽中也大大提升了效果。

自動化數(shù)據(jù)清洗

在通常的競賽中,我們的數(shù)據(jù)往往是比較干凈的,要么采集比較規(guī)范,要么已經(jīng)經(jīng)過加工處理。這次競賽提供的數(shù)據(jù)是真實的工業(yè)界應(yīng)用數(shù)據(jù),含有大量的不規(guī)范字段。比如時間列,就存在各種各樣的格式,比如存在年份縮寫、中文年月日、標(biāo)記格式不統(tǒng)一(有時用「\」,有時用「-」來分隔)等情況。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 2 原始數(shù)據(jù)展示

考慮這些數(shù)據(jù)情況,可能是由于數(shù)據(jù)錄入的時候,不同年代采用不同的格式,并且數(shù)據(jù)保留了原來的格式,從而造成了大量數(shù)據(jù)不規(guī)范的問題。另外數(shù)據(jù)中存在著大量的噪聲。而我們的自動化數(shù)據(jù)清洗模塊,對不同類型的數(shù)據(jù)使用不同的清洗方法,能夠有效地清洗不規(guī)范數(shù)據(jù)。

特征工程

我們的特征工程部分包含兩個階段:AutoML 自動特征工程階段和業(yè)務(wù)特征強化階段。

在 AutoML 自動特征工程階段,將原始數(shù)據(jù)清洗成 AutoML 系統(tǒng)可處理的格式后,進(jìn)行自動特征生成,然后進(jìn)行特征選擇迭代。在特征選擇階段我們采用 lightGBM 單模型。在自動特征工程中,我們假設(shè)通用場景類型,選擇和本次任務(wù)契合的場景類型進(jìn)行自動特征工程,在每一輪特征迭代過程中我們參考了上一輪特征的重要性,在重要性高的特征上面進(jìn)行迭代更新。篩選出的特征中比較重要的有:行業(yè)細(xì)類特征、資歷、年報等。具體地,原始特征包含了數(shù)值類型,分類類型,時間類型以及文本類型。我們對數(shù)值類型和類目特征生成了基本統(tǒng)計特征,以及數(shù)值和分類的聚合特征。對時間類型,提取了周期性特征。對文本特征,采用 TF-IDF、LDA 方法提取特征。同時我們也提取重要特征進(jìn)行高階組合,從而避免了指數(shù)級的特征組合,并且能挖掘三階甚至四階不同類型的特征組合,有效地提升模型性能。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 3 AutoML 自動特征工程

在自動特征階段生成的全部特征累計有 7000 多列,自動特征選擇采用遞減的方式,在業(yè)務(wù)特征強化階段,我們通過深入思考業(yè)務(wù)的邏輯,結(jié)合已有特征的重要性,挖掘出業(yè)務(wù)中我們認(rèn)為應(yīng)該考慮進(jìn)去的信息,然后構(gòu)造出能反應(yīng)這些信息的特征。

在自動特征工程階段,我們發(fā)現(xiàn)專利和資質(zhì)認(rèn)證兩個信息對模型效果提升較大。這很符合我們的直覺,在對企業(yè)價值評分時,專利的數(shù)量、種類等信息無疑是非常重要的。

首先是針對專利信息,我們挖掘了公司的專利在時間線上的活躍度,公司在該專利領(lǐng)域的實力。我們猜測在長期專利數(shù)量較多或者存在上升趨勢的企業(yè)投資價值評分應(yīng)該更高。根據(jù)實際專利的申請審核流程,提交申請到出審核結(jié)果的時間長度,我們提取了企業(yè)在最近 1、3、6、12、24 個月的專利數(shù)量以及專利數(shù)量較多的種類。其次我們挖掘了每個城市每個行業(yè)的企業(yè)競爭力,用城市中各個行業(yè)的公司數(shù)量以及他們之間的相對特征來表現(xiàn)。我們猜測公司地址在其行業(yè)密集度較高的城市具有更強的競爭意識和競爭氛圍,成長性較高,可能會得到較高的投資價值評分。之后我們挖掘了公司的認(rèn)證資格競爭力信息,在行業(yè)內(nèi)理論上應(yīng)該是資歷認(rèn)證更完善的公司實力更強,風(fēng)險更小,我們通過構(gòu)造公司在資歷全集中的完善度特征來反映這個信息。

模型融合

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 4 模型集成

為了增強最終結(jié)果的穩(wěn)定性,我們采用 Stacking+Bagging 的方式進(jìn)行模型融合。融合的主體方法是 Stacking, 第一層我們采用過的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTrees Regressor。每個模型采用交叉驗證的方式進(jìn)行線下驗證。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 5 模型結(jié)果

在 Stacking 的第二層中我們采用了基于約束的線性模型,在實驗中發(fā)現(xiàn)效果好于其他線性和非線性模型。

在 Bagging 中我們使用不同 seed 以及隨機(jī)微調(diào)了一些參數(shù)分別生成 10 個 LightGBM 和 10 個 XGBoost 模型。最后將 Stacking 的結(jié)果與 Bagging 結(jié)果進(jìn)行簡單線性加權(quán)融合作為最終預(yù)測結(jié)果。在這次競賽中模型融合提升并不是很大,從榜單來看我們的單模型結(jié)果就能獲得冠軍,因此 AutoML 自動特征工程部分是我們制勝的關(guān)鍵。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

圖 6 模型融合

工作總結(jié)

在此次競賽中,我們的主要工作包括:

  • 對于相似的數(shù)據(jù)創(chuàng)建了一鍵清洗系統(tǒng),這套系統(tǒng)可以自動計算來轉(zhuǎn)化貨幣格式、使用強規(guī)則收集時間戳和時間增量以及根據(jù)數(shù)據(jù)分布自動填寫缺失值。

  • 選擇使用 AutoML 自動特征工程和自動特征選擇。對于多維度,多字段的表單數(shù)據(jù),AutoML 可以極大的提升開發(fā)效率和模型效果。

  • 設(shè)計了一些針對業(yè)務(wù)場景的特征。

  • 構(gòu)建了多種不同類型模型的集成,使得集成之后的效果有所提升,也增加了結(jié)果穩(wěn)定性。

進(jìn)一步工作

此次競賽主辦方提供的數(shù)據(jù)量比較小,可以收集多年的數(shù)據(jù)根據(jù)滑窗的方式獲取更多的訓(xùn)練數(shù)據(jù)。

影響企業(yè)投資價值的因素多,可能需要更多公司動態(tài)信息,例如人員流動信息和招聘信息等,這些信息可能有助于提升預(yù)測效果。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AutoML在IEEE-ISI World Cup 2019競賽中的應(yīng)用:冠軍團(tuán)隊DeepBlueAI技術(shù)分享

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說