丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

本文作者: 汪思穎 2018-11-29 17:26
導(dǎo)語:阿里小蜜機(jī)器人跨語言短文本匹配算法競賽近日落幕,由微軟羅志鵬、微軟孫浩,北京大學(xué)黃堅(jiān)強(qiáng),華中科技大學(xué)劉志豪組成的 DeepSmart 團(tuán)隊(duì)一舉奪冠。
比賽
比賽名稱:CIKM AnalytiCup
年份:2018
企業(yè):微軟
操作:競賽
名次:1

雷鋒網(wǎng) AI 科技評論消息,CIKM AnalytiCup 2018(阿里小蜜機(jī)器人跨語言短文本匹配算法競賽)近日落幕,由微軟羅志鵬、微軟孫浩,北京大學(xué)黃堅(jiān)強(qiáng),華中科技大學(xué)劉志豪組成的 DeepSmart 團(tuán)隊(duì)在一千多名參賽選手中突出重圍,一舉奪冠。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

本次算法競賽以聊天機(jī)器人中最常見的文本匹配算法為目標(biāo),通過語言適應(yīng)技術(shù)構(gòu)建跨語言的短文本匹配模型。在本次競賽中,源語言為英語,目標(biāo)語言為西班牙語。參賽選手可以根據(jù)主辦方提供的數(shù)據(jù),設(shè)計(jì)模型結(jié)構(gòu)判斷兩個問句語義是否相同。最終,比賽主辦方將在目標(biāo)語言上測試模型的性能。在這次比賽中,主辦方對外部資源進(jìn)行了嚴(yán)格限制。訓(xùn)練數(shù)據(jù)集包含兩種語言,主辦方提供 20000 個標(biāo)注好的英語問句對作為源數(shù)據(jù),同時(shí)提供 1400 個標(biāo)注好的西班牙語問句對,以及 55669 個未標(biāo)注的西班牙語問句。所有的標(biāo)注結(jié)果都由語言和領(lǐng)域?qū)<胰斯?biāo)注。與此同時(shí),也提供每種語言的翻譯結(jié)果。

規(guī)則描述

主辦方希望參賽選手關(guān)注在短文本匹配和語言適應(yīng)的問題上,所有的參賽選手都需要注意以下限制:

1)模型訓(xùn)練中只能使用主辦方提供的數(shù)據(jù),包括有標(biāo)注語料、無標(biāo)注語料、翻譯結(jié)果、詞向量等。不得使用其它數(shù)據(jù)或預(yù)訓(xùn)練模型。

2)如果需要預(yù)訓(xùn)練詞向量,只能使用 fastText 預(yù)訓(xùn)練的詞向量模型。

3)如果需要使用翻譯模型或翻譯語料,只能使用主辦方提供的翻譯結(jié)果。

4)理論上選手們可以用主辦方提供的平行語料訓(xùn)練出一個翻譯模型,此類方法不禁止,但不推薦。

DeepSmart 團(tuán)隊(duì)成員介紹:

羅志鵬(getmax): 微軟 Bing 搜索廣告算法工程師,北京大學(xué)軟件工程專業(yè)碩士,專注于深度學(xué)習(xí)技術(shù)在 NLP, 廣告相關(guān)性匹配,CTR 預(yù)估等方面的研究及應(yīng)用。

黃堅(jiān)強(qiáng) (Jack Strong) : 北京大學(xué)軟件工程專業(yè)碩士在讀,擅長特征工程、自然語言處理、深度學(xué)習(xí)。

孫浩(fastdeep): 微軟 Bing 搜索廣告部門首席開發(fā)工程師,專注于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在搜索廣告和推薦算法領(lǐng)域的創(chuàng)新和應(yīng)用,致力于通過提高在線廣告匹配算法、相關(guān)性模型和點(diǎn)擊率預(yù)估模型等來推動廣告收入增長。

劉志豪 (LZH0115) : 華中科技大學(xué)自動化學(xué)院控制科學(xué)與工程碩士在讀,主要研究方向圖像識別、zero-shot learning、深度學(xué)習(xí)。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

左一:微軟 Bing 搜索廣告部門首席開發(fā)工程師孫浩;左二:微軟 Bing 搜索廣告算法工程師羅志鵬

團(tuán)隊(duì)成員曾經(jīng)獲獎記錄:

  • NeurIPS 2018 AutoML(Phase 1)

    1st place

  • KDD Cup 2018(Second 24-Hour Prediction Track)

    1st place

  • KDD Cup 2018(Last 10-Day Prediction Track)

    1st place

  • Weibo Heat Prediction

    1st place

  • Shanghai BOT Big Data Application Competition

    1st place

  • Daguan text Classification

    1st place

以下為 DeepSmart 團(tuán)隊(duì)成員羅志鵬的奪冠心得和詳細(xì)方案解讀:

1.  你們團(tuán)隊(duì)共有四名成員,大家是通過何種渠道認(rèn)識的?大家的研究背景以及在比賽中的分工如何?各自擅長的工作是什么?

比賽剛開始我們隊(duì)伍有三人,包括我,黃堅(jiān)強(qiáng)和孫浩(Allen),其中黃堅(jiān)強(qiáng)是我的直系師弟,孫浩是我在微軟的 tech lead,是廣告匹配和推薦方面的專家。在比賽即將進(jìn)入第二階段時(shí),我在比賽交流群看到劉志豪想找隊(duì)伍合并,當(dāng)時(shí)覺得和我們的模型有些互補(bǔ),就組成了 4 人戰(zhàn)隊(duì)。由于堅(jiān)強(qiáng)和志豪是在校碩士研究生,相對業(yè)余時(shí)間較多,他們在數(shù)據(jù)處理和特征工程上花了不少時(shí)間;我和 Allen 主要設(shè)計(jì)特征和模型結(jié)構(gòu),堅(jiān)強(qiáng)和志豪也有參與。

我個人比較擅長設(shè)計(jì)和實(shí)現(xiàn)深度學(xué)習(xí)模型,在特征工程和模型融合上也有豐富的經(jīng)驗(yàn);Allen 身為廣告推薦領(lǐng)域的老兵,對主流匹配算法如數(shù)家珍,對數(shù)據(jù)有深入透徹的理解,他基于工業(yè)界的實(shí)際經(jīng)驗(yàn)對算法的弱點(diǎn)提出了多種改進(jìn)方案,幫助我們避免了一些數(shù)據(jù)陷阱;堅(jiān)強(qiáng)和志豪比較擅長設(shè)計(jì)特征,對數(shù)據(jù)有敏銳的直覺,能快速實(shí)現(xiàn)特征并得到效果反饋以加快模型迭代。

整體而言,我們隊(duì)伍的成員有各自擅長的領(lǐng)域,大家優(yōu)勢互補(bǔ),在比賽過程中充分溝通、通力合作,最終讓我們在眾多競爭對手中脫穎而出。

2.  你們最終取得了第一名,這個最終成績是根據(jù)什么而定的呢?

最終成績由 5 項(xiàng)指標(biāo)計(jì)算而來,階段一線上成績占比 20%,階段二線上成績占比 30%,創(chuàng)新性、系統(tǒng)性占比 20%,數(shù)據(jù)理解占比 10%,實(shí)用性占比 20%。

  • 階段一成績:初賽線上成績。

  • 階段二成績:復(fù)賽線上成績。

  • 創(chuàng)新性、系統(tǒng)性:設(shè)計(jì)思路新穎,從數(shù)據(jù)預(yù)處理到模型結(jié)果本地驗(yàn)證的整體設(shè)計(jì)獨(dú)特;合理使用開源庫,充分發(fā)揮開源模型的作用,不盲目拷貝;算法模型設(shè)計(jì)思路清晰,詳細(xì)論述模型設(shè)計(jì)的優(yōu)勢,符合賽題數(shù)據(jù)應(yīng)用特點(diǎn);算法模式架構(gòu)特征明顯,闡明了作品中設(shè)計(jì)相關(guān)特征的目的,及其對于預(yù)測目標(biāo)的優(yōu)勢;算法模型結(jié)果驗(yàn)證策略合理,能夠證明最優(yōu)的結(jié)果是經(jīng)過仔細(xì)比對后得出,而非運(yùn)氣導(dǎo)致。

  • 數(shù)據(jù)理解:充分理解數(shù)據(jù)樣本的字段含義,清晰闡明數(shù)據(jù)預(yù)處理方法。

  • 實(shí)用性:參賽作品的算法模型設(shè)計(jì),對于真實(shí)業(yè)務(wù)具有實(shí)用性或啟發(fā)。

    CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

圖:階段二成績排名

3.  阿里對參賽規(guī)則進(jìn)行了嚴(yán)格限制,如模型訓(xùn)練時(shí)只能使用他們提供的數(shù)據(jù),只能使用 fastText 預(yù)訓(xùn)練的詞向量模型,如果需要使用翻譯模型或翻譯語料,只能使用他們提供的翻譯結(jié)果,這會不同于你們以往的比賽嗎?是否會帶來一些新的挑戰(zhàn)?

這些限制能使得這次比賽更公平,大家使用相同的資源來進(jìn)行效果比拼,盡管能使用一些外部資源是可以幫助提升效果的,但其實(shí)和以往的比賽的差別并不是很大,而且還能讓我們的精力集中在官方提供的數(shù)據(jù)上。

4.  團(tuán)隊(duì)成員中是否有人懂西班牙語?如果懂西班牙語,會不會在比賽中占據(jù)一些優(yōu)勢?

沒有。如果懂西班牙語也許能針對語言做一些數(shù)據(jù)處理或者特征提取來提升模型效果,具體是否有效需要實(shí)驗(yàn)去驗(yàn)證。

5.  這次比賽的難點(diǎn)集中在哪些方面?

  • 嚴(yán)格限制使用外部資源。

  • 提供的訓(xùn)練數(shù)據(jù)少,local 驗(yàn)證不穩(wěn)定。

  • 如何有效的使用英文數(shù)據(jù)。

6. 能具體講講你們在數(shù)據(jù)預(yù)處理、特征工程、驗(yàn)證、模型選擇、模型融合上的思路?

數(shù)據(jù)預(yù)處理、特征工程

我們通過 LightGBM 模型來驗(yàn)證特征效果,對文本做不同的預(yù)處理后進(jìn)行特征工程。經(jīng)驗(yàn)證,不同的文本預(yù)處理后形成的特征進(jìn)行混合非常有利于單個模型的泛化能力的提升。我們將兩個問題稱為 q1 與 q2,接下來列舉用到的特征,并說明不同預(yù)處理方式所使用的特征。

使用的特征如下:

文本距離特征。文本距離能較簡單地判斷出不相似的文本,相似的文本往往字符數(shù)及單詞數(shù)較為接近,會帶有相同或相似的單詞,并且編輯距離會較短。同時(shí),使用了 tf-idf 后關(guān)鍵詞的權(quán)重會高,使用它來代替 count 提取特征更有效。以下為使用的文本距離特征:

  • 字符距離:q1 與 q2 字符數(shù)的差值絕對值,比例。

  • 單詞距離:相同單詞 tf-idf 權(quán)重和占所有單詞 tf-idf 權(quán)重和的比例,q1 與 q2 相同單詞數(shù)占所有單詞數(shù)的比例,q1 與 q2 單詞的 jaccard 距離,q1 與 q2 單詞的交集數(shù),并集數(shù),單詞數(shù)的差值等。

  • 字符 fuzzywuzzy 距離:使用 fuzzywuzzy 計(jì)算字符的編輯距離等。

  • 單詞 fuzzywuzzy 距離:使用 fuzzywuzzy 計(jì)算單詞的編輯距離等。

詞向量特征。共使用了三種詞向量:官方提供的詞向量,利用官方提供的訓(xùn)練數(shù)據(jù)、預(yù)測數(shù)據(jù)、無標(biāo)簽數(shù)據(jù)訓(xùn)練的詞向量,以及去除停用詞后訓(xùn)練的詞向量。雖然訓(xùn)練集及測試集數(shù)據(jù)量小,但是使用它們訓(xùn)練得出的詞向量更能體現(xiàn)出該數(shù)據(jù)的特性。由于兩個問題的單詞長度并不相等,并且相似句子的詞序差異很大,要使用詞向量計(jì)算問題相似性,需要將詞向量轉(zhuǎn)換為句向量,我們對問題的詞向量進(jìn)行了兩種處理得到了與詞向量相同維度的句向量,分別是所有單詞的詞向量取均值,所有單詞的詞向量和除以單詞詞向量的 2 范數(shù),使用這兩種句向量來計(jì)算相似度能從詞向量的角度來計(jì)算出兩個問題的相似性。我們使用詞向量構(gòu)建了以下特征:

  • q1 詞向量均值與 q2 詞向量均值的相似度,相似度計(jì)算包括 cosine, cityblock,canberra, euclidean, minkowski, braycurtis,這些不同的距離能從不同角度來度量相似度。

  • q1 詞向量和除以 q1 詞向量 2 范數(shù)與 q2 詞向量和除以 q2 詞向量 2 范數(shù)的相似度,相似度計(jì)算包括 cosine, cityblock,, canberra, euclidean, minkowski, braycurtis。

  • 使用詞向量計(jì)算問題的 Word Mover's Distance。

  • 根據(jù)兩個問題的單詞的 tf-idf 值提取兩個問題的關(guān)鍵詞,對關(guān)鍵詞的詞向量計(jì)算余弦相似度。兩個問題會由于最關(guān)鍵的單詞不相似從而導(dǎo)致句子不相似,所以通過 tf-idf 先計(jì)算出問題的關(guān)鍵詞,然后再計(jì)算關(guān)鍵詞詞向量的相似度。

主題模型特征。主題模型是常用的文本相似度計(jì)算模型,使用主題模型來提取文本相似度特征加入我們的模型對模型的泛化能力有很大的提升。我們采用 LSI 和 LDA 模型來將句子映射到低維度的主題向量空間,由于主題向量維度低,可以直接使用主題向量特征而且不容易導(dǎo)致模型的過擬合,同時(shí)可以根據(jù)兩個問題的主題向量來得出相似性特征,主題向量的計(jì)算能直接體現(xiàn)出兩個問題的主題是否相似,以下為使用到的主題模型特征:

  • q1,q2 主題數(shù)為 3,5,7,9 的 LSI、LDA 主題向量

  • q1,q2 主題向量差值的絕對值

  • q1,q2 主題向量的相似度

預(yù)處理方式如下:

  • 原文本:使用特征 1,2,3,4,兩個問題文本距離相差大的樣本更傾向于不相似。

  • 去標(biāo)點(diǎn)符號+字母轉(zhuǎn)小寫:使用特征 1,2,3,4,5,6,7,8,9,10,11,有無標(biāo)點(diǎn)符號基本不會改變短文本的語義,大小寫字母對語義也不會有影響,所以去標(biāo)點(diǎn)符號及轉(zhuǎn)換為小寫后提取的特征更為有效。

  • 去標(biāo)點(diǎn)符號+字母轉(zhuǎn)小寫+單詞 2 元組:使用特征 2,4,9,10,11,n 元模型是自然語言處理的常用模型,使用單詞 n 元組來提取特征,給模型增加了單詞間的詞序信息。

  • 去標(biāo)點(diǎn)符號+字母轉(zhuǎn)小寫+去停用詞:使用特征 1,2,3,4,5,6,7,8,9,10,11,停用詞往往沒有實(shí)際含義,去掉停用詞再提取特征給模型增強(qiáng)了非停用詞的信息。

  • 去標(biāo)點(diǎn)符號+字母轉(zhuǎn)小寫+去停用詞+單詞 2 元組:使用特征 2,4,11

  • 去標(biāo)點(diǎn)符號+字母轉(zhuǎn)小寫+去問題交集詞:使用特征 1,3,4,5,6,7,8,9,10,11,去掉問題交集詞后提取特征能給模型增強(qiáng)非交集詞的信息。

無標(biāo)簽數(shù)據(jù)的利用:

無標(biāo)簽數(shù)據(jù)中包含西班牙語到英文的翻譯,且比賽規(guī)則說明了不能使用翻譯接口,因此最初我們訓(xùn)練了一個翻譯模型,但是由于訓(xùn)練數(shù)據(jù)太少,導(dǎo)致模型嚴(yán)重過擬合,最后我們放棄使用翻譯模型。

經(jīng)過數(shù)據(jù)分析發(fā)現(xiàn)無標(biāo)簽數(shù)據(jù)集中包含部分測試集的英文翻譯,所以我們采用純規(guī)則在無標(biāo)簽數(shù)據(jù)中對測試集西班牙語的英文翻譯進(jìn)行了提取,從而我們可以訓(xùn)練英文模型并且對部分測試集進(jìn)行預(yù)測。實(shí)驗(yàn)中發(fā)現(xiàn)當(dāng)我們使用弱匹配時(shí)雖然能匹配到更多的英文對,但是線上效果卻不好,經(jīng)過分析發(fā)現(xiàn)弱匹配會有映射錯誤,而一旦映射錯誤就很容易被預(yù)測成一個接近 0 的概率值,如果這樣,原來這個樣本的 label 是 1 的話,loss 就會變得很大,因此我們匹配時(shí)盡量做到精確匹配,盡管這樣匹配的樣本不多。

根據(jù)我們的較精確的匹配方法,在 A 榜測試集中,我們可以從 5000 個測試集中提取出 2888 個,在 B 榜測試集中,我們可以從 10000 個測試集中提取出 4334 個。在 A 榜中,使用英文訓(xùn)練的模型來預(yù)測這 2888 個測試集,經(jīng)驗(yàn)證,使用西班牙語模型與英語模型融合在 A 榜評分上能提升 0.003~0.004,由于 B 榜匹配上的樣本占比更少,效果提升可能會有所減少。

從實(shí)驗(yàn)中我們驗(yàn)證了英文模型的有效性,如果使用英文翻譯接口肯定能夠得到更好的效果,此外也可以使用多種語言進(jìn)行翻譯來做數(shù)據(jù)增強(qiáng)。

驗(yàn)證

我們采用了以下兩種驗(yàn)證方式。

  • Holdout validation:

由于測試集都為原生的西班牙語,而給予的訓(xùn)練集分為兩類,一類是 20000 對從英語翻譯過來的西班牙語,一類是 1400 對從西班牙語翻譯過來的英語。顯然,1400 對西班牙語更適合用于做驗(yàn)證,由于驗(yàn)證集和線上測試正負(fù)比例不一致,所以我們復(fù)制 1400 對西班牙語樣本并調(diào)整了正負(fù)樣本的比重,最終得到 34061 對驗(yàn)證集,同時(shí)我們對模型的隨機(jī)數(shù)種子進(jìn)行多次更換,取多個模型對驗(yàn)證集預(yù)測的平均值來得到最終的驗(yàn)證集評分。經(jīng)過與 A 榜得分的對照,對該驗(yàn)證集預(yù)測評分的提升與 A 榜分?jǐn)?shù)的提升保持了較好的一致性。

  • k-fold validation:

由于數(shù)據(jù)集較小,只采用一種驗(yàn)證方式并不能保證模型的泛化能力,所以我們也對 21400 對訓(xùn)練集采用了十折交叉驗(yàn)證。在每一折,我們留出一個部分作為驗(yàn)證集,一個部分作為測試集,并且將其余部分作為訓(xùn)練集。同時(shí)考慮到單一的數(shù)據(jù)劃分,可能劃分后的數(shù)據(jù)分布與測試集的數(shù)據(jù)分布差異更大,使得線下驗(yàn)證的結(jié)果可能與線上不一致,因此,我們設(shè)定不同的隨機(jī)種子來產(chǎn)生多種劃分。通過這種方式來調(diào)節(jié)模型的超參數(shù)以獲得更好的線下線上一致性。當(dāng)大致確定了模型的超參數(shù)之后,我們再使用一般的交叉驗(yàn)證方式來訓(xùn)練模型,以使得每折有更多的訓(xùn)練數(shù)據(jù)。

模型選擇、模型融合

在模型的選擇上,我們主要考慮使用深度神經(jīng)網(wǎng)絡(luò)模型,主要包括 3 種網(wǎng)絡(luò)結(jié)構(gòu)。在實(shí)驗(yàn)中我們測試了多種詞嵌入的形式,我們使用了給定的 300 維的詞向量,并且通過給定的語料訓(xùn)練了 128 維的詞向量。通過實(shí)驗(yàn)我們發(fā)現(xiàn)使用給定語料訓(xùn)練出來的詞向量能夠?qū)崿F(xiàn)更低的 logloss,這可能是因?yàn)榻o定語料訓(xùn)練的詞向量對問題本身根據(jù)有針對性,能夠?qū)W習(xí)到針對該任務(wù)更好的表示;此外我們還測試過 tri-letter 和字符卷積,因?qū)嶒?yàn)效果不好最后未使用。

  • 模型一:M-CNN

該模型是由我們自主創(chuàng)新的一個語義匹配模型。首先使用 Embedding 對 q1,q2 進(jìn)行編碼提取每個 word 的語義特征,然后再經(jīng)過 BN 對 word 的語義特征進(jìn)行標(biāo)準(zhǔn)化,然后我們使用不同尺寸的 filter 建立卷積層,每一種 filter 用來提取一種局部語義特征,filter 越大局部語義跨度越大。這里我們使用 conv1-conv5 和 maxpooling 后得到 5 種不同的句子語義特征向量,再用 q1 和 q2 對應(yīng)的局部語義特征向量計(jì)算余弦相似度,可以得到 5 個余弦相似度,我們也添加了交叉相似特征,包括 Cos1*Cos2, Cos1*Cos3, Cos1*Cos4, 然后 concat 連接起來形成新的表示層,最后再經(jīng)過 Dense,PRelu, Dropout, BN,output 得到最后的匹配結(jié)果。此外我們進(jìn)行了進(jìn)一步優(yōu)化,我們用 Embedding 后的 q1,q2 計(jì)算余弦相似矩陣,這里每個 word 的向量由該 word 與另一端的所有 word 余弦相似性組成,然后我們保留了 top10 的相似性作為該 word 的語義表達(dá),然后經(jīng)過卷積、maxpooling、dense 得到另一種匹配度,最后加入到 Cos 的 concat 中。由于 q1 和 q2 的順序無關(guān),所以這里的 Embedding,BatchNormlization 和所有的 convolution 層都是共享的。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

  • 模型二:Decomposable Attention

該模型的核心是 alignment, 即詞與詞之間的對應(yīng)關(guān)系,alignment 用在了兩個地方,一個是 attend 部分,是用來計(jì)算兩個句子之間的 attention 關(guān)系,另一個是 compare 部分,對兩個句子之間的詞進(jìn)行比較,每次的處理都是以詞為單位,最后用前饋神經(jīng)網(wǎng)絡(luò)去做預(yù)測,它并沒有使用到詞在句子中的時(shí)序關(guān)系,但是它參數(shù)量少且運(yùn)行速度較塊,在實(shí)驗(yàn)中也取得了不錯的效果。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

  • 模型三:ESIM

相對于 Decomposable Attention 模型來說,ESIM 在 Embedding 之后添加了 BatchNormlization 層,并把 project 層和 compare 層都從原來的 Dense 換成了 BiLSTM。這里的局部推理(Local Inference Modeling)也是一個 attention 過程,只是它是在 LSTM 輸出序列上計(jì)算得到的。同樣 Pooling 層也是在 LSTM 的每個時(shí)間步上進(jìn)行 pooling 的,ESIM 模型有了很強(qiáng)的時(shí)序關(guān)系,在時(shí)序比較敏感的任務(wù)中一般能夠取得很好的效果,在此次競賽中 ESIM 也表現(xiàn)的很好。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

使用 dense feature 作為 gate 的模型優(yōu)化:

我們在 LightGBM 中使用了文本字距離、tf-idf、詞向量相似度、LDA、LSI 等特征,同時(shí)我們把這些特征嵌入到了深度學(xué)習(xí)模型中,這部分特征我們稱做 dense feature。在實(shí)驗(yàn)中發(fā)現(xiàn)把 dense feature 和 nn 模型某一層直接 concat 的效果并不好,我們參考了 product neural network 概念以及 LSTM 中的 Gate 設(shè)計(jì),我們把 dense feature 做為 gate 來使用,使用中我們把 dense feature 經(jīng)過全連接層得到和子模型維度一樣的表示向量,然后加上 sigmoid 激活函數(shù),再進(jìn)行 element-wise-multiplication,這樣 dense feature 就可以控制子模型的信息流通,通過實(shí)驗(yàn)發(fā)現(xiàn)這樣的結(jié)構(gòu)在每個子模型上都得到的很大的提升。優(yōu)化后的模型結(jié)構(gòu)如下:

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

Gate-ESIM:

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

這次比賽我們在模型融合上做的比較簡單,最終結(jié)果融合了 4 種模型,包括 Gate-M-CNN, Gate-DA, Gate-ESIM 和 LightGBM,對于這 4 種模型我們訓(xùn)練了英文版本和西班牙語版本,首先按照兩種語言分別加權(quán)融合,然后再融合兩種語言的結(jié)果。

7. 你們在榜單上領(lǐng)先第二名很多,這次比賽能得到冠軍的決定性因素有哪些?

  • 提出了一種用 dense feature 做 gate 的網(wǎng)絡(luò)結(jié)構(gòu)。

  • 設(shè)計(jì)了一種基于 CNN 的多種局部相似度的網(wǎng)絡(luò)結(jié)構(gòu)。

  • 使用 2 種本地驗(yàn)證方式,讓效果提升更穩(wěn)定。

  • 從無標(biāo)簽數(shù)據(jù)中匹配英文,進(jìn)行兩種語言的模型融合。

  • 使用 2 個版本的 dense feature 構(gòu)造差異化的 gate, 增加模型差異性。

  • 基于官方數(shù)據(jù)訓(xùn)練了 fasttext 詞向量,由于詞向量處于網(wǎng)絡(luò)的第一層,并且占用了大量參數(shù),使用不同的詞向量訓(xùn)練的模型具有很大的差異性。

  • 融合 LighGBM 和 DNN 模型。

  • 構(gòu)造了幾種差異化的模型結(jié)構(gòu),提升了融合效果,增加了結(jié)果穩(wěn)定性。

  • 使用不同的預(yù)處理方法構(gòu)造特征,加強(qiáng)了特征表達(dá)。

  • 多種句向量距離度量方法,包括詞向量均值距離,Word Mover's Distance 及 TF-IDF 與詞向量的結(jié)合。

  • 使用 LDA,LSI, fuzzywuzzy 等增加特征多樣性。

8. 你們已經(jīng)參加了很多數(shù)據(jù)挖掘類比賽,如今年的 KDD Cup,NeurIPS 2018 AutoML, 這些賽事有哪些共性?你們挑選賽事的標(biāo)準(zhǔn)是什么?

這些都是頂級學(xué)術(shù)會議舉辦的比賽,比賽質(zhì)量高,影響力大,有許多經(jīng)驗(yàn)豐富且實(shí)力很強(qiáng)的競爭對手。

參加比賽主要是我們的個人興趣,我們參加過許多不同類型的比賽,大多都是使用的工業(yè)應(yīng)用數(shù)據(jù)。在比賽中,我們有機(jī)會去真正解決這些工業(yè)應(yīng)用問題,這讓我們頗有成就感,因此我們并沒有什么嚴(yán)格的挑選賽事標(biāo)準(zhǔn),能從比賽中學(xué)到東西并解決工業(yè)應(yīng)用問題就是我們的選擇標(biāo)準(zhǔn)。

9. 對于經(jīng)常參加機(jī)器學(xué)習(xí)類比賽的同學(xué),有什么好的建議和經(jīng)驗(yàn)分享?如何才能做到像你們這樣的成績?

經(jīng)常參加機(jī)器學(xué)習(xí)類競賽的同學(xué)通常是對機(jī)器學(xué)習(xí)競賽感興趣的同學(xué),有的在校,有的在職,通常在校學(xué)生比較多,在職的相對要少一些。

對于在校的同學(xué)來說,參加機(jī)器學(xué)習(xí)競賽可以快速提升自己的專業(yè)技能,也能積累實(shí)戰(zhàn)經(jīng)驗(yàn),對找實(shí)習(xí)和找工作都有很大幫助;對于在職的同學(xué)來說,希望在業(yè)余競賽的同時(shí)能把競賽中學(xué)習(xí)到的東西應(yīng)用到當(dāng)前工作中來,由于競賽需要花費(fèi)不少時(shí)間,也建議隊(duì)伍中有時(shí)間相對比較多的在校學(xué)生;也希望參賽經(jīng)驗(yàn)豐富的同學(xué)能多多分享,帶帶新人。

其實(shí)網(wǎng)上已經(jīng)有挺多經(jīng)驗(yàn)分享了,我們的分享很簡單:多看看優(yōu)勝隊(duì)伍的分享和相關(guān)任務(wù)的 paper,多思考,對于特定任務(wù)可以結(jié)合實(shí)際業(yè)務(wù)場景深入探索。

在機(jī)器學(xué)習(xí)競賽中取得 top 的成績不僅要實(shí)力也需要一定的運(yùn)氣,放松心態(tài),帶著學(xué)習(xí)的態(tài)度去玩比賽,在玩的過程中,能提升自己的能力,認(rèn)識更多相同興趣的朋友,這就是最大的收獲。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CIKM AnalytiCup 2018冠軍方案出爐,看他們構(gòu)造模型的訣竅

分享:

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說