CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

本文作者：李尊

2016-11-03 11:57

導語：ACM CIKM Cup 2016中阿里巴巴集團搜索事業(yè)部Natural Artificial Intelligence團隊獲得冠軍

近日在美國Indianapolis舉行的ACM CIKM Cup 2016中，來自中國阿里巴巴集團搜索事業(yè)部Natural Artificial Intelligence團隊在獲得了Personalized E-Commerce Search Challenge項目冠軍。

CIKM全稱是The ACM Conference on Information and Knowledge Management，是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的全球頂級學術(shù)會議，由美國計算機協(xié)會(ACM)主辦。

今年CIKM Cup 2016競賽題目有：

跨設(shè)備實體連接（Cross-Device Entity Linking Challenge）
個性化電商搜索排序(Personalized E-Commerce Search Challenge)

跨設(shè)備實體連接（Cross-Device Entity Linking Challenge）

當下建立準確的用戶身份已是廣告公司一個非常困難和重要的問題，在這個過程中最關(guān)鍵的任務(wù)是在多個設(shè)備尋找相同的用戶信息，整合他們的數(shù)字足跡進行更精準的分析。

跨設(shè)備實體連接（Cross-Device Entity Linking Challenge）為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會，來解決這個具有挑戰(zhàn)性的任務(wù)。

個性化電商搜索排序(Personalized E-Commerce Search Challenge)

個性化電商搜索排序(Personalized E-Commerce Search Challenge)為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會，他們可以用來測試新的電子商務(wù)個性化搜索方法以及鞏固現(xiàn)有工作成果。

這項挑戰(zhàn)的獨特之處在于：

（1）釋出搜索記錄和瀏覽日志，過去只有搜索記錄。
（2）專注于電子商務(wù)搜索，因此有交易數(shù)據(jù)和獨特的（探索性）搜索行為模式。
（3）提供產(chǎn)品圖像，允許通過視覺特性來搜索排名實驗。

其中，阿里團隊獲得的是Personalized E-Commerce Search Challenge項目冠軍，該項目中主辦方提供了來自 DIGINETICA及其合作伙伴提供的用戶搜索、商品數(shù)據(jù)、交易信息（匿名）以及一個大型的產(chǎn)品圖像數(shù)據(jù)集。

CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

競賽目標是針對搜索引擎的召回結(jié)果進行相關(guān)性打分，并基于打分進行排序，排序結(jié)果越接近理想值越好。相比主辦方提供的搜索排序基準數(shù)據(jù)，來自阿里巴巴的參賽團隊提升了21.28%。

在這次比賽中，阿里團隊將相關(guān)方法整理發(fā)布了題為Ensemble Methods for Personalized E-Commerce SearchChallenge at CIKM Cup 2016的文章。

CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

在文章中，阿里團隊表示主要使用了集成方法，以及邏輯回歸、決策樹、SVM以及深度模型等。

據(jù)AI科技評論了解，目前集成方法（Ensemble Methods）正當紅，如Kaggle平臺上面的比賽幾乎都是用多個模型來集成來獲取更好的成績。

集成方法

常見的集成方法（Ensemble Methods）有這么幾種：

Bagging：使用訓練數(shù)據(jù)的不同隨機子集來訓練每個 Base Model，最后進行每個 Base Model 權(quán)重相同的 Vote。
Boosting：迭代地訓練 Base Model，每次根據(jù)上一個迭代中預測錯誤的情況修改訓練樣本的權(quán)重。
Blending：用不相交的數(shù)據(jù)訓練不同的 Base Model，將它們的輸出?。訖?quán)）平均。
Stacking：劃分訓練數(shù)據(jù)集為兩個不相交的集合，在第一個集合上訓練多個學習器，在第二個集合上測試這幾個學習器，把第三步得到的預測結(jié)果作為輸入，把正確的回應作為輸出，訓練一個高層學習器。

邏輯回歸

邏輯回歸(Logistic Regression)是一種強大的統(tǒng)計方法，它能建模出一個二項結(jié)果與一個（或多個）解釋變量。它通過估算使用邏輯運算的概率，測量分類依賴變量和一個（或多個）獨立的變量之間的關(guān)系，這是累積的邏輯分布情況。

CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

決策樹

決策樹是一個決策支持工具，它使用樹形圖或決策模型以及序列可能性。包括各種偶然事件的后果、資源成本、功效。下圖展示的是它的大概原理：

CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

SVM

SVM（Support Vector Machine）是二元分類算法。給定一組2種類型的N維的地方點，SVM（Support Vector Machine）產(chǎn)生一個（N - 1）維超平面到這些點分成2組。假設(shè)你有2種類型的點，且它們是線性可分的。 SVM（Support Vector Machine）將找到一條直線將這些點分成2種類型，并且這條直線會盡可能地遠離所有的點。

CIKM Cup 2016冠軍，阿里巴巴這次用了什么黑科技？

在文章最后，阿里團隊表示這次獲得Personalized E-Commerce Search Challenge項目冠軍主要是以下三個主要因素：

數(shù)據(jù)架構(gòu)（data construction）
特征工程（feature engineering）
集成建模（ensemble modeling）

AI科技評論君認為，這次ACM CIKM Cup 2016比賽之前阿里的團隊在廣義的搜索那塊相對沒有那么有名。但由于其天生電商屬性，讓它在情投意合的CIKM Cup 2016大賽中個性化電商搜索排序(Personalized E-Commerce Search Challenge)部分正好一展身手，其實是歸功于其多年的技術(shù)沉淀所致。

在這次ACM CIKM Cup 2016決賽中，阿里巴巴團隊使用了集成方法，以及邏輯回歸、決策樹、SVM以及深度模型等，融合了多種方法，證明了其在這方面的實力。也希望阿里強大的計算能力和數(shù)據(jù)能力在未來能改變更多的行業(yè)，讓數(shù)據(jù)產(chǎn)生更大的價值。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。