1
本文作者: 李尊 | 2016-11-03 11:57 |
近日在美國Indianapolis舉行的ACM CIKM Cup 2016中,來自中國阿里巴巴集團搜索事業(yè)部Natural Artificial Intelligence團隊在獲得了Personalized E-Commerce Search Challenge項目冠軍。
CIKM全稱是The ACM Conference on Information and Knowledge Management,是信息檢索和數(shù)據(jù)挖掘領域的全球頂級學術(shù)會議,由美國計算機協(xié)會(ACM)主辦。
今年CIKM Cup 2016競賽題目有:
跨設備實體連接(Cross-Device Entity Linking Challenge)
個性化電商搜索排序(Personalized E-Commerce Search Challenge)
跨設備實體連接(Cross-Device Entity Linking Challenge)
當下建立準確的用戶身份已是廣告公司一個非常困難和重要的問題,在這個過程中最關鍵的任務是在多個設備尋找相同的用戶信息,整合他們的數(shù)字足跡進行更精準的分析。
跨設備實體連接(Cross-Device Entity Linking Challenge)為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會,來解決這個具有挑戰(zhàn)性的任務。
個性化電商搜索排序(Personalized E-Commerce Search Challenge)
個性化電商搜索排序(Personalized E-Commerce Search Challenge)為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會,他們可以用來測試新的電子商務個性化搜索方法以及鞏固現(xiàn)有工作成果。
這項挑戰(zhàn)的獨特之處在于:
(1)釋出搜索記錄和瀏覽日志,過去只有搜索記錄。
(2)專注于電子商務搜索,因此有交易數(shù)據(jù)和獨特的(探索性)搜索行為模式。
(3)提供產(chǎn)品圖像,允許通過視覺特性來搜索排名實驗。
其中,阿里團隊獲得的是Personalized E-Commerce Search Challenge項目冠軍,該項目中主辦方提供了來自 DIGINETICA及其合作伙伴提供的用戶搜索、商品數(shù)據(jù)、交易信息(匿名)以及一個大型的產(chǎn)品圖像數(shù)據(jù)集。
競賽目標是針對搜索引擎的召回結(jié)果進行相關性打分,并基于打分進行排序,排序結(jié)果越接近理想值越好。相比主辦方提供的搜索排序基準數(shù)據(jù),來自阿里巴巴的參賽團隊提升了21.28%。
在這次比賽中,阿里團隊將相關方法整理發(fā)布了題為Ensemble Methods for Personalized E-Commerce SearchChallenge at CIKM Cup 2016的文章。
在文章中,阿里團隊表示主要使用了集成方法,以及邏輯回歸、決策樹、SVM以及深度模型等。
據(jù)AI科技評論了解,目前集成方法(Ensemble Methods)正當紅,如Kaggle平臺上面的比賽幾乎都是用多個模型來集成來獲取更好的成績。
常見的集成方法(Ensemble Methods)有這么幾種:
Bagging:使用訓練數(shù)據(jù)的不同隨機子集來訓練每個 Base Model,最后進行每個 Base Model 權(quán)重相同的 Vote。
Boosting:迭代地訓練 Base Model,每次根據(jù)上一個迭代中預測錯誤的情況修改訓練樣本的權(quán)重。
Blending:用不相交的數(shù)據(jù)訓練不同的 Base Model,將它們的輸出?。訖?quán))平均。
Stacking:劃分訓練數(shù)據(jù)集為兩個不相交的集合,在第一個集合上訓練多個學習器,在第二個集合上測試這幾個學習器,把第三步得到的預測結(jié)果作為輸入,把正確的回應作為輸出,訓練一個高層學習器。
邏輯回歸(Logistic Regression)是一種強大的統(tǒng)計方法,它能建模出一個二項結(jié)果與一個(或多個)解釋變量。它通過估算使用邏輯運算的概率,測量分類依賴變量和一個(或多個)獨立的變量之間的關系,這是累積的邏輯分布情況。
決策樹是一個決策支持工具,它使用樹形圖或決策模型以及序列可能性。包括各種偶然事件的后果、資源成本、功效。下圖展示的是它的大概原理:
SVM(Support Vector Machine)是二元分類算法。給定一組2種類型的N維的地方點,SVM(Support Vector Machine)產(chǎn)生一個(N - 1)維超平面到這些點分成2組。假設你有2種類型的點,且它們是線性可分的。 SVM(Support Vector Machine)將找到一條直線將這些點分成2種類型,并且這條直線會盡可能地遠離所有的點。
在文章最后,阿里團隊表示這次獲得Personalized E-Commerce Search Challenge項目冠軍主要是以下三個主要因素:
數(shù)據(jù)架構(gòu)(data construction)
特征工程(feature engineering)
集成建模(ensemble modeling)
AI科技評論君認為,這次ACM CIKM Cup 2016比賽之前阿里的團隊在廣義的搜索那塊相對沒有那么有名。但由于其天生電商屬性,讓它在情投意合的CIKM Cup 2016大賽中個性化電商搜索排序(Personalized E-Commerce Search Challenge)部分正好一展身手,其實是歸功于其多年的技術(shù)沉淀所致。
在這次ACM CIKM Cup 2016決賽中,阿里巴巴團隊使用了集成方法,以及邏輯回歸、決策樹、SVM以及深度模型等,融合了多種方法,證明了其在這方面的實力。也希望阿里強大的計算能力和數(shù)據(jù)能力在未來能改變更多的行業(yè),讓數(shù)據(jù)產(chǎn)生更大的價值。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。