丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給李尊
發(fā)送

1

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

本文作者: 李尊 2016-11-03 11:57
導語:ACM CIKM Cup 2016中阿里巴巴集團搜索事業(yè)部Natural Artificial Intelligence團隊獲得冠軍

近日在美國Indianapolis舉行的ACM CIKM Cup 2016中,來自中國阿里巴巴集團搜索事業(yè)部Natural Artificial Intelligence團隊在獲得了Personalized E-Commerce Search Challenge項目冠軍。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

CIKM全稱是The ACM Conference on Information and Knowledge Management,是信息檢索和數(shù)據(jù)挖掘領域的全球頂級學術(shù)會議,由美國計算機協(xié)會(ACM)主辦。

今年CIKM Cup 2016競賽題目有:

  • 跨設備實體連接(Cross-Device Entity Linking Challenge)

  • 個性化電商搜索排序(Personalized E-Commerce Search Challenge)

  • 跨設備實體連接(Cross-Device Entity Linking Challenge)

當下建立準確的用戶身份已是廣告公司一個非常困難和重要的問題,在這個過程中最關鍵的任務是在多個設備尋找相同的用戶信息,整合他們的數(shù)字足跡進行更精準的分析。

跨設備實體連接(Cross-Device Entity Linking Challenge)為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會,來解決這個具有挑戰(zhàn)性的任務。

  • 個性化電商搜索排序(Personalized E-Commerce Search Challenge)

個性化電商搜索排序(Personalized E-Commerce Search Challenge)為學術(shù)界和工業(yè)界的研究人員提供了一個獨特的機會,他們可以用來測試新的電子商務個性化搜索方法以及鞏固現(xiàn)有工作成果。

這項挑戰(zhàn)的獨特之處在于:

(1)釋出搜索記錄和瀏覽日志,過去只有搜索記錄。

(2)專注于電子商務搜索,因此有交易數(shù)據(jù)和獨特的(探索性)搜索行為模式。

(3)提供產(chǎn)品圖像,允許通過視覺特性來搜索排名實驗。

其中,阿里團隊獲得的是Personalized E-Commerce Search Challenge項目冠軍,該項目中主辦方提供了來自 DIGINETICA及其合作伙伴提供的用戶搜索、商品數(shù)據(jù)、交易信息(匿名)以及一個大型的產(chǎn)品圖像數(shù)據(jù)集。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

競賽目標是針對搜索引擎的召回結(jié)果進行相關性打分,并基于打分進行排序,排序結(jié)果越接近理想值越好。相比主辦方提供的搜索排序基準數(shù)據(jù),來自阿里巴巴的參賽團隊提升了21.28%。

在這次比賽中,阿里團隊將相關方法整理發(fā)布了題為Ensemble Methods for Personalized E-Commerce SearchChallenge at CIKM Cup 2016的文章。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

在文章中,阿里團隊表示主要使用了集成方法,以及邏輯回歸、決策樹SVM以及深度模型等。

據(jù)AI科技評論了解,目前集成方法(Ensemble Methods)正當紅,如Kaggle平臺上面的比賽幾乎都是用多個模型來集成來獲取更好的成績。

集成方法

常見的集成方法(Ensemble Methods)有這么幾種:

  • Bagging:使用訓練數(shù)據(jù)的不同隨機子集來訓練每個 Base Model,最后進行每個 Base Model 權(quán)重相同的 Vote。

  • Boosting:迭代地訓練 Base Model,每次根據(jù)上一個迭代中預測錯誤的情況修改訓練樣本的權(quán)重。

  • Blending:用不相交的數(shù)據(jù)訓練不同的 Base Model,將它們的輸出?。訖?quán))平均。

  • Stacking:劃分訓練數(shù)據(jù)集為兩個不相交的集合,在第一個集合上訓練多個學習器,在第二個集合上測試這幾個學習器,把第三步得到的預測結(jié)果作為輸入,把正確的回應作為輸出,訓練一個高層學習器。

邏輯回歸

邏輯回歸(Logistic Regression)是一種強大的統(tǒng)計方法,它能建模出一個二項結(jié)果與一個(或多個)解釋變量。它通過估算使用邏輯運算的概率,測量分類依賴變量和一個(或多個)獨立的變量之間的關系,這是累積的邏輯分布情況。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

決策樹

決策樹是一個決策支持工具,它使用樹形圖或決策模型以及序列可能性。包括各種偶然事件的后果、資源成本、功效。下圖展示的是它的大概原理:

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

SVM

SVM(Support Vector Machine)是二元分類算法。給定一組2種類型的N維的地方點,SVM(Support Vector Machine)產(chǎn)生一個(N - 1)維超平面到這些點分成2組。假設你有2種類型的點,且它們是線性可分的。 SVM(Support Vector Machine)將找到一條直線將這些點分成2種類型,并且這條直線會盡可能地遠離所有的點。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

在文章最后,阿里團隊表示這次獲得Personalized E-Commerce Search Challenge項目冠軍主要是以下三個主要因素:

  • 數(shù)據(jù)架構(gòu)(data construction)

  • 特征工程(feature engineering)

  • 集成建模(ensemble modeling)

AI科技評論君認為,這次ACM CIKM Cup 2016比賽之前阿里的團隊在廣義的搜索那塊相對沒有那么有名。但由于其天生電商屬性,讓它在情投意合的CIKM Cup 2016大賽中個性化電商搜索排序(Personalized E-Commerce Search Challenge)部分正好一展身手,其實是歸功于其多年的技術(shù)沉淀所致。

在這次ACM CIKM Cup 2016決賽中,阿里巴巴團隊使用了集成方法,以及邏輯回歸、決策樹、SVM以及深度模型等,融合了多種方法,證明了其在這方面的實力。也希望阿里強大的計算能力和數(shù)據(jù)能力在未來能改變更多的行業(yè),讓數(shù)據(jù)產(chǎn)生更大的價值。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CIKM Cup 2016冠軍,阿里巴巴這次用了什么黑科技?

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說