騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力

本文作者：愷歌

2023-03-14 12:32

導(dǎo)語：奪冠團(tuán)隊(duì)的成果均基于騰訊混元AI大模型和太極機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)。

近日，信息檢索領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議WSDM（Web Search and Data Mining）宣布了WSDM CUP 2023競(jìng)賽成績(jī)，來自騰訊的研究團(tuán)隊(duì)基于大模型預(yù)訓(xùn)練、搜索排序以及集成學(xué)習(xí)等技術(shù)上的突破，在無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道上的兩項(xiàng)任務(wù)中獲得冠軍，體現(xiàn)了在該領(lǐng)域的領(lǐng)先技術(shù)實(shí)力。

ACM WSDM（Web Search and Data Mining）會(huì)議是信息檢索領(lǐng)域頂級(jí)會(huì)議之一，由SIGIR、SIGKDD、SIGMOD和SIGWEB四個(gè)專委會(huì)協(xié)調(diào)籌辦，在互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘領(lǐng)域享有較高學(xué)術(shù)聲譽(yù)。第16 屆 ACM 國(guó)際 WSDM 會(huì)議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行，論文的接收率為17.8%。

WSDM Cup由 WSDM 會(huì)議舉辦，本屆 WSDM Cup 共計(jì)400余支隊(duì)伍參加，分別來自中國(guó)、美國(guó)、新加坡、日本、印度等國(guó)家的知名高校和公司，大賽共設(shè)置三個(gè)賽道：無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道（Unbiased Learning to Rank and Pre-training for Web Search）、跨語言連續(xù)體的多語言信息檢索賽道（Multilingual Information Retrieval Across a Continuum of Languages）和視覺問答挑戰(zhàn)賽道（Visual Question Answering Challenge）。

此次騰訊「參賽隊(duì)名：騰訊機(jī)器學(xué)習(xí)平臺(tái)部搜索團(tuán)隊(duì)（TMLPS）」參加了無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道，并在該賽道的兩項(xiàng)子任務(wù)中（Pre-training for Web Search和Unbiased Learning to Rank）獲得冠軍。

目前兩項(xiàng)成果代碼和論文均已發(fā)布到Github上（見：GitHub - lixsh6/Tencent_wsdm_cup2023）

在深度學(xué)習(xí)領(lǐng)域，數(shù)據(jù)標(biāo)注的質(zhì)量對(duì)于模型的效果有著較為顯著的影響，但是較高的標(biāo)注數(shù)據(jù)成本一直是研究團(tuán)隊(duì)的阻礙之一，如何從技術(shù)上利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型自然成為了成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點(diǎn)。

騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力

論文：Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation

地址：https://arxiv.org/pdf/2302.13756.pdf

騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力

本次比賽，針對(duì)基于搜索的預(yù)訓(xùn)練任務(wù)（Pre-training for Web Search），騰訊團(tuán)隊(duì)通過大模型訓(xùn)練、用戶行為特征去噪等方法，在點(diǎn)擊日志上進(jìn)行基于搜索排序的模型預(yù)訓(xùn)練，進(jìn)而使模型有效地應(yīng)用到下游相關(guān)性排序的檢索任務(wù)。通過預(yù)訓(xùn)練、模型微調(diào)、集成學(xué)習(xí)等多方面的優(yōu)化，在人工標(biāo)注的相關(guān)性排序任務(wù)上取得了較大的領(lǐng)先優(yōu)勢(shì)

騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力

論文：Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking

地址：https://arxiv.org/pdf/2302.13498.pdf

在本次比賽的另一賽道無偏排序?qū)W習(xí)任務(wù)（Unbiased Learning to Rank）中，團(tuán)隊(duì)通過深入挖掘點(diǎn)擊日志信息，充分利用包括文檔媒體類型、文檔展示高度和點(diǎn)擊后的滑屏次數(shù)等特征對(duì)文檔相關(guān)性進(jìn)行無偏估計(jì)，提出了一種能夠集成多種偏置因素的多特征集成模型，有效地提升了搜索引擎中文檔排序的效果。

據(jù)了解，奪冠團(tuán)隊(duì)的成果均基于騰訊混元AI大模型（下文簡(jiǎn)稱“HunYuan”）和太極機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)。目前，通過聯(lián)合微信搜索團(tuán)隊(duì)，兩項(xiàng)技術(shù)已經(jīng)在微信搜一搜的多個(gè)場(chǎng)景落地相關(guān)技術(shù)，并取得了顯著的效果提升。

AI大模型（又稱預(yù)訓(xùn)練模型）是指預(yù)先訓(xùn)練好，具有相對(duì)通用性的“一套算法”，具有“巨量數(shù)據(jù)、巨量算力、巨量模型”等特性。大模型通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表達(dá)層次，發(fā)展出接近、超越人類水平的“智能”，具備分析推理能力，能夠識(shí)別文字、圖像和聲音等。

2022年4月，騰訊首次對(duì)外披露HunYuan大模型研發(fā)進(jìn)展。HunYuan集CV（計(jì)算機(jī)視覺）、NLP（自然語言理解）、多模態(tài)理解能力于一體，先后在MSR-VTT、MSVD等五大權(quán)威數(shù)據(jù)集榜單中登頂，實(shí)現(xiàn)跨模態(tài)領(lǐng)域的大滿貫。2022年5月，更是在國(guó)際公認(rèn)的CLUE（中文語言理解評(píng)測(cè)集合）三個(gè)榜單同時(shí)登頂，一舉打破三項(xiàng)紀(jì)錄。近日，HunYuan又迎來全新進(jìn)展，推出國(guó)內(nèi)首個(gè)低成本、可落地的NLP萬億大模型，并再次登頂CLUE。

騰訊太極機(jī)器學(xué)習(xí)平臺(tái)是集模型訓(xùn)練和在線推理于一身的高性能機(jī)器學(xué)習(xí)平臺(tái)，具備萬億參數(shù)模型的訓(xùn)練和推理能力，為AI大模型預(yù)訓(xùn)練推理和應(yīng)用落地提供了完整的端到端工程能力支撐，一站式解決算法工程師在 AI 應(yīng)用過程中特征處理、模型訓(xùn)練、模型服務(wù)等工程問題。

騰訊長(zhǎng)期致力于前沿搜索技術(shù)的研究，通過改進(jìn)搜索算法，提升用戶搜索體驗(yàn)，相關(guān)技術(shù)團(tuán)隊(duì)在檢索預(yù)訓(xùn)練、大模型訓(xùn)練、搜索排序任務(wù)目標(biāo)函數(shù)設(shè)計(jì)等方面的具有豐富的實(shí)踐經(jīng)驗(yàn)，研究成果多次在國(guó)際競(jìng)賽和學(xué)術(shù)會(huì)議中取得領(lǐng)先成績(jī)，并廣泛應(yīng)用于微信搜索、騰訊廣告、游戲等多個(gè)業(yè)務(wù)場(chǎng)景。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

愷歌

編輯

發(fā)私信

當(dāng)月熱門文章

騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力

騰訊獲國(guó)際信息檢索領(lǐng)域國(guó)際權(quán)威比賽兩項(xiàng)冠軍，展示AI大模型技術(shù)實(shí)力