0
本文作者: 愷歌 | 2023-03-14 12:32 |
近日,信息檢索領(lǐng)域國際頂級學(xué)術(shù)會議WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023競賽成績,來自騰訊的研究團(tuán)隊(duì)基于大模型預(yù)訓(xùn)練、搜索排序以及集成學(xué)習(xí)等技術(shù)上的突破,在無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道上的兩項(xiàng)任務(wù)中獲得冠軍,體現(xiàn)了在該領(lǐng)域的領(lǐng)先技術(shù)實(shí)力。
ACM WSDM(Web Search and Data Mining) 會議是信息檢索領(lǐng)域頂級會議之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四個(gè)專委會協(xié)調(diào)籌辦,在互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘領(lǐng)域享有較高學(xué)術(shù)聲譽(yù)。第16 屆 ACM 國際 WSDM 會議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行,論文的接收率為17.8%。
WSDM Cup由 WSDM 會議舉辦,本屆 WSDM Cup 共計(jì)400余支隊(duì)伍參加,分別來自中國、美國、新加坡、日本、印度等國家的知名高校和公司,大賽共設(shè)置三個(gè)賽道:無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search)、跨語言連續(xù)體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages)和視覺問答挑戰(zhàn)賽道(Visual Question Answering Challenge)。
此次騰訊「參賽隊(duì)名:騰訊機(jī)器學(xué)習(xí)平臺部搜索團(tuán)隊(duì)(TMLPS)」參加了無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道,并在該賽道的兩項(xiàng)子任務(wù)中(Pre-training for Web Search和Unbiased Learning to Rank)獲得冠軍。
目前兩項(xiàng)成果代碼和論文均已發(fā)布到Github上(見:GitHub - lixsh6/Tencent_wsdm_cup2023)
在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)標(biāo)注的質(zhì)量對于模型的效果有著較為顯著的影響,但是較高的標(biāo)注數(shù)據(jù)成本一直是研究團(tuán)隊(duì)的阻礙之一,如何從技術(shù)上利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型自然成為了成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點(diǎn)。
論文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation
地址:https://arxiv.org/pdf/2302.13756.pdf
本次比賽,針對基于搜索的預(yù)訓(xùn)練任務(wù)(Pre-training for Web Search),騰訊團(tuán)隊(duì)通過大模型訓(xùn)練、用戶行為特征去噪等方法,在點(diǎn)擊日志上進(jìn)行基于搜索排序的模型預(yù)訓(xùn)練,進(jìn)而使模型有效地應(yīng)用到下游相關(guān)性排序的檢索任務(wù)。通過預(yù)訓(xùn)練、模型微調(diào)、集成學(xué)習(xí)等多方面的優(yōu)化,在人工標(biāo)注的相關(guān)性排序任務(wù)上取得了較大的領(lǐng)先優(yōu)勢
論文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking
地址:https://arxiv.org/pdf/2302.13498.pdf
在本次比賽的另一賽道無偏排序?qū)W習(xí)任務(wù)(Unbiased Learning to Rank)中,團(tuán)隊(duì)通過深入挖掘點(diǎn)擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點(diǎn)擊后的滑屏次數(shù)等特征對文檔相關(guān)性進(jìn)行無偏估計(jì),提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。
據(jù)了解,奪冠團(tuán)隊(duì)的成果均基于騰訊混元AI大模型(下文簡稱“HunYuan”)和太極機(jī)器學(xué)習(xí)平臺實(shí)現(xiàn)。目前,通過聯(lián)合微信搜索團(tuán)隊(duì),兩項(xiàng)技術(shù)已經(jīng)在微信搜一搜的多個(gè)場景落地相關(guān)技術(shù),并取得了顯著的效果提升。
AI大模型(又稱預(yù)訓(xùn)練模型)是指預(yù)先訓(xùn)練好,具有相對通用性的“一套算法”,具有“巨量數(shù)據(jù)、巨量算力、巨量模型”等特性。大模型通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表達(dá)層次,發(fā)展出接近、超越人類水平的“智能”,具備分析推理能力,能夠識別文字、圖像和聲音等。
2022年4月,騰訊首次對外披露HunYuan大模型研發(fā)進(jìn)展。HunYuan集CV(計(jì)算機(jī)視覺)、NLP(自然語言理解)、多模態(tài)理解能力于一體,先后在MSR-VTT、MSVD等五大權(quán)威數(shù)據(jù)集榜單中登頂,實(shí)現(xiàn)跨模態(tài)領(lǐng)域的大滿貫。2022年5月,更是在國際公認(rèn)的CLUE(中文語言理解評測集合)三個(gè)榜單同時(shí)登頂,一舉打破三項(xiàng)紀(jì)錄。近日,HunYuan又迎來全新進(jìn)展,推出國內(nèi)首個(gè)低成本、可落地的NLP萬億大模型,并再次登頂CLUE。
騰訊太極機(jī)器學(xué)習(xí)平臺是集模型訓(xùn)練和在線推理于一身的高性能機(jī)器學(xué)習(xí)平臺,具備萬億參數(shù)模型的訓(xùn)練和推理能力,為AI大模型預(yù)訓(xùn)練推理和應(yīng)用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應(yīng)用過程中特征處理、模型訓(xùn)練、模型服務(wù)等工程問題。
騰訊長期致力于前沿搜索技術(shù)的研究,通過改進(jìn)搜索算法,提升用戶搜索體驗(yàn),相關(guān)技術(shù)團(tuán)隊(duì)在檢索預(yù)訓(xùn)練、大模型訓(xùn)練、搜索排序任務(wù)目標(biāo)函數(shù)設(shè)計(jì)等方面的具有豐富的實(shí)踐經(jīng)驗(yàn),研究成果多次在國際競賽和學(xué)術(shù)會議中取得領(lǐng)先成績,并廣泛應(yīng)用于微信搜索、騰訊廣告、游戲等多個(gè)業(yè)務(wù)場景。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。