0
本文作者: 愷歌 | 2023-03-14 12:32 |
近日,信息檢索領(lǐng)域國際頂級學(xué)術(shù)會議WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023競賽成績,來自騰訊的研究團隊基于大模型預(yù)訓(xùn)練、搜索排序以及集成學(xué)習(xí)等技術(shù)上的突破,在無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道上的兩項任務(wù)中獲得冠軍,體現(xiàn)了在該領(lǐng)域的領(lǐng)先技術(shù)實力。
ACM WSDM(Web Search and Data Mining) 會議是信息檢索領(lǐng)域頂級會議之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四個專委會協(xié)調(diào)籌辦,在互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘領(lǐng)域享有較高學(xué)術(shù)聲譽。第16 屆 ACM 國際 WSDM 會議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行,論文的接收率為17.8%。
WSDM Cup由 WSDM 會議舉辦,本屆 WSDM Cup 共計400余支隊伍參加,分別來自中國、美國、新加坡、日本、印度等國家的知名高校和公司,大賽共設(shè)置三個賽道:無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search)、跨語言連續(xù)體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages)和視覺問答挑戰(zhàn)賽道(Visual Question Answering Challenge)。
此次騰訊「參賽隊名:騰訊機器學(xué)習(xí)平臺部搜索團隊(TMLPS)」參加了無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道,并在該賽道的兩項子任務(wù)中(Pre-training for Web Search和Unbiased Learning to Rank)獲得冠軍。
目前兩項成果代碼和論文均已發(fā)布到Github上(見:GitHub - lixsh6/Tencent_wsdm_cup2023)
在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)標(biāo)注的質(zhì)量對于模型的效果有著較為顯著的影響,但是較高的標(biāo)注數(shù)據(jù)成本一直是研究團隊的阻礙之一,如何從技術(shù)上利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型自然成為了成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點。
論文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation
地址:https://arxiv.org/pdf/2302.13756.pdf
本次比賽,針對基于搜索的預(yù)訓(xùn)練任務(wù)(Pre-training for Web Search),騰訊團隊通過大模型訓(xùn)練、用戶行為特征去噪等方法,在點擊日志上進行基于搜索排序的模型預(yù)訓(xùn)練,進而使模型有效地應(yīng)用到下游相關(guān)性排序的檢索任務(wù)。通過預(yù)訓(xùn)練、模型微調(diào)、集成學(xué)習(xí)等多方面的優(yōu)化,在人工標(biāo)注的相關(guān)性排序任務(wù)上取得了較大的領(lǐng)先優(yōu)勢
論文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking
地址:https://arxiv.org/pdf/2302.13498.pdf
在本次比賽的另一賽道無偏排序?qū)W習(xí)任務(wù)(Unbiased Learning to Rank)中,團隊通過深入挖掘點擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點擊后的滑屏次數(shù)等特征對文檔相關(guān)性進行無偏估計,提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。
據(jù)了解,奪冠團隊的成果均基于騰訊混元AI大模型(下文簡稱“HunYuan”)和太極機器學(xué)習(xí)平臺實現(xiàn)。目前,通過聯(lián)合微信搜索團隊,兩項技術(shù)已經(jīng)在微信搜一搜的多個場景落地相關(guān)技術(shù),并取得了顯著的效果提升。
AI大模型(又稱預(yù)訓(xùn)練模型)是指預(yù)先訓(xùn)練好,具有相對通用性的“一套算法”,具有“巨量數(shù)據(jù)、巨量算力、巨量模型”等特性。大模型通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表達層次,發(fā)展出接近、超越人類水平的“智能”,具備分析推理能力,能夠識別文字、圖像和聲音等。
2022年4月,騰訊首次對外披露HunYuan大模型研發(fā)進展。HunYuan集CV(計算機視覺)、NLP(自然語言理解)、多模態(tài)理解能力于一體,先后在MSR-VTT、MSVD等五大權(quán)威數(shù)據(jù)集榜單中登頂,實現(xiàn)跨模態(tài)領(lǐng)域的大滿貫。2022年5月,更是在國際公認的CLUE(中文語言理解評測集合)三個榜單同時登頂,一舉打破三項紀(jì)錄。近日,HunYuan又迎來全新進展,推出國內(nèi)首個低成本、可落地的NLP萬億大模型,并再次登頂CLUE。
騰訊太極機器學(xué)習(xí)平臺是集模型訓(xùn)練和在線推理于一身的高性能機器學(xué)習(xí)平臺,具備萬億參數(shù)模型的訓(xùn)練和推理能力,為AI大模型預(yù)訓(xùn)練推理和應(yīng)用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應(yīng)用過程中特征處理、模型訓(xùn)練、模型服務(wù)等工程問題。
騰訊長期致力于前沿搜索技術(shù)的研究,通過改進搜索算法,提升用戶搜索體驗,相關(guān)技術(shù)團隊在檢索預(yù)訓(xùn)練、大模型訓(xùn)練、搜索排序任務(wù)目標(biāo)函數(shù)設(shè)計等方面的具有豐富的實踐經(jīng)驗,研究成果多次在國際競賽和學(xué)術(shù)會議中取得領(lǐng)先成績,并廣泛應(yīng)用于微信搜索、騰訊廣告、游戲等多個業(yè)務(wù)場景。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。