丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給愷歌
發(fā)送

0

騰訊獲國際信息檢索領(lǐng)域國際權(quán)威比賽兩項冠軍,展示AI大模型技術(shù)實力

本文作者: 愷歌 2023-03-14 12:32
導(dǎo)語:奪冠團隊的成果均基于騰訊混元AI大模型和太極機器學(xué)習(xí)平臺實現(xiàn)。

近日,信息檢索領(lǐng)域國際頂級學(xué)術(shù)會議WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023競賽成績,來自騰訊的研究團隊基于大模型預(yù)訓(xùn)練、搜索排序以及集成學(xué)習(xí)等技術(shù)上的突破,在無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道上的兩項任務(wù)中獲得冠軍,體現(xiàn)了在該領(lǐng)域的領(lǐng)先技術(shù)實力。

騰訊獲國際信息檢索領(lǐng)域國際權(quán)威比賽兩項冠軍,展示AI大模型技術(shù)實力

ACM WSDM(Web Search and Data Mining) 會議是信息檢索領(lǐng)域頂級會議之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四個專委會協(xié)調(diào)籌辦,在互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘領(lǐng)域享有較高學(xué)術(shù)聲譽。第16 屆 ACM 國際 WSDM 會議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行,論文的接收率為17.8%。

WSDM Cup由 WSDM 會議舉辦,本屆 WSDM Cup 共計400余支隊伍參加,分別來自中國、美國、新加坡、日本、印度等國家的知名高校和公司,大賽共設(shè)置三個賽道:無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search)、跨語言連續(xù)體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages)和視覺問答挑戰(zhàn)賽道(Visual Question Answering Challenge)。

此次騰訊「參賽隊名:騰訊機器學(xué)習(xí)平臺部搜索團隊(TMLPS)」參加了無偏排序?qū)W習(xí)和互聯(lián)網(wǎng)搜索預(yù)訓(xùn)練模型賽道,并在該賽道的兩項子任務(wù)中(Pre-training for Web Search和Unbiased Learning to Rank)獲得冠軍。

目前兩項成果代碼和論文均已發(fā)布到Github上(見:GitHub - lixsh6/Tencent_wsdm_cup2023

在深度學(xué)習(xí)領(lǐng)域,數(shù)據(jù)標(biāo)注的質(zhì)量對于模型的效果有著較為顯著的影響,但是較高的標(biāo)注數(shù)據(jù)成本一直是研究團隊的阻礙之一,如何從技術(shù)上利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型自然成為了成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點。 

騰訊獲國際信息檢索領(lǐng)域國際權(quán)威比賽兩項冠軍,展示AI大模型技術(shù)實力

論文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation

地址:https://arxiv.org/pdf/2302.13756.pdf 

 騰訊獲國際信息檢索領(lǐng)域國際權(quán)威比賽兩項冠軍,展示AI大模型技術(shù)實力

本次比賽,針對基于搜索的預(yù)訓(xùn)練任務(wù)(Pre-training for Web Search),騰訊團隊通過大模型訓(xùn)練、用戶行為特征去噪等方法,在點擊日志上進行基于搜索排序的模型預(yù)訓(xùn)練,進而使模型有效地應(yīng)用到下游相關(guān)性排序的檢索任務(wù)。通過預(yù)訓(xùn)練、模型微調(diào)、集成學(xué)習(xí)等多方面的優(yōu)化,在人工標(biāo)注的相關(guān)性排序任務(wù)上取得了較大的領(lǐng)先優(yōu)勢

騰訊獲國際信息檢索領(lǐng)域國際權(quán)威比賽兩項冠軍,展示AI大模型技術(shù)實力

論文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking

地址:https://arxiv.org/pdf/2302.13498.pdf

在本次比賽的另一賽道無偏排序?qū)W習(xí)任務(wù)(Unbiased Learning to Rank)中,團隊通過深入挖掘點擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點擊后的滑屏次數(shù)等特征對文檔相關(guān)性進行無偏估計,提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。

據(jù)了解,奪冠團隊的成果均基于騰訊混元AI大模型(下文簡稱“HunYuan”)和太極機器學(xué)習(xí)平臺實現(xiàn)。目前,通過聯(lián)合微信搜索團隊,兩項技術(shù)已經(jīng)在微信搜一搜的多個場景落地相關(guān)技術(shù),并取得了顯著的效果提升。

AI大模型(又稱預(yù)訓(xùn)練模型)是指預(yù)先訓(xùn)練好,具有相對通用性的“一套算法”,具有“巨量數(shù)據(jù)、巨量算力、巨量模型”等特性。大模型通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表達層次,發(fā)展出接近、超越人類水平的“智能”,具備分析推理能力,能夠識別文字、圖像和聲音等。

2022年4月,騰訊首次對外披露HunYuan大模型研發(fā)進展。HunYuan集CV(計算機視覺)、NLP(自然語言理解)、多模態(tài)理解能力于一體,先后在MSR-VTT、MSVD等五大權(quán)威數(shù)據(jù)集榜單中登頂,實現(xiàn)跨模態(tài)領(lǐng)域的大滿貫。2022年5月,更是在國際公認的CLUE(中文語言理解評測集合)三個榜單同時登頂,一舉打破三項紀(jì)錄。近日,HunYuan又迎來全新進展,推出國內(nèi)首個低成本、可落地的NLP萬億大模型,并再次登頂CLUE。

騰訊太極機器學(xué)習(xí)平臺是集模型訓(xùn)練和在線推理于一身的高性能機器學(xué)習(xí)平臺,具備萬億參數(shù)模型的訓(xùn)練和推理能力,為AI大模型預(yù)訓(xùn)練推理和應(yīng)用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應(yīng)用過程中特征處理、模型訓(xùn)練、模型服務(wù)等工程問題。

騰訊長期致力于前沿搜索技術(shù)的研究,通過改進搜索算法,提升用戶搜索體驗,相關(guān)技術(shù)團隊在檢索預(yù)訓(xùn)練、大模型訓(xùn)練、搜索排序任務(wù)目標(biāo)函數(shù)設(shè)計等方面的具有豐富的實踐經(jīng)驗,研究成果多次在國際競賽和學(xué)術(shù)會議中取得領(lǐng)先成績,并廣泛應(yīng)用于微信搜索、騰訊廣告、游戲等多個業(yè)務(wù)場景。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說