0
本文作者: 木子 | 2022-01-12 15:40 |
近期,在國(guó)際頂級(jí)圖學(xué)習(xí)基準(zhǔn)評(píng)測(cè)榜單OGB(Open Graph Benchmark)中,微信支付與微信看一看Embedding聯(lián)合團(tuán)隊(duì)?wèi){借在邊性質(zhì)預(yù)測(cè)任務(wù)方面的出色表現(xiàn),在學(xué)者合作網(wǎng)絡(luò)、藥物反應(yīng)網(wǎng)絡(luò)以及學(xué)術(shù)引用網(wǎng)絡(luò)三個(gè)數(shù)據(jù)集的邊預(yù)測(cè)競(jìng)賽中分列第一名、第一名和第二名。邊預(yù)測(cè)算法主要是基于觀測(cè)到的圖結(jié)構(gòu),預(yù)測(cè)未來會(huì)出現(xiàn)或未觀測(cè)到的邊關(guān)系,可以廣泛應(yīng)用在如蛋白質(zhì)交互檢測(cè)、欺詐檢測(cè),朋友推薦以及商品推薦等多個(gè)工業(yè)界場(chǎng)景中。
在比賽中,微信支付與微信看一看Embedding聯(lián)合團(tuán)隊(duì)根據(jù)邊預(yù)測(cè)的特性,提出了一種更優(yōu)的圖神經(jīng)網(wǎng)絡(luò)邊預(yù)測(cè)模型的學(xué)習(xí)算法,PLNLP。該算法通過利用Pairwise Learning to Rank的思路而非傳統(tǒng)的二分類思路,對(duì)圖神經(jīng)網(wǎng)絡(luò)邊預(yù)測(cè)模型進(jìn)行參數(shù)優(yōu)化學(xué)習(xí),并基于EmbedX大規(guī)模表示學(xué)習(xí)框架,實(shí)現(xiàn)了PLNLP算法的分布式版本,能夠支持在十億級(jí)節(jié)點(diǎn),千億級(jí)邊的圖數(shù)據(jù)上訓(xùn)練模型。最終在學(xué)者合作網(wǎng)絡(luò)、學(xué)術(shù)引用網(wǎng)絡(luò)以及藥物反應(yīng)網(wǎng)絡(luò)三個(gè)數(shù)據(jù)集的邊預(yù)測(cè)競(jìng)賽中,聯(lián)合團(tuán)隊(duì)成果分列第一名、第一名和第二名。
OGB Link Property Prediction榜單鏈接:Leaderboards for Link Property Prediction | Open Graph Benchmark(https://ogb.stanford.edu/docs/leader_linkprop/)
學(xué)者合作網(wǎng)絡(luò)(ogbl-collab) 取得第一名
藥物反應(yīng)網(wǎng)絡(luò)(ogbl-ddi) 取得第一名
學(xué)術(shù)引用網(wǎng)絡(luò)(ogbl-citation2) 取得第二名
據(jù)介紹,比賽中使用到的鄰域編碼、邊預(yù)測(cè)、負(fù)采樣等通用技術(shù),已經(jīng)在微信支付反欺詐、商戶風(fēng)控、營(yíng)銷發(fā)券等多個(gè)場(chǎng)景落地。其中反欺詐場(chǎng)景致力于打擊欺詐交易,基于有向圖、異構(gòu)圖等模型,挖掘用戶多階復(fù)雜關(guān)系,在線上交易風(fēng)險(xiǎn)模型應(yīng)用,準(zhǔn)確度提升30%+。在商戶風(fēng)控場(chǎng)景下,基于半監(jiān)督對(duì)比學(xué)習(xí)模型,與下游業(yè)務(wù)模型融合建模,整體模型KS提升10%+。
而比賽中使用到的圖模型技術(shù)均已沉淀到分布式表示學(xué)習(xí)框架EmbedX之中,EmbedX在騰訊內(nèi)部服務(wù)于看一看、搜一搜、視頻號(hào)、微信支付、安全、微信表情、騰訊新聞、應(yīng)用寶、信息安全、QQ音樂、騰訊課堂、騰訊課堂、領(lǐng)航平臺(tái)、Joox音樂等多個(gè)關(guān)鍵業(yè)務(wù),幫助業(yè)務(wù)大幅提升用戶體驗(yàn)。
OGB(Open Graph Benchmark)是目前公認(rèn)最權(quán)威的國(guó)際頂級(jí)圖學(xué)習(xí)基準(zhǔn)評(píng)測(cè)榜單,由斯坦福大學(xué)Jure Leskovec教授團(tuán)隊(duì)建立并開源,YoshuaBengio、Will Hamilton與Max Welling等學(xué)術(shù)界大牛也出任OGB的指導(dǎo)委員會(huì)成員,吸引了斯坦福大學(xué)、康奈爾大學(xué)、北京大學(xué)、Facebook、NVIDIA、百度等國(guó)際頂尖高校與科技巨頭參與。
該數(shù)據(jù)集涵蓋了生物網(wǎng)絡(luò)、分子圖、學(xué)術(shù)網(wǎng)絡(luò)和知識(shí)圖譜等領(lǐng)域,且囊括了基本的節(jié)點(diǎn)預(yù)測(cè)、邊預(yù)測(cè)、圖預(yù)測(cè)等圖學(xué)習(xí)任務(wù),數(shù)據(jù)真實(shí)、極具挑戰(zhàn)性,素有圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域“ImageNet”之稱,已成為全球圖神經(jīng)網(wǎng)絡(luò)研究者檢驗(yàn)自身功力的“試劍石”。
本次參賽團(tuán)隊(duì)為微信支付和微信看一看Embedding聯(lián)合團(tuán)隊(duì)。微信支付Embedding團(tuán)隊(duì)致力于前沿Graph Embedding算法的研究與落地,目前結(jié)合支付業(yè)務(wù)特性自研圖對(duì)比學(xué)習(xí)、半監(jiān)督Graphsage、有向圖、動(dòng)態(tài)圖等多個(gè)算法,基于EmbedX框架提供大規(guī)模訓(xùn)練能力。團(tuán)隊(duì)成果在多個(gè)業(yè)務(wù)場(chǎng)景落地,效果提升顯著,并沉淀一系列高質(zhì)量文章。
微信看一看Embedding團(tuán)隊(duì)深耕于大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)與模型應(yīng)用領(lǐng)域。團(tuán)隊(duì)研發(fā)成果EmbedX系統(tǒng)不僅支持十億級(jí)節(jié)點(diǎn)、千億級(jí)邊的圖模型訓(xùn)練與推理,還支持百億級(jí)樣本、百億級(jí)特征的傳統(tǒng)Embedding模型,包括排序、召回等的訓(xùn)練與推理。該系統(tǒng)應(yīng)用于微信的搜索、推薦、支付等領(lǐng)域,并在此過程中,研發(fā)并沉淀了一套通用可遷移的模型庫。
參賽方案已整理成論文:Pairwise Learning for Neural Link Prediction (https://arxiv.org/pdf/2112.02936.pdf)
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。