
2月21日至25日,第15屆國際互聯(lián)網(wǎng)搜索與數(shù)據(jù)挖掘大會(WSDM 2022)在線上召開,來自清華大學(xué)計(jì)算機(jī)系的研究團(tuán)隊(duì)獲得了大會唯一的最佳論文獎!這也是自大會創(chuàng)辦以來,由來自中國的科研團(tuán)隊(duì)首次獲得該獎項(xiàng)。WSDM(讀音為「Wisdom」)由國際計(jì)算機(jī)學(xué)會(ACM)旗下的信息檢索(SIGIR)、數(shù)據(jù)挖掘(SIGKDD)、數(shù)據(jù)庫(SIGMOD)與網(wǎng)絡(luò)信息處理(SIGWEB)等四個專委會共同舉辦,在數(shù)據(jù)挖掘領(lǐng)域享受崇高的學(xué)術(shù)聲譽(yù)。此外,除了最佳論文獎,WSDM大會還公布了「時間檢驗(yàn)獎」的獲獎工作——香港中文大學(xué)團(tuán)隊(duì)的“Recommender systems with social regularization”(WSDM 2011)。據(jù)大會官網(wǎng)信息,清華大學(xué)獲得今年WSDM唯一最佳論文獎的工作是“Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval”(基于有約束聚類的離散表示學(xué)習(xí)提升稠密向量檢索性能)。論文鏈接:https://arxiv.org/pdf/2110.05789.pdf論文作者為:詹靖濤,毛佳昕,劉奕群,郭嘉豐,張敏,馬少平。第一作者為清華大學(xué)計(jì)算機(jī)系博士生詹靖濤,通訊作者為清華大學(xué)計(jì)算機(jī)系劉奕群教授,相關(guān)成果由清華大學(xué)、中國人民大學(xué)、中科院計(jì)算所等單位共同完成。隨著深度學(xué)習(xí)和預(yù)訓(xùn)練語言模型等的廣泛應(yīng)用,稠密向量檢索已經(jīng)成為互聯(lián)網(wǎng)搜索過程中最重要和頻繁的數(shù)據(jù)操作之一,但已有的稠密向量檢索模型與傳統(tǒng)索引檢索模型相比大幅增加了存儲開銷與時間復(fù)雜度,造成了性能提升的重要瓶頸。針對上述問題,這篇論文提出了一種通過有約束聚類(Constrained Clustering)改進(jìn)稠密向量檢索過程的檢索模型RepCONC。該模型基于有約束聚類方法端到端地聯(lián)合優(yōu)化文本編碼器和向量量化過程,RepCONC約束稠密向量被均勻地分配到不同的量化中心,從而大幅提升了稠密向量表示的可辨別性,改善了檢索性能。論文從理論上證明了該約束的重要性,并使用最優(yōu)傳輸理論推導(dǎo)了有約束聚類過程的近似解以提升算法效率。RepCONC可以在業(yè)界通用的向量倒排文件系統(tǒng)(IVF)上運(yùn)行,即使脫離GPU僅使用CPU也能取得較好的索引壓縮與檢索效果,比傳統(tǒng)稠密向量檢索方法在壓縮比、檢索性能、時間效率等方面均有顯著提升。除了每年選出的唯一最佳論文,大會還分別選出了3篇最佳論文提名(Best Paper Award Runner-Ups):- Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model(東京工業(yè)大學(xué))
- Evaluating Mixed-initiative Conversational Search Systems via User Simulation(提契諾大學(xué))
- The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?(南洋理工大學(xué))
獲得WSDM 2022「時間檢驗(yàn)獎」的工作是來自香港中文大學(xué)的“Recommender Systems with Social Regularization”。推薦系統(tǒng)已成為學(xué)術(shù)界與工業(yè)界經(jīng)久不衰的研究課題。委員會選中這篇論文,是因?yàn)樗闹匾院蛯︻I(lǐng)域的影響力。該論文深入探討了信任和推薦之間的關(guān)系,認(rèn)識到用戶不一定與他們信任的人有相似的品味,但同時又肯定了信任對推薦的重要性。論文作者通過為多個不同的推薦任務(wù)建立最合適的社交聯(lián)系,從而幫助確立了將社交信號納入推薦系統(tǒng)的價值。因此,這篇論文不但產(chǎn)生了強(qiáng)大的影響力(在 WSDM 時間檢驗(yàn)獎的所有提名中被引用次數(shù)最多),還提前預(yù)見了信任和透明度在推薦系統(tǒng)中的重要性,在近日已成為一個重要的話題。論文地址:https://dennyzhou.github.io/papers/RSR.pdf在這篇工作中,香港中文大學(xué)計(jì)算機(jī)系的研究團(tuán)隊(duì)開創(chuàng)性地研究了當(dāng)時少人問津、現(xiàn)下火熱的「社交推薦」問題。目前,社交推薦已成為各個互聯(lián)網(wǎng)產(chǎn)品的必備技能,微博、抖音、淘寶、微信「看一看」等等都有該功能。他們基于用戶的社交好友信息(從豆瓣等平臺挖掘數(shù)據(jù)),提出了兩種社交推薦算法,采用社交正則化項(xiàng)約束矩陣分解目標(biāo)函數(shù),來幫助提高推薦系統(tǒng)的預(yù)測準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,他們的方法非常通用,適用于解決多種類型的信任感知推薦問題。不僅如此,該論文還會反向思考,意識到:社交關(guān)系的存在可能會降低推薦質(zhì)量。從單一信任出發(fā)亦可能產(chǎn)生準(zhǔn)確率較低的推薦,比如擅長研究球鞋的朋友不一定擅長電影推薦。因此,作者們又很早就用相似度函數(shù),設(shè)計(jì)了基于不同推薦任務(wù)來識別目標(biāo)朋友群的算法,以對社交系統(tǒng)進(jìn)行更真實(shí)的建模。在論文中,他們提出:他們相信,隨著在線社交網(wǎng)站的快速發(fā)展,基于社交的研究會越來越流行。事實(shí)證明,確實(shí)如此。1.https://www.wsdm-conference.org/2022/雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。