0
本文作者: 楊鯉萍 | 2020-01-11 14:24 |
雷鋒網(wǎng) AI 開發(fā)者按:1 月 10 日,北京智源人工智能研究院聯(lián)合知乎、數(shù)據(jù)評測平臺 biendata 舉辦的「2019 智源·知乎看山杯專家發(fā)現(xiàn)算法大賽」正式收官。
大賽頒獎儀式暨算法交流會在清華大學(xué) FIT 大樓多功能廳舉行,北京智源人工智能研究院副院長、清華大學(xué)計(jì)算機(jī)系副主任、教授唐杰,知乎技術(shù)副總裁李大任出席了該儀式,并為獲獎選手頒發(fā)了獲獎證書。清華大學(xué)計(jì)算機(jī)系長聘副教授、智源學(xué)者劉知遠(yuǎn),清華大學(xué)計(jì)算機(jī)系副教授、博士生導(dǎo)師張敏以及知乎算法團(tuán)隊(duì)負(fù)責(zé)人孫付偉作為演講嘉賓也出席了活動。
獲獎?wù)吆嫌?span style="color:#b00990"> 圖片來源:知乎
截至 2019 年 1 月,知乎已擁有超過 2.2 億用戶,每天將產(chǎn)生海量的提問。為了讓內(nèi)容和用戶更高效、精準(zhǔn)地匹配,因此,「知乎專家推薦系統(tǒng)」也即「問題路由推薦系統(tǒng)」應(yīng)運(yùn)而生?!?019 智源·知乎看山杯專家發(fā)現(xiàn)算法大賽」的主題也源于該推薦系統(tǒng)。
知乎路由工作機(jī)制 圖片來源:知乎
比賽旨在從選手中征集高效精準(zhǔn)的推薦算法,挖掘有能力且感興趣的用戶進(jìn)行問題的精準(zhǔn)推薦。從 2019 年 9 月正式啟動,比賽一共吸引了 711 支來自全球各個院校以及工業(yè)界的算法挑戰(zhàn)隊(duì)伍參與,參賽者達(dá)到 1631 人。
問題路由推薦系統(tǒng)每日對 10 萬+的問題進(jìn)行分發(fā),并保證問題提問后 3 日內(nèi)的解答率達(dá)到 70% 以上;系統(tǒng)對千萬級的創(chuàng)作群體進(jìn)行精準(zhǔn)推薦,經(jīng)由系統(tǒng)智能分發(fā)推薦下每日產(chǎn)生的回答數(shù)超過 20 萬。
知乎問題路由內(nèi)部實(shí)踐形式 圖片來源:知乎
同時,相比國外的 ImageNet、Gigaword 等高質(zhì)量數(shù)據(jù)集,中文互聯(lián)網(wǎng)相關(guān)的高質(zhì)量數(shù)據(jù)集是相對缺乏的;而知乎累積了非常多的高質(zhì)量文本語料和其他各種各樣的數(shù)據(jù),正好彌補(bǔ)了這一空缺。
此次比賽,知乎從數(shù)據(jù)平臺中選出了一個月的邀請數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并開放近 200 萬用戶和 1000 萬邀請數(shù)據(jù)的 Link prediction 大型數(shù)據(jù)集(數(shù)據(jù)集均已脫敏)。
各個參賽團(tuán)隊(duì)圍繞賽題「問題路由推薦系統(tǒng)」,并充分利用開放的 Link prediction 大型數(shù)據(jù)集不斷進(jìn)行算法改進(jìn)與優(yōu)化。經(jīng)過為期 3 個月的激烈角逐,最終 7 支隊(duì)伍脫穎而出,獲得大賽獎金。
大賽主題海報(bào) 圖片來源:知乎
其中,騰訊「test 團(tuán)隊(duì)」獲得冠軍,重慶郵電大學(xué)、華南理工大學(xué)、電子科技大學(xué)、廣東工業(yè)大學(xué)組成的混合團(tuán)隊(duì)獲得亞軍,季軍則由華南理工大學(xué)獲得。清華大學(xué)計(jì)算機(jī)系副主任、系教授北京智源人工智能研究院副院長唐杰,知乎技術(shù)副總裁李大任為獲獎選手頒發(fā)了獲獎證書。
冠軍
騰訊曹雄單人「test 團(tuán)隊(duì)」,獲獎作品《特征工程在知乎推薦中的應(yīng)用》。
通過抽取用戶特征、問題特征、用戶興趣命中特征、問題統(tǒng)計(jì)特征、用戶行為特征,融合 LightGBM 模型和 DeepFM 模型進(jìn)行訓(xùn)練,得到最終的預(yù)測結(jié)果。
北京智源人工智能研究院副院長、清華大學(xué)計(jì)算機(jī)系副主任、唐杰教授為冠軍獲獎?wù)哳C獎 圖片來源:知乎
亞軍
電子科技大學(xué)章凡、廣東工業(yè)大學(xué)劉岱遠(yuǎn)、華南理工大學(xué)葉青照、重慶郵電大學(xué)林智敏組成的「Conquer 團(tuán)隊(duì)」,獲獎作品《多模式專家發(fā)現(xiàn)算法》。
針對知乎 app 對問題尋找最佳匹配的專家回答任務(wù),提供了一個多模式的解決方案。其中,對于特征工程考慮了全局特征,時間滑窗特征,匹配特征,句嵌入特征,圖特征,排序特征,Word2vec 等;對于模型,針對賽題的設(shè)計(jì)并修改了多種模型,最后進(jìn)行融合,其中包括:LightGBM,CatBoost,Multi-ESIM,DSSM,LSTUR。
知乎技術(shù)副總裁李大任為亞軍團(tuán)隊(duì)頒獎 圖片來源:知乎
季軍
華南理工大學(xué)的陳雄君、陳垂?jié)?、黎瀟瀟組成的「MemoryError 團(tuán)隊(duì)」,獲獎作品《基于用戶畫像和文本信息的問題推薦策略》。
基于用戶畫像和文本信息對新問題進(jìn)行用戶推薦,高效地將用戶新提出的問題邀請其他用戶進(jìn)行解答,以及挖掘用戶有能力且感興趣的問題進(jìn)行邀請下發(fā),優(yōu)化邀請回答的準(zhǔn)確率,提高問題解答率以及回答生產(chǎn)數(shù)。
清華大學(xué)計(jì)算機(jī)系副教授、博士生導(dǎo)師張敏為季軍團(tuán)隊(duì)頒獎 圖片來源:知乎
作為一家知識內(nèi)容平臺,知乎同樣重視技術(shù)創(chuàng)新價值的挖掘。自 2016 年引入機(jī)器學(xué)習(xí)技術(shù)以來,知乎已經(jīng)將人工智能、算法技術(shù)應(yīng)用到社區(qū)內(nèi)容和產(chǎn)品體驗(yàn)的各個環(huán)節(jié)中。目前,知乎算法團(tuán)隊(duì)已經(jīng)搭建了一套基礎(chǔ)生態(tài)體系,通過算法實(shí)現(xiàn)了用戶畫像、內(nèi)容分析、內(nèi)容個性化推送等,其效率比過去的人工運(yùn)營方式提高了數(shù)十倍。
北京智源人工智能研究院副院長、清華大學(xué)計(jì)算機(jī)系副主任、教授唐杰在頒獎大會上表示,北京人工智能研究院采用新的科研組織形式和人才引進(jìn)培養(yǎng)模式,推動人工智能發(fā)展方向和理論、方法、工具、系統(tǒng)等方面的關(guān)鍵性突破。2019 年智源先后組織了 10 次競賽,本次比賽是智源 2019 人工智能大賽的任務(wù)之一。
北京智源人工智能研究院副院長、清華大學(xué)計(jì)算機(jī)系副主任、教授唐杰 圖片來源:知乎
隨后,知乎技術(shù)副總裁李大任表示,此次與智源聯(lián)合舉辦算法比賽,一方面是為了吸引人工智能算法領(lǐng)域從業(yè)者和愛好者加入,產(chǎn)出更多技術(shù)成果。另一方面,知乎也希望通過比賽開放部分?jǐn)?shù)據(jù),為國內(nèi)人工智能發(fā)展提供一些助力。接下來,知乎還將在開放數(shù)據(jù)方面做更多努力。
知乎技術(shù)副總裁李大任 圖片來源:知乎
在這之后,本次大賽頒獎現(xiàn)場隨即展開了一場產(chǎn)學(xué)研融合的技術(shù)分享會。來自清華大學(xué)計(jì)算機(jī)系長聘副教授、智源學(xué)者劉知遠(yuǎn),清華大學(xué)計(jì)算機(jī)系副教授、博士生導(dǎo)師張敏以及知乎算法團(tuán)隊(duì)負(fù)責(zé)人孫付偉均圍繞推薦算法發(fā)表了相關(guān)的主題演講,為在場的學(xué)術(shù)青年們解析了推進(jìn)算法背后的難點(diǎn)與優(yōu)化切入點(diǎn),現(xiàn)場提問不斷,學(xué)術(shù)氛圍非常濃厚。
圖片來源:知乎
大賽官網(wǎng)地址:
雷鋒網(wǎng) AI 開發(fā)者 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。