0
本文作者: 黃善清 | 2019-08-19 18:38 | 專題:KDD 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:美國時間 8月4號,數(shù)據(jù)挖掘領(lǐng)域的國際最高級別會議 KDD 2019 在美國阿拉斯加州的安克雷奇市舉行。自 1995 年以來,KDD 大會連續(xù)舉辦了二十余屆,每年的論文接收率不超過 20%,即便如此,來自我國的眾多成果依舊獲得了評委們的青睞。
今年,BOSS 直聘以一篇名為《Interview Choice Reveals Your Preference on the Market: To ImproveJob-Resume Matching through Profiling Memories》的論文成功入選會議科研類論文單元,今年此單元論文錄取率僅為14%。在這份論文中,BOSS直聘提出針對求職者與招聘者雙方偏好進行建模的新型匹配模型,此模型能有效地提升求職者與招聘者的匹配效率。
為此,我們采訪了本篇論文的作者之一,來自BOSS直聘NLP中心的宋洋博士,聊了本次論文對于現(xiàn)實招聘場景的價值,以及BOSS直聘在相關(guān)領(lǐng)域的規(guī)劃。
在BOSS直聘NLP中心負責人宋洋博士看來,招聘場景里無論是求職者還是招聘者,在提交了一份簡歷或職位描述時,都認為這已經(jīng)能夠非常清楚表達自己的實際需求,然而事實上,靜態(tài)文本無法充分表達你內(nèi)心最深層的需求。
“其一,你寫的東西不一定充分代表你的需求。很多時候崗位文本表述的信息,與實際所需求的特征不相匹配?!彼窝蟛┦窟M一步補充道,“這也是很多時候?qū)е缕ヅ湫Ч儾畹脑颍驗榇蠹覜]有辦法很好的去表達自己真正想要的東西,所以在這篇論文中,我們加入了動態(tài)交互行為的文本偏好信息來輔助系統(tǒng)進行更高效的匹配?!?/p>
目前的當務(wù)之急,是要不斷基于靜態(tài)文本、動態(tài)行為、以及更多豐富的場景數(shù)據(jù)資源來收斂雙邊的需求。“我們需要不斷地收斂需求,這是系統(tǒng)匹配變得高效的前提?!彼窝蟛┦咳绱苏f道。
用戶過往的求職招聘行為體現(xiàn)了個人偏好
在過去,傳統(tǒng)的雙邊推薦系統(tǒng)主要基于人工構(gòu)建的特征,通過訓(xùn)練模型來擬合是否匹配。近幾年隨著深度學(xué)習(xí)的發(fā)展,才開始出現(xiàn)基于深度匹配模型來學(xué)習(xí)簡歷文本與職位描述文本是否匹配的工作。
宋洋博士介紹道,BOSS直聘本次的工作相當于過往工作的延伸?!拔覀冋J為,求職招聘場景除了簡歷文本和職業(yè)描述的靜態(tài)文本信息外,還包括雙方曾經(jīng)產(chǎn)生的交互行為——求職者面試過的崗位,以及相關(guān)崗位過往面試的候選人?!?/p>
宋洋博士表示,用戶過往的應(yīng)聘經(jīng)歷體現(xiàn)了個人偏好,而這些偏好又會影響用戶后續(xù)的決策,包括點擊或溝通哪些職位、是否促成面試等行為。為此,BOSS直聘團隊提出了一個全新模型,通過在職位側(cè)和簡歷側(cè)兩端分別引入記憶模塊學(xué)習(xí)包含交互行為的文本偏好表示,接著基于記憶模塊迭代職位和簡歷的文本向量表示,最終通過一個多層感知器來擬合是否匹配。
本文提出的模型由招聘者與求職者雙邊對稱的表示學(xué)習(xí)網(wǎng)絡(luò),以及匹配網(wǎng)絡(luò)三部分組成。在崗位描述表示學(xué)習(xí)網(wǎng)絡(luò)中,模型利用崗位描述文檔以及該崗位歷史上曾經(jīng)面試過的求職者的簡歷文檔,通過引入記憶模塊來計算帶有偏好的崗位向量表示。對稱地,可以得到帶有偏好信息的簡歷文檔表示。以上述兩個文檔表示為輸入,模型利用MLP網(wǎng)絡(luò)計算匹配分數(shù)。優(yōu)化的目標是極大化發(fā)生面試的崗位描述與簡歷文檔之間的得分,極小化不匹配樣本對之間的得分。
將“用戶歷史交互行為”加入整個推薦匹配模型是本論文最大的創(chuàng)新點,以崗位描述文檔結(jié)合“歷史交互行為”的文本表示為例,主要分為初始化階段和記憶模塊迭代兩個處理階段:
初始化階段:
模型首先對崗位描述文檔里的各個句子,以及該崗位歷史面試過求職者的簡歷文檔內(nèi)的各個句子經(jīng)過層級GRU網(wǎng)絡(luò)進行編碼,得到各個帶有上下文信息的句子表示。
同時,模型將崗位文檔各個句子帶有上下文信息的句子表示作為記憶模塊的初始化。
記憶模塊迭代:
給定一個崗位描述文檔J按照時間順序遍歷與該崗位發(fā)生過面試的簡歷文檔R,對記憶模塊M進行更新與讀取的迭代:
a)利用J和各個R對M進行更新(記憶模塊更新)。
b)J從M中讀取偏好信息(記憶模塊讀取)。
最終,團隊基于BOSS直聘真實場景數(shù)據(jù)集進行的實驗結(jié)果顯示,該方法優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法以及其他基于深度文本匹配的方法。
宋洋博士介紹,未來該論文提出的模型將會被運用到BOSS直聘的線上搜索推薦系統(tǒng)提高推薦匹配效率?!?核心還是在于提高推薦的匹配效率,以節(jié)約招聘者以及求職者的時間成本。”
與北大合作機緣
談到本次研究的初衷,宋洋博士表示,近年來,以BAT為代表的國內(nèi)互聯(lián)網(wǎng)公司頻頻在國際頂會上發(fā)表論文 ,在企業(yè)技術(shù)取得進步的同時,也為學(xué)術(shù)界做出了相應(yīng)貢獻。他進一步表示,求職招聘場景一直以來都未獲得工業(yè)界與學(xué)術(shù)界的重視,作為國內(nèi)大型互聯(lián)網(wǎng)招聘公司之一,宋洋博士認為BOSS直聘有責任推進該領(lǐng)域的研究工作,以引起更多同行的關(guān)注,共同推動招聘行業(yè)的發(fā)展。
為何合作單位選擇了北大?宋洋博士與北大嚴睿老師曾是同學(xué),兩人在聊天時會經(jīng)常聊到雙邊匹配的可能性,所以一拍即合,最終促成本次合作。“過往學(xué)界在推進相關(guān)研究時,更多集中于單邊推薦系統(tǒng),而求職招聘場景是天然雙邊匹配推薦場景,擁有廣泛的文本數(shù)據(jù)資源,如簡歷/招聘描述、雙方交互行為等?!彼窝蟛┦咳绱苏f道。
據(jù)了解,為了更好地推進該工作,雙方團隊一起碰撞了四個多月。最終,將成果投稿于KDD大會,負責評審論文的三位評委肯定了該工作的創(chuàng)新性。
“BOSS直聘是第一個提出將靜態(tài)的文本信息與動態(tài)的行為交互偏好信息結(jié)合到一個深度文本匹配框架下,用于解決求職招聘場景的雙邊推薦匹配問題?!彼窝蟛┦垦a充道,“問題的解決思路足夠直觀、實驗部分比較扎實充分、實驗效果也很好,這些都是加分項?!?/p>
此外,宋洋博士認為還有一個潛在的原因?!坝捎谇舐氄衅改壳吧袑儆谛”姷膯栴}領(lǐng)域,對于看了特別多電商推薦、圖網(wǎng)絡(luò)方面論文的評審來說,看到雙邊匹配推薦模型應(yīng)用于人力資源行業(yè),讓人眼前一亮。”
BOSS 直聘 NLP 中心
BOSS直聘NLP中心成立于2017年7月,主要職能是面向BOSS直聘全場景的文本數(shù)據(jù)資源開展基礎(chǔ)算法研究以及應(yīng)用服務(wù)開發(fā)。
根據(jù) AI 開發(fā)者了解,該中心負責研究求職期望文本信息與崗位描述文本信息之間的雙邊匹配算法,比如求職期望解析、職位描述的結(jié)構(gòu)化信息提取、雙方交互行為信息挖掘、知識圖譜、智能客服等等。
宋洋博士表示,除了與NLP相關(guān)的工作外,中心還會涉及圖像算法以及安全風控方面的工作。未來,BOSS直聘NLP中心將繼續(xù)圍繞求職招聘的場景,聚焦于遷移學(xué)習(xí)、異構(gòu)信息網(wǎng)絡(luò)推薦等多個方向做更深入的探索實踐。在本次采訪中,宋洋博士也對這兩個方向的研究做了詳細介紹:
遷移學(xué)習(xí)試圖解決的是部分崗位求職者信息不足所導(dǎo)致匹配效率低的問題,通過將某個文本信息更加豐富的崗位/行業(yè)場景遷移到文本信息相對匱乏的崗位/行業(yè)場景,提高雙邊匹配推薦效率。
異構(gòu)信息網(wǎng)絡(luò)推薦是近幾年在推薦算法領(lǐng)域比較前沿的研究方向,所以希望能沿著該方向做一些探索實踐。
宋洋博士告訴 AI 開發(fā)者,BOSS直聘NLP中心將近40人,目前團隊在NLP算法、圖像算法、安全風控算法、知識圖譜、智能客服、圖數(shù)據(jù)庫等方面都有招人需求,對此感興趣的同學(xué),可以密切保持關(guān)注。
在問及有何建議給到年輕的 AI 開發(fā)者們,宋洋博士表示,“盡量多做一些與工業(yè)界實際業(yè)務(wù)場景相關(guān)的核心問題,才能做出更多具有工業(yè)價值的貢獻。”
封面圖來源:https://www.enago.cn/academy/tips-on-writing-a-resume-for-an-industrial-research-job/
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章