
整理 | Mr Bear
在今年智源大會上,中國人民大學高領人工智能學院執(zhí)行院長、北京智源人工智能研究院首席科學家文繼榮教授以「從相關性到有用性」為線索,對搜索技術的發(fā)展歷程以及未來的研究方向進行了梳理和展望。上世紀 90 年代,互聯(lián)網(wǎng)剛剛興起。彼時,我們將搜索任務定義為語法匹配。起初搜索技術面向的用戶和任務較少,Google 研制的第一個搜索引擎索引了 2000 多萬網(wǎng)頁。搜索技術最早的受眾人群是圖書管理員、讀者,以及早期的網(wǎng)民,當時語法匹配方法就可以滿足搜索的要求。隨著互聯(lián)網(wǎng)的發(fā)展,搜索技術逐漸向語義匹配發(fā)展。此時出現(xiàn)了更多樣化、多噪聲的數(shù)據(jù),受眾也逐漸發(fā)展為了大量的互聯(lián)網(wǎng)網(wǎng)民。我們希望搜索系統(tǒng)能夠理解用戶表達的并不清晰、完整的查詢,因此進行準確的語義的理解是非常關鍵的。目前,搜索技術正在向語用匹配過渡。在未來的移動互聯(lián)網(wǎng)等場景中,我們需要能夠隨時隨地進行搜索,得到理想的答案,從而幫我們完成任務。汽車未來也可能成為一個重要的搜索場景,移動的環(huán)境中存在多種可以隨時隨地獲取信息的傳感器,幫助人類完成各種任務。為了實現(xiàn)搜索技術從相關性到可用性的革新,我們需要考慮以下 3 個關鍵的因素:(1)循因果、可解釋。挖掘出事物內(nèi)在的運行規(guī)律,做到知其然且知其所以然。(2)多輪交互。未來的搜索系統(tǒng)應該扮演人類助手的角色,人類可以與之進行交互,而不僅僅只是單獨完成一次次的查詢。(3)多模態(tài)。結合多個模態(tài)的數(shù)據(jù)幫助人類作出決策。基于因果的搜索技術初探
第一,基于因果的搜索。因果性不光是信息檢索領域,各個領域都非常關注,這就是為什么要知其所以然?,F(xiàn)在有很多模型,包括悟道2.0預訓練模型,還主要是基于相關性而非因果性的。基于因果的智能是當下多個研究領域的熱點問題。目前我們建立的大多數(shù)智能系統(tǒng)仍然是以相關性為基礎的,它們存在諸多不足之處。以網(wǎng)頁排序為例,在使用 PageRank 算法時,我們假設網(wǎng)頁的鏈接數(shù)越則多網(wǎng)頁的可信度和重要性越高。然而,實際上這種假設將因果倒置了。真正的因果可能是,網(wǎng)頁質(zhì)量高導致網(wǎng)頁的鏈接數(shù)較多。而如果我們將上述因果關系倒置,該漏洞可能會被「搜索引擎優(yōu)化者」(SEO)利用。SEO 可以通過「灌水」增加網(wǎng)頁的鏈接數(shù),從而提升網(wǎng)頁的排名,即 Link Spam。此外,用戶點擊行為還會受到選擇偏置和位置偏置等因素的影響。排名靠前的網(wǎng)頁被點擊的可能性往往較大,排在后面的點擊率則較小。如果某網(wǎng)頁沒有被排在第一頁,它甚至沒有機會被點擊。以往的搜索系統(tǒng)大多沒沒有考慮選擇偏置和位置偏置。實際上,「是否展示」、「網(wǎng)頁排名」、「點擊」和「相關性」會構成復雜的因果關系,我們不應該簡單地構建點擊率與網(wǎng)頁排名的相關性。在搜索系統(tǒng)中,我們可以利用用戶的反饋結果改進排序算法,而這一過程會使上述偏置不斷在系統(tǒng)中積累??梢姡雎砸蚬P系將導致模型偏置對系統(tǒng)性能的影響越來越大。未來,我們需要將因果推斷集成到搜索引擎中,從而實現(xiàn)更可信、公平、可解釋的搜索,使搜索引擎不易被攻擊、不受到偏置因素的影響、解釋得到搜索結果的理由。面向信息檢索的反事實學習
信息檢索可以利用反事實學習消除偏置的影響,從而實現(xiàn)因果推斷。反事實技術指的是通過改變某些條件,并觀察改變條件之前的結果是否還會發(fā)生,從而判斷該條件對結果的影響。在該場景下,我們一般會處理三種數(shù)據(jù):(1)觀測到的有偏數(shù)據(jù);(2)觀測到的無偏數(shù)據(jù);(3)未觀測數(shù)據(jù)。面向檢索的反事實學習包含四個部分:(1)反事實數(shù)據(jù)學習(2)對觀測到的有偏數(shù)據(jù)進行校正(3)雙魯棒方法,同時處理未觀測到的數(shù)據(jù)和觀測到的有偏數(shù)據(jù)(4)通過干預方法結合觀測到的有偏和無偏數(shù)據(jù)我們與華為諾亞方舟實驗室合作設計了一種雙穩(wěn)健排序算法,可以在排序?qū)W習過程中同時對選擇偏置和位置偏置建模,同時處理觀測到的有偏數(shù)據(jù)和未觀測的數(shù)據(jù),通過 IPS 消除位置偏置的影響,用直接法消除選擇偏置的影響。我們可以直接將用戶的點擊日志和深度學習模型組合起來模擬用戶的行為,構建一個訓練排序模型的虛擬環(huán)境,并基于該環(huán)境對未觀測的數(shù)據(jù)做反事實學習。在我們最近被 SIGIR 2021 接收的論文「Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback」中,我們用反事實約束的方法消除用戶的延遲反饋。具體而言,我們利用模擬的延遲反饋構建反事實的 Deadline,并采取了多臂老虎機強化學習策略,從而將實際產(chǎn)品數(shù)據(jù)離線測試的 CVR 提升了 3.86%。圖 16:基于反事實數(shù)據(jù)增強的序列化用戶行為建模推薦任務中往往存在數(shù)據(jù)稀疏的問題。比如,用戶購買了商品 A,后面又瀏覽或者購買了其它的商品。我們可以利用反事實技術,假設該用戶沒有購買商品 A,預測他接下來的行為。在 SIGIR 2021 論文「Counterfactual Data-Augmented Sequential Recommendation」中,我們用反事實數(shù)據(jù)進行數(shù)據(jù)增強,根據(jù)觀測數(shù)據(jù)生成反事實用戶行為樣本,進而緩解了序列建模中的數(shù)據(jù)稀疏問題。多輪交互
多輪交互很多領域都在研究,自然語言處理、信息檢索領域?qū)ζ潢P注尤其多。我們認為未來的信息檢索不是一趟式的。現(xiàn)在的搜索引擎強迫用戶采用單輪的搜索來找答案,而更好的方式是與系統(tǒng)交互,有問有答,層層遞進尋找答案。多輪交互式自然語言處理、信息檢索領域的另一個熱門研究課題。我們希望未來的信息檢索不僅僅局限于單趟交互,能夠在多輪交互中從用戶并不完整、清晰的表達中充分獲取信息需求,這種層層遞進的方式更加符合人類的使用習慣。例如,我們在訂餐館的過程中,需要通過多輪交互逐漸確定對于餐館、菜品、交通等因素的需求。多輪交互和信息檢索的結合面臨諸多挑戰(zhàn),例如:意圖跟蹤、語言問答的生成、結果的評價等。在 SIGIR 2020 論文「Recent Advances in Conversational Information Retrieval」中,作者提出了一種交互式搜索框架。在該框架下,用戶首先給出一個查詢,系統(tǒng)會搜索到一些與查詢匹配的文檔,并通過將多個文檔綜合起來最終形成回答結果。在下一輪問答中,系統(tǒng)會將用戶在對話中的查詢和上一輪的回答結合起來生成考慮上下文信息的查詢。系統(tǒng)在回答查詢問題的同時也可以給向用戶做推薦、與用戶進行交互,或者反過來想用戶詢問一些需要進一步說明的問題。問答系統(tǒng)除了要理解用戶的問題,還需要利用信息資源語義空間中的對象的語義。為此,我們同時在資源空間和用戶空間內(nèi)構建了知識圖譜,并分別對它們進行表示學習,然后基于互信息最大化技術對上述兩個圖譜進行了語義融合,從而使系統(tǒng)可以根據(jù)問題推測出用戶關注的是哪些對象及其屬性。我們常常希望以自然的方式在對話中進行推薦。然而,缺乏測試和訓練數(shù)據(jù)集是我們面臨的主要挑戰(zhàn),為此我們收集大量用戶在推薦網(wǎng)站上的行為數(shù)據(jù)(例如,電影瀏覽的序列),從而生成對話數(shù)據(jù),并發(fā)布了話題引導的對話式信息獲取數(shù)據(jù)集 TG-Redial。我們分析了搜索滿意度的生成機制,設計了同時考慮級聯(lián)衰減效應和近因效應的多輪交互式檢索評價指標。具體而言,我們考慮通過以下三個模型為交互式搜索任務提供一種高質(zhì)量的評價體系:(1)瀏覽模型:記錄用戶在瀏覽階段的行為(例如,點擊、提問等)。(3)效用累計模型:在交互式搜索中如何逐漸尋找到要理想的答案。我們發(fā)布了學術界第一個基于對話的推薦工具包 CRSLab,覆蓋了四個主要任務下的 18 種模型和大量已公開的數(shù)據(jù)集。此外,在交互式搜索領域中,我們還針對「問題生成」,「融合多輪上下文的排序模型」和「面向交互式搜索的預訓練」等問題展開了研究。趙鑫教授團隊發(fā)布了推薦系統(tǒng)開源工具庫“伯樂”,目前已在 Github 上收獲了近 1000個 Star。智源信息檢索團隊基于交互式搜索開發(fā)了智能政務助手。該系統(tǒng)的第一個版本的開發(fā)工作已經(jīng)完成,具備任務型多論問答、政務辦事指南導航、基于機器閱讀理解的模型問答、答案融合排序等功能。從文本到多模態(tài)
多模態(tài)預訓練技術對于搜索任務也具有十分重要的意義。人類在做信息搜索時往往會使用多模態(tài)的數(shù)據(jù)。在 2005 年《自然》雜志刊登的的一篇論文中,作者指出人腦會自動將對應于同一個概念的多模態(tài)信息映射到相同的語義空間的表征上,我們期望計算機也能實現(xiàn)同樣的功能。圖 28:文瀾——大規(guī)模多模態(tài)預訓練模型人腦的強大之處在于,我們可以利用弱相關的信息。例如,看到圖 28 中的蛋糕,人類會想到吃蛋糕不利于減肥。目前主流的模型旨在理解圖文數(shù)據(jù)間的強相關信息,中國人民大學、中科院計算所、清華大學、智源人工智能研究院聯(lián)合組成的文瀾團隊開發(fā)了能夠有效利用圖文數(shù)據(jù)間弱相關信息的大規(guī)模預訓練模型,更加符合實際需求。此外,文瀾團隊還收集了海量的數(shù)據(jù)用于模型預訓練。我們主要使用了圖片和文字兩個模態(tài)的數(shù)據(jù),根據(jù)圖文匹配程度對樣本進行了排序,從而提升匹配精度,并使用了跨模態(tài)對比學習技術構建了雙塔的 BriVL 架構。與 OpenAI 的 CLIP 和谷歌的 ALIGN 大規(guī)模預訓練模型相比,文瀾模型的性能均取得了較大程度的提升。此外,我們還研發(fā)了多語言多模態(tài)預訓練模型,旨在結合多模態(tài)與多語言與訓練的優(yōu)勢,利用視覺作為多種語言知識遷移的橋梁,為多模態(tài)模型提供更廣闊的應用場景。圖 30:文瀾多模態(tài)神經(jīng)元示例——詩句當我們向文瀾模型輸入詩句時,模型會自動生成符合詩句內(nèi)容和意境的圖像,這證明了多模態(tài)數(shù)據(jù)之間的相關性。基于文瀾模型,我們可以實現(xiàn)跨模態(tài)檢索,只需向系統(tǒng)輸入關鍵詞,就可以檢索出來之前并沒有標注過的圖像。未來的研究方向
兩年前,智源信息檢索與挖掘團隊成立時,我們的愿景就是未來能夠創(chuàng)造出類似于電影《鋼鐵俠》中的智能信息助手賈維斯這樣的搜索系統(tǒng)。無論人類想知道什么信息,都可以通過與該系統(tǒng)進行對話得到最智慧的答案。由于人的存儲計算和能力是有限的,所以我們需要使用這樣的「外掛」,從而使人類的能力得到提升,最終將信息和知識轉(zhuǎn)化為有用的行動。交互式個人智能信息助手需要具備自然交互的能力,在主動的多輪交互中做到自然語言對話;需要為用戶指定專屬的用戶畫像、考慮專屬的個性化服務,做到場景感知;同時,我們需要整合多源數(shù)據(jù)、多模態(tài)數(shù)據(jù)、個人數(shù)據(jù)、來自第三方 APP 的數(shù)據(jù)解決多模態(tài)整合的問題;此外,我們還需要向該系統(tǒng)中融入知識,基于因果推理技術實現(xiàn)安全、可解釋的搜索,實現(xiàn)搜索的高準確性、高魯棒性。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。