0
雷鋒網(wǎng) AI 科技評論按:搜索技術從一開始的桌面文件搜索、互聯(lián)網(wǎng)搜索,發(fā)展至今日流行的程序內(nèi)部搜索(In-app search),先后攻克了不同的技術難點,面對如今來勢洶洶的 AI 時代,搜索技術又該何去何從呢?
作為 2018TOP100Summit 案例分享嘉賓之一,Dropbox 技術主管葉旭剛將在本文中分享搜索技術的發(fā)展的來龍去脈,以及當下該領域所面臨的機會與挑戰(zhàn)。
葉旭剛,機器學習和數(shù)據(jù)科學領域資深專業(yè)人士?,F(xiàn)任美國云服務科技公司 Dropbox 的搜索團隊的技術主管, 負責開發(fā)新一代的云工作空間的智能搜索推薦引擎。曾在美國最大房地產(chǎn)搜索引擎 Zillow 任主任應用科學家, 從事房地產(chǎn)垂直領域的搜索以及自然語言理解的研發(fā)。曾在美國蘋果公司任主任數(shù)據(jù)科學家, 從事客服搜索的研發(fā)。并曾在美國微軟公司任高級應用科學家, 從事網(wǎng)頁搜索、地區(qū)搜索、企業(yè)搜索的研發(fā)。擁有約翰霍普金斯大學應用數(shù)學及統(tǒng)計博士, 并曾在美國國立健康研究所從事生物信息統(tǒng)計博士后研究。曾獲約翰霍普金斯大學博士全額研究獎, 美國國立健康研究所優(yōu)秀人才獎, 海軍研究部研究??畹?。曾在運籌統(tǒng)計、生物信息、大數(shù)據(jù)及機器學習方面的期刊及會議發(fā)表多篇第一作者文章。在頂級會議 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做過報告。
搜索技術的「前生今世」
搜索領域的發(fā)展最早可追溯至微軟操作系統(tǒng)的基礎檢索功能——桌面文件搜索系統(tǒng)(index),后來隨著互聯(lián)網(wǎng)的普及,用戶搜索范圍不再局限于單機系統(tǒng),才誕生了互聯(lián)網(wǎng)搜索系統(tǒng)。
雅虎是最早投入互聯(lián)網(wǎng)搜索系統(tǒng)開發(fā)的公司,然而一直未能從門戶網(wǎng)站的商業(yè)邏輯中跳脫出來,導致錯過了搜索引擎作為新型商業(yè)模式的風口,因而被同期的小公司趕超。這種新型商業(yè)模式后來被谷歌發(fā)揚光大,逐漸發(fā)展成今日的體量。
谷歌時代最重要的技術里程碑,是強調(diào)了網(wǎng)頁的重要性。谷歌為此進行了大量的互聯(lián)網(wǎng)資源整合工作,只要出現(xiàn)一個站點/網(wǎng)頁,谷歌都會統(tǒng)一進行 Index 標注,日積月累下成就了龐大的 Index 系統(tǒng)。Index 系統(tǒng)有效解決了雅虎時代遺留下的問題,使用戶的查詢輸入同時映射至多個結果,并根據(jù)重要性對搜索結果進行排序,從而保證呈現(xiàn)在用戶面前的都是最優(yōu)的搜索結果。
為此,谷歌需要付出高昂的基礎設施維護代價。據(jù)了解,單 2016 年,谷歌系統(tǒng)便已累積多達 10 萬億個網(wǎng)頁 index 標注,耗費存儲空間高達 100 PB(1 PB = 1024 TB)。
最近這幾年,谷歌的搜索模型逐漸從靜態(tài)封閉向開放動態(tài)發(fā)展,從單純的「搜索-返回」變?yōu)?strong>通過各種途徑揣測用戶意圖的智能化搜索服務。換句話說,谷歌系統(tǒng)時刻關注著用戶的搜索反饋,這些信息將被完整記錄下來,然后經(jīng)過整理后更新至模型里頭,最后通過對比檢驗模型的搜索效果。
「小而精」的 In-app search 時代
這一階段搜索技術在的特點是: Index 體量變得越來越大,Index 種類變得越來越豐富,同一時間模型理解用戶意圖(語境)的能力也在不斷地提高。
與此同時,搜索技術也迎來了新挑戰(zhàn):
互聯(lián)網(wǎng)資源底層結構變得多元化,用戶的搜索輸入不再局限于文字,當中還包括圖像、語音、視頻等。
一旦資源庫的體量超出系統(tǒng)可負荷的臨界點,后期可能導致資源管理上的問題。
對應的解決方案,是如雨后春筍般冒出的垂直領域搜索引擎。
跟過去不同的是,這些平臺未必在一開始就提供檢索服務,而是在商業(yè)模式取得巨大成功后,沉淀的用戶反哺為平臺帶來了大量內(nèi)容,當內(nèi)容豐富到一定程度時,自然而然形成了特定領域的搜索引擎,業(yè)界將之稱作 In-app search——用戶先登陸某個具體 app 再進行特定領域搜索的行為。
當中最具有代表性的 In-app search 平臺是 Facebook,F(xiàn)acebook 在社交領域的積淀,使其在做社交搜索方面有著得天獨厚的優(yōu)勢。有人曾經(jīng)斷言,In-app search 極有可能在未來取代谷歌、Bing 等一般性搜索成為主流搜索工具。
此外,隨著「機器人時代」的來臨,搜索趨勢也將從單一輸入理解變成互動式交流,由文字過渡至語音、圖像乃至視頻。為了更好地理解用戶的搜索意圖,這些機器人將擁有強大的自然語言理解能力,可以根據(jù)用戶的搜索需求將之導引至某個專屬領域 app。
目前看來,擁有龐大的開發(fā)者生態(tài)以及企業(yè)基礎數(shù)據(jù)的蘋果 app store 和 AWS 云平臺,極有可能超越谷歌,成為 In-app search 時代的弄潮兒。
搜索領域現(xiàn)階段面臨的難點——「內(nèi)容理解」
無論是一般性檢索還是垂直領域檢索,在「機器人時代」都不可避免地要面臨「內(nèi)容理解」的難題。
為了讓搜索引擎很好地理解人類意圖,我們必須保證引擎底層的知識結構和人類的知識結構保持一致,自然語言理解在這過程中便扮演了重要的角色。換句話說,自然語言理解是搜索引擎的索引和用戶輸入之間的橋梁,一旦缺少這個橋梁,我們的檢索技術相當于倒退至幾十年前,基本沒有進步。
然而「內(nèi)容理解」面對的內(nèi)容不僅僅是常見的網(wǎng)頁,還包括了其他的文本結構如工作文檔(可進一步細分為 word 文檔、pdf 文檔等)、圖像、視頻等,這就超出了自然語言理解的范疇,必須依賴諸如卷積神經(jīng)網(wǎng)絡、運動監(jiān)測、物體檢測等一系列特定技術才能解決信息提取問題。這也推動了目前深度學習領域較熱門的 embedding 工作,試圖將字面上的 token 映射至數(shù)字空間上。只有將不同文本結構的信息提取出來,我們才能將對象映射至文本空間上,接著通過文本技術來解決搜索的問題。
總的來說,「內(nèi)容理解」的目的是要讓搜索引擎找到一種近似人腦對自然觀察理解的方式,然而這塊目前還處于比較初級的階段,目前引擎的信息提取效果大約等同于幾歲小孩,有的時候甚至還不如一只動物。
這是搜索技術的發(fā)展當下所面臨的瓶頸,需要更多的業(yè)界人士參與進來一起努力攻克。
附:葉旭剛老師的 TOP100Summit 案例分享詳情
由 msup 主辦的技術界一年一度的 TOP100Summit 上,葉旭剛老師將與大家分享他在房地產(chǎn)搜索領域關于自動補全與自動建議技術的建模實現(xiàn)(內(nèi)容鏈接頁:http://www.top100summit.com/think/13504)。作為搜索的輔助手段,智能的自動補全和自動建議可以幫助用戶快速表達搜索意圖,同時避免查詢詞重復進入深層 index 造成系統(tǒng)延遲。
為了實現(xiàn)這一目的,需要構建一套該垂直領域的知識圖譜、詞匯表、字典樹數(shù)據(jù)結構,以及相關性概率的數(shù)學模型。葉旭剛老師將在報告中采用基于貝葉斯原則和條件獨立及非條件獨立的簡化假設把相關性概率分解成區(qū)域化和個性化兩個部分。在具體實現(xiàn)時采用兩階段貪婪排序。也就是先用區(qū)域化的相關性概率來找到一個搜索結果列,再對這個列計算個性化打分從新排序。此外,葉旭剛老師還會在報告中介紹評價系統(tǒng)表現(xiàn)的模型,以及對應的評價指標。
通過本次分享,學員可以了解自動補全和自動建議的一個全貌和具體在一個垂直領域是如何建模、設計和實現(xiàn)的。學員可以把該模型和技術移植到他們自己的搜索領域。比如說常見的場景是開發(fā)商品搜索或專業(yè)知識搜索的移動應用。
如果你對葉旭剛老師的主題分享感興趣,也想通過活動了解更多其他領域的技術創(chuàng)新/研發(fā)管理實踐,歡迎大家通過活動頁面購買會議門票:http://www.top100summit.com/apply,會議提供各種購票組合,大家可以實際需進行購買。
雷鋒網(wǎng) AI 科技評論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。