手把手教你從零起步構建自己的快速語義搜索模型

本文作者： AI研習社-譯站

2018-07-31 16:24

導語：會讀心的深度學習，越來越知道你喜歡什么。

雷鋒網(wǎng)按：本文為 AI研習社編譯的技術博客，原標題 The unreasonable effectiveness of Deep Learning Representations，作者為 Emmanuel Ameisen 。

翻譯 | 付騰王飛汪鵬校對 | 余杭整理 | MY

手把手教你從零起步構建自己的快速語義搜索模型

訓練電腦以人類的方式去看圖片

為什么從相似性搜索做起？

一張圖片勝千言，甚至千行代碼。

很多的產(chǎn)品是基于我們的感知來吸引我們的。比如在瀏覽服裝網(wǎng)站上的服裝，尋找 Airbnb 上的假期租房，或者領養(yǎng)寵物時，物品的顏值往往是我們做決定的重要因素。想要預測我們喜歡什么樣的東西，看看我們對于事物的感知方法大概就能知道了，因此，這也是一個非常有價值的考量。

但是，如何讓計算機以人類的視角來理解圖片長久以來是計算機科學領域的一大挑戰(zhàn)。直到 2012 年，深度學習在某些感知類任務（比如圖像分類或者目標探測）中開始慢慢地超過了傳統(tǒng)的機器學習方法（比如方向梯度直方圖，HOG）。關于學界的這次轉變，一個主要的原因就要歸功于深度學習對于在足夠大訓練數(shù)據(jù)集上面自動提取出有意義的表征的能力。

手把手教你從零起步構建自己的快速語義搜索模型

Pinterest 中的視覺搜索

這也是為什么很多開發(fā)團隊，比如 Pinterest，StitchFix 以及 Flickr 等，開始使用深度學習來學習他們獲得的圖片當中的表征，基于這些提取的表征以及用戶對于視覺內(nèi)容是否歡迎的反饋來為用戶提供內(nèi)容推薦。類似的，insight 的研究員也使用深度學習來建立一系列的模型，比如幫助用戶找到適合領養(yǎng)的貓咪，推薦適合購買的太陽鏡，或者搜索具體的藝術風格。

許多推薦系統(tǒng)是基于協(xié)同過濾的：利用用戶關聯(lián)來提出建議（“喜歡這個物品的用戶可能還喜歡···”）。但是，這類模型需要非常大量的數(shù)據(jù)才能比較準確，而且這類模型在應對新的還未被用戶瀏覽過的新物品的時候會表現(xiàn)不佳。物品表征是另一個解決辦法，那就是基于內(nèi)容的推薦系統(tǒng)，這種推薦系統(tǒng)并不會受到上面提到的未被瀏覽的新物品問題的影響。

此外，這些表征允許消費者有效地搜索圖像庫，（通過圖像查詢）來獲取與他們剛拍攝的自拍相似的圖像，或者搜索某些特定物品的照片，比如汽車（通過文本查詢）。這方面的常見示例包括 Google 反向圖片搜索服務以及 Google 圖片搜索服務。

根據(jù)我們?yōu)樵S多語義理解項目提供技術指導的經(jīng)驗，我們編寫了一個教程，讓讀者了解如何構建自己的表征模型，包括圖像和文本數(shù)據(jù)，以及如何有效地進行基于相似性的搜索。到本文結束時，讀者自己應該能夠從零起步構建自己的快速語義搜索模型，無論數(shù)據(jù)集的大小如何。

本文配有一個帶有代碼注釋的 notebook，使用了 streamlit 和一個獨立的代碼庫來演示和使用所有相關技術。代碼可以自由使用，請讀者自便。

我們的計劃是什么？

來聊聊優(yōu)化吧

在機器學習中，有時也和軟件工程一樣，方法總比問題多，每種方法都有不同的權衡。如果我們正在進行研究或本地的產(chǎn)品原型設計，我們可以暫時擺脫效率非常低的解決方案。但是如果我們的目標是要構建一個可維護和可擴展的相似圖像搜索引擎，我們必須考慮到兩點：1. 如何適應數(shù)據(jù)演變 2. 模型的運行速度。

讓我們先想象幾種解決方案：

手把手教你從零起步構建自己的快速語義搜索模型

方案 1 的工作流程

方案 1：我們建立一個端對端的模型，這個模型使用了我們所有的模型進行訓練。這個模型的輸入是一個圖片，輸出一個數(shù)組，這個數(shù)組里的每個元素是輸入圖片和圖片訓練集中的每一個圖片的相似性數(shù)值。模型的預測過程運行速度快（因為是單獨的前向計算），但是我們每次添加了新的圖片到圖片訓練集中就需要重新訓練一個新的模型。我們同樣會在模型迭代的過程中碰到一個大問題就是模型的輸出包含太多的類，導致模型的正確優(yōu)化極端困難。這的確是一個很快的方案，但是在可擴展性上有限制，不能擴展到比較大的數(shù)據(jù)集上。此外，我們還需要手動給我們的訓練集進行圖片相似性的標定，這將是極其耗時的一項工作。

手把手教你從零起步構建自己的快速語義搜索模型

方案 2 的工作流程

方案 2：另外一種方案是建一個相似性預測模型，這個模型的輸入是兩張圖片，輸出是一個落在區(qū)間 0 到 1 范圍內(nèi)的相似性配對值。這些模型在大型數(shù)據(jù)集上也能比較準確，但是卻受限于另一個可擴展問題。我們經(jīng)常需要從一大堆的圖片集中找到相似的圖片，因此我們需要對我們的數(shù)據(jù)集中的所有可能圖片配對集運行一次相似性模型。假設我們的模型是卷積神經(jīng)網(wǎng)絡（CNN），而且我們有不小的圖片量，那么整個系統(tǒng)的處理速度就太慢了，簡直無法忍受。此外，這種方案只能用于基于圖片相似性搜索，不能擴展到基于文本的相似性搜索。這種方案可以擴展到大數(shù)據(jù)集，但是總體的運行時間太慢了。

手把手教你從零起步構建自己的快速語義搜索模型

方法3的工作流程圖

方案 3：有一種更簡單的方法，類似于字嵌入。如果我們?yōu)閳D像找到一個很有代表性的表示或者嵌入，我們就可以通過觀察它們的矢量彼此之間的距離來計算它們的相似性。這種類型，許多庫都實現(xiàn)了快速解決方案（我們將在這里使用 Annoy）。此外，如果我們能提前計算出我們數(shù)據(jù)庫中所有圖像的這些向量，那么這種方法便可表現(xiàn)出既快速（一次正向傳遞，一種有效的相似性搜索），又可擴展的特點。最后，如果我們設法為我們的圖像和單詞找到常見的嵌入，我們可以使用它們來進行文本到圖像的搜索！

由于其簡單性和高效性，第三種方法將成為本文的重點。

我們該怎樣實現(xiàn)這個過程?

那么，我們該如何在實際中使用深度學習表示來創(chuàng)建搜索引擎？

我們的最終目標是擁有一個搜索引擎，它可以接收圖像并輸出相似的圖像或標簽，可以接收文本并輸出類似的單詞或圖像。為實現(xiàn)這一目標，我們將經(jīng)歷以下三個連續(xù)的步驟：

為輸入圖片尋找相似的圖片 (圖片 → 圖片)
為輸入的文字尋找相似的文字 (文本 → 文本)
為圖像生成標簽，并使用文本搜索圖像 (圖像 ? 文本)

為此，我們將使用嵌入 (embeddings)，圖像和文本的矢量表示。一旦我們有嵌入 (embeddings)，搜索只是找到靠近我們的輸入向量的向量。

尋找這個向量的方法是計算我們的圖像的嵌入和其他圖像之間的嵌入之間的余弦相似度。類似的圖像將具有類似的嵌入，意味著嵌入之間的高余弦相似性。

讓我們從一個數(shù)據(jù)集開始試驗。

數(shù)據(jù)集

圖片

我們的圖像數(shù)據(jù)集由總共 1000 張圖像組成，分為 20 個類別，每個類別下 50 張圖像。此數(shù)據(jù)集可在此處找到。您可以隨意使用鏈接代碼中的腳本自動下載所有圖像文件。另外感謝 Cyrus Rashtchian，Peter Young，Micah Hodosh 和 Julia Hockenmaier 的數(shù)據(jù)集。

此數(shù)據(jù)集包含每個圖像的類別和一組標題。為了使問題的難度增加，并且為了驗證我們的方法的泛化性能，我們將只使用類別，而忽略標題。數(shù)據(jù)集中總共有 20 個類，如下所示：