AI 生成模型五花八門，誰好誰壞？CMU 朱俊彥團隊推出首個自動匹配排名系統

本文作者：我在思考中

2022-10-10 09:29

導語：支持文本、圖像、草圖、給定模型等多種輸入查詢。

作者 | 李梅

編輯 | 陳彩嫻

最近的生成式 AI 可謂十分火爆，新出的預訓練圖像生成模型多到讓人目不暇接。無論是肖像、風景，還是卡通漫畫、特定藝術家風格元素等等，每個模型都有它擅長生成的內容。

這么多模型里面，如何快速找到一個能滿足自己創(chuàng)作欲的最佳模型呢？

近日，卡內基梅隆大學的助理教授朱俊彥等人首次提出了基于內容的模型搜索算法，讓你能夠一鍵搜索出最匹配的深度圖像生成模型。

論文地址：https://arxiv.org/pdf/2210.03116.pdf

在團隊基于這套模型搜索算開發(fā)的在線模型共享和搜索平臺 Modelverse 上，你可以輸入文本、圖像、草圖和給定模型，來搜索出最匹配或相似的相關模型。

Modelverse 平臺地址：https://modelverse.cs.cmu.edu/

圖注：輸入文本（如“非洲動物”）、圖像（如一張風景圖）、草圖（如一只站立的貓的草圖）或者一個給定模型，輸出排名靠前的相關模型（第二行、第三行）

比如，輸入文本“face”，得到結果如下：

AI 生成模型五花八門，誰好誰壞？CMU 朱俊彥團隊推出首個自動匹配排名系統

輸入一只貓咪圖像：

AI 生成模型五花八門，誰好誰壞？CMU 朱俊彥團隊推出首個自動匹配排名系統

輸入一匹馬的草圖：

AI 生成模型五花八門，誰好誰壞？CMU 朱俊彥團隊推出首個自動匹配排名系統

基于內容的模型搜索

和傳統的多媒體搜索一樣，模型搜索能夠幫助用戶找到最適合其特定需求的模型。但基于內容的模型搜索任務有其特殊難點：

判斷模型是否可以生成特定圖像，這是一個比較難計算的問題，而且很多深度生成模型并沒有提供有效方法來估計密度，其本身也不支持評估跨模態(tài)相似性。而蒙特卡洛這種基于抽樣的方法又會使模型搜索過程變得非常緩慢。

為此，朱俊彥團隊提出了一種新的模型搜索系統。

每個生成模型都會產生一個圖像分布，所以作者將搜索問題處理為優(yōu)化，以最大化在給定模型的情況下生成與查詢匹配的概率。如下圖所示，該系統由預緩存階段（a，b）和推理階段（c）組成。

圖注：模型搜索方法概覽

給定一組模型，（a）首先為每個模型生成 50K 樣本；(b) 然后將圖像編碼為圖像特征并計算每個模型的一階和二階特征統計。統計數據緩存在系統中以提高效率；(c) 在推理階段，支持不同模態(tài)的查詢，包括圖像、草圖、文本描述、另一個生成模型或這些查詢類型的組合。作者在這里引入近似值，查詢被編碼為特征向量，通過評估查詢特征與每個模型統計數據之間的相似性，來檢索具有最佳相似性度量的模型。

模型搜索效果

作者對算法進行評估，對 133 個深度生成模型（包括 GAN、擴散模型和自回歸模型）進行了消融實驗分析。與蒙特卡洛基線相比，該方法可以實現更高效的搜索，速度在 0.08 毫秒內，提升 5 倍，同時還能保持高精度。

通過對比模型檢索結果，我們也可以大致了解針對不同查詢輸入，哪些模型能生成質量更高的圖像。比如下圖展示了模型檢索的結果對比。

圖注：模型檢索結果示例

最上面一行是圖像查詢，輸入靜物畫，檢索相關藝術風格的模型，得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中間行是草圖查詢，輸入馬和教堂的草圖，得到 ADM、ProGAN 等模型。最下面一行是文本查詢，輸入“戴眼鏡的人”和“說話的鳥”，分別檢索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者還發(fā)現，不同網絡特征空間的模型性能存在差異。如下圖所示，在輸入圖像查詢時，結果顯示三個網絡 CLIP、DINO 和 Inception 都具有相似的性能；而在輸入草圖查詢時，CLIP 效果明顯更好，而 DINO 和 Inception 則不太適合給定查詢，它們在藝術風格的模型上表現更好。