0
本文作者: AI研習(xí)社-譯站 | 2018-08-27 10:03 |
雷鋒網(wǎng)按:本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 How GOAT Taught a Machine to Love Sneakers,作者為 Emmanuel Fuentes。
翻譯 | Lamaric 校對 | 余杭 整理 | MY
任務(wù)
在 GOAT,我們?yōu)橘I家和賣家創(chuàng)造了一個(gè)最大的運(yùn)動(dòng)鞋安全交易市場。幫助人們表達(dá)他們個(gè)人的風(fēng)格和定位的運(yùn)動(dòng)鞋世界是 GOAT 的數(shù)據(jù)團(tuán)隊(duì)的主要?jiǎng)恿?。?shù)據(jù)團(tuán)隊(duì)構(gòu)建一系列工具和服務(wù),利用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),盡可能減少該社區(qū)可能出現(xiàn)的問題。
當(dāng)我加入 GOAT 時(shí),我并不是一個(gè)運(yùn)動(dòng)鞋狂熱愛好者。每天在處理新款運(yùn)動(dòng)鞋的同時(shí),我更傾向于使每一個(gè)都有獨(dú)一無二的視覺特征。我開始疑惑那些剛接觸這種文化的人會(huì)以何種方式進(jìn)入這個(gè)領(lǐng)域。我覺得,無論你對于運(yùn)動(dòng)鞋的審美水平如何,我們都可以傳達(dá)他們的視覺吸引力。受我的經(jīng)驗(yàn)啟發(fā),我決定構(gòu)建一個(gè)工具,希望其他人會(huì)覺得它有用。
首先要開發(fā)一種用于描述所有運(yùn)動(dòng)鞋的通用語言。但是,這不是一項(xiàng)簡單的任務(wù)。我們的產(chǎn)品目錄中有超過 30,000 款運(yùn)動(dòng)鞋(并且數(shù)量正在增長),其中每款鞋獨(dú)特的樣式、輪廓、材料、顏色等都包含于整個(gè)目錄,變得棘手。此外,每一款鞋子的版本都有可能改變我們談?wù)撨\(yùn)動(dòng)鞋的方式,這意味著我們必須更新它們的通用語言。因此我們需要通過從一開始就將它們包含在我們的語言中來接受變化和創(chuàng)新,而不是試圖與現(xiàn)實(shí)作斗爭。
解決方法之一是使用機(jī)器學(xué)習(xí)。為了跟上不斷變化的運(yùn)動(dòng)鞋外觀,我們使用可以找到對象之間關(guān)系的模型,而無需明確說明要查找的內(nèi)容。在實(shí)踐中,這些模型傾向于學(xué)習(xí)與人類相似的特征。我將在這篇文章中詳細(xì)介紹我們?nèi)绾问褂眠@種技術(shù)構(gòu)建視覺屬性作為我們常見運(yùn)動(dòng)鞋語言的基礎(chǔ)。
潛在變量模型
在 GOAT,我們使用人工神經(jīng)網(wǎng)絡(luò)來近似我們的產(chǎn)品目錄中最具說服力的視覺特征,即潛在的變異因素。在機(jī)器學(xué)習(xí)中,這屬于流形學(xué)習(xí)的范疇。流形學(xué)習(xí)背后的假設(shè)通常是數(shù)據(jù)分布,例如:運(yùn)動(dòng)鞋的圖像可以在局部類似于歐幾里德空間的較低維度表示中表達(dá),同時(shí)保留大部分有用信息。結(jié)果是將數(shù)百萬個(gè)圖像像素轉(zhuǎn)換為可解釋的細(xì)微差別特征,并將其封裝為少量數(shù)字的列表。
流形是什么?
想想你如何告訴你的朋友你家的路線。你永遠(yuǎn)不會(huì)描述如何通過一系列原始 GPS 坐標(biāo)從他們的房子到你的房子。在這個(gè)比喻中,GPS 表示高維,寬域隨機(jī)變量。相反,你很可能會(huì)以一系列街道名稱的形式來使用這些坐標(biāo)的近似值,并加上轉(zhuǎn)向方向,即我們的流形,來編碼它們的驅(qū)動(dòng)器。
建立模型
我們利用無監(jiān)督模型,如變分自動(dòng)編碼器(VAE),生成性對抗網(wǎng)絡(luò)(GAN)和 Wasserstein 自動(dòng)編碼器(WAE)來學(xué)習(xí)這種流形,且無需代價(jià)高昂的實(shí)體標(biāo)簽。這些模型為我們提供了一種方法,可以將我們的主要運(yùn)動(dòng)鞋照片轉(zhuǎn)換為美學(xué)上的潛在因素,也可稱之為嵌入。
在許多情況下,這些模型利用某種形式的自動(dòng)編碼器框架來推斷潛在空間。模型的編碼器將圖像分解為其潛在向量,然后通過模型的解碼器重建圖像。在此過程后,我們測試模型重建輸入的能力并計(jì)算其不正確性,即損失。該模型使用損失值迭代地壓縮和解壓縮更多圖像,作為提高精度的信號。重建任務(wù)即為推動(dòng)這個(gè) bowtie looking 模型來學(xué)習(xí)對任務(wù)最有幫助的嵌入。與其他降維技術(shù)(如 PCA)類似,此技術(shù)通常會(huì)導(dǎo)致對數(shù)據(jù)集中的可變性部分進(jìn)行編碼。
原型自動(dòng)編碼器
陷阱和設(shè)計(jì)的選擇
僅僅能夠重建圖像通常是不夠的。傳統(tǒng)的自動(dòng)編碼器最終成泛化能力較弱的數(shù)據(jù)集 查找表。這是由于在樣本之間的空間中具有 chasms/cliffs 的學(xué)習(xí)不佳的流形的結(jié)果?,F(xiàn)在的模型正以各種方式解決這個(gè)問題。例如著名的 VAE,為損失函數(shù)添加了一個(gè)發(fā)散正則化項(xiàng),以便將潛在空間約束到一些理論上的支持。更具體地說,這些類型的模型中的大多數(shù)懲罰與一些高斯或均勻先驗(yàn)不匹配的潛在空間,并試圖通過選擇發(fā)散度量來近似差異。在很多情況下,選擇合適的模型可歸結(jié)為發(fā)散測量,重建誤差函數(shù)和強(qiáng)加先驗(yàn)的設(shè)計(jì)選擇。設(shè)計(jì)選擇的這些例子是 β-VAE 和 Wasserstein 自動(dòng)編碼器,它們分別利用了 Kullback-Leibler 發(fā)散和對抗性損失。根據(jù)您學(xué)習(xí)嵌入的用例,您可能會(huì)偏愛另一個(gè),因?yàn)橥ǔP枰谳敵鲑|(zhì)量和多樣性之間進(jìn)行權(quán)衡。
β-VAE 損失函數(shù),重建和加權(quán)散度
對于我們的視覺運(yùn)動(dòng)鞋語言的美學(xué)運(yùn)動(dòng)鞋嵌入,我們更喜歡潛在因素,鼓勵(lì)強(qiáng)大和多樣化的潛在空間覆蓋我們的大部分產(chǎn)品目錄。換句話說,我們希望能夠代表最廣泛的運(yùn)動(dòng)鞋,而不是像 JS Wings 那樣獨(dú)特的風(fēng)格。
偽案例研究
......
想要繼續(xù)閱讀,請移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/TextTranslation/692
更多精彩內(nèi)容盡在 AI 研習(xí)社。
不同領(lǐng)域包括計(jì)算機(jī)視覺,語音語義,區(qū)塊鏈,自動(dòng)駕駛,數(shù)據(jù)挖掘,智能控制,編程語言等每日更新。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。