0
雷鋒網(wǎng) AI 科技評論按:深度學(xué)習(xí)過去十年在各個領(lǐng)域都取得了巨大的成功,但當把深度學(xué)習(xí)技術(shù)應(yīng)用到實際問題中時,常會遇到諸多挑戰(zhàn)。阿里巴巴作為在電商領(lǐng)域有諸多業(yè)務(wù)的企業(yè),對深度學(xué)習(xí)有很大的需求,不可避免地當他們將深度學(xué)習(xí)應(yīng)用到業(yè)務(wù)中時會遇到許多學(xué)界人士不可能遇到的問題。
前段時間剛過去的IJCAI 2017大會上,阿里巴巴集團iDST院長金榕做了一場關(guān)于《Deep Learning at Alibaba》的keynote報告。報告中,金榕介紹了深度學(xué)習(xí)在阿里巴巴的業(yè)務(wù)中的一些應(yīng)用以及正在進行的一些研究。以下內(nèi)容為雷鋒網(wǎng)根據(jù)現(xiàn)場報告的錄音以及IJCAI 官網(wǎng)上的相關(guān)論文《Deep Learning at Alibaba》整理而成。
金榕的演講主要有四塊內(nèi)容。如PPT中所示:
1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業(yè)務(wù)開始,通過遷移學(xué)習(xí)來處理后兩個問題。
2、語音識別和自然語言處理。包括聲學(xué)模型、依存語法和模仿問答三個部分。
3、對組合優(yōu)化的討論。在這個討論中,金榕介紹了3D容器打包(3D Bin Packing)和自動設(shè)計banner兩個問題,前者在菜鳥運送快遞時節(jié)省了大量的成本,后者則在雙十一時節(jié)省了大量的人力、物力。
4、模型簡化問題。包括模型的壓縮以及通過淺網(wǎng)(shallow network)的嘗試工作。
在開始介紹阿里巴巴業(yè)務(wù)中的深度學(xué)習(xí)之前,金榕博士介紹了阿里巴巴企業(yè)的生態(tài)環(huán)境。作為一個電子商務(wù)企業(yè),阿里巴巴的購物平臺包括淘寶、天貓、聚劃算、飛豬、AliExpress、LAZADA(東南亞地區(qū)最大的在線購物網(wǎng)站之一)等,在此基礎(chǔ)上還在許多涉足領(lǐng)域,例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優(yōu)酷和土豆、菜鳥等。
金榕還對阿里巴巴業(yè)務(wù)中應(yīng)用到的深度學(xué)習(xí)問題作了一個梳理,大概包括:
1、信息檢索(搜索和推薦系統(tǒng));
2、語音技術(shù)(自動語音識別、語音合成,對話管理);
3、自然語言處理(拼寫檢查、依存語法、問答和機器翻譯);
4、圖像/視頻內(nèi)容分析(臉部、文字的識別、匹配以及細粒分類;多形態(tài)分類;對象檢測、追蹤、識別;視頻事件檢測、分類);
5、深度學(xué)習(xí)和優(yōu)化(優(yōu)化、模型壓縮、預(yù)測;道路規(guī)劃和圖標設(shè)計)
1、拍立淘
在阿里巴巴的淘寶中有一項業(yè)務(wù)為“拍立淘”。其基本的思想就是以圖搜圖,對著你感興趣的物品拍一張照片,系統(tǒng)將根據(jù)照片給你推薦相關(guān)的商品。 據(jù)金榕介紹,現(xiàn)在已經(jīng)有超過1億件商品的30億張圖片,每天有至少1200萬活躍用戶。
這項業(yè)務(wù)的基礎(chǔ)就是通過深度學(xué)習(xí)對結(jié)果進行排序,阿里研究人員通過用戶記錄的三元組數(shù)據(jù)(查詢圖片、點擊圖片和未點擊圖片)來訓(xùn)練模型的排序損失函數(shù),從而得到排序結(jié)果。
例如你上傳一張桌子的照片,模型將自動檢測出主體,然后按照排序分數(shù)從高到低排出相關(guān)商品的結(jié)果。
2、從拍立淘到Everything——遷移學(xué)習(xí)
拍立淘的這項業(yè)務(wù)其本質(zhì)就是圖像匹配,所以可以通過遷移學(xué)習(xí)將這個模型從電子商務(wù)應(yīng)用到其他領(lǐng)域。傳統(tǒng)的遷移學(xué)習(xí)方法如圖所示,拍立淘中圖片的矢量表示x通過線性變換遷移到別的領(lǐng)域的圖像表示x’上。其中W為線性遷移矩陣,這個矩陣可以通過有限的數(shù)據(jù)學(xué)習(xí)得到。
這種方法比較簡單,但由于在實際應(yīng)用中源和目標往往有比較大的差距,線性模型并不能很好的調(diào)和這種差距。金榕介紹,在阿里的遷移學(xué)習(xí)中,他們引入了一個隨機傅立葉函數(shù),使遷移變換由線性變?yōu)榉蔷€性。
這種非線性遷移學(xué)習(xí)的方法在實驗中要比線性遷移學(xué)習(xí)方法的精度要高,魯棒性也更好。
1、聲學(xué)模型
自動語音識別包括聲學(xué)模型、語言模型和解碼器。這里只討論其中的聲學(xué)模型(Acoustic Model)。基于聲學(xué)模型的神經(jīng)網(wǎng)絡(luò)在過去5年已經(jīng)有了長足的發(fā)展,單詞識別的錯誤率已經(jīng)下降到了5.9%。
現(xiàn)在常用的對聲學(xué)模型的處理是雙向長短時記憶模型(Bi-directional Long Short-Term model)。這種模型相比于長短時記憶模型有更高的精度,但是潛在的因素也非常大。阿里的研究人員開發(fā)出潛在控制雙向長短時記憶模型(Latency-Controlled BLSTM),這種模型添加了刪減的反向傳播以及未來的信息,這種模型能夠加速BLSTM的計算。
2、依存語法(Dependency Parsing)
依存語法這個問題,對于非專業(yè)人士還是很難理解的。簡單來說就是通過依存語法構(gòu)建了主詞與描述主詞的詞之間的關(guān)系。由于依存語法沒有詞組這個層次,每一個結(jié)點都與句子中的單詞相對應(yīng),它能直接處理句子中詞與詞之間的關(guān)系。這種特性使得它非常便于語句分析和信息提取。
最近幾年人們在將神經(jīng)網(wǎng)絡(luò)應(yīng)用到語法解析方面取得了很大的成功。其中一個極好的例子就是biaffine attention parser,其基本的思想就是給范圍內(nèi)每一個可能的主詞與其他詞之間的聯(lián)系進行打分。但是這只針對你所感興趣的詞。在淘寶中,阿里的研究人員采用了附加有全局調(diào)節(jié)器的BAP,這種方式得到的結(jié)果有更好的表現(xiàn)。
例如上面的例子中,傳統(tǒng)的BAP會將cautious與decline關(guān)聯(lián)起來,而實際上它們并沒有聯(lián)系;而附加有全局調(diào)節(jié)器的BAP則顯示出較好的結(jié)果。
3、模仿問答
金榕博士在此簡要介紹了Mimicked QA系統(tǒng)。這個系統(tǒng)并不是要簡單地構(gòu)建一個問答系統(tǒng),更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的,它首先將用戶的語音提問通過語音識別轉(zhuǎn)化成文本,再通過文本問答系統(tǒng)生成答案,隨后生成語音答案以及相應(yīng)的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。
在這個部分,金榕通過兩個例子——3D容器打包(3D Bin Packing)和自動設(shè)計banner——來說明阿里如何將深度學(xué)習(xí)的組合優(yōu)化應(yīng)用到業(yè)務(wù)當中。
1、3D容器打包
在物流業(yè)務(wù)中有一個常見的NP問題(也是組合優(yōu)化問題)就是3D容器打包:如何才能更有效地打包物品呢?這個問題的實質(zhì)就是找到一個優(yōu)化的打包方式(啟發(fā)heuristic)。但是打包的方式太多了,所以困難就在于如何才能知道何時該用何種打包方式?金榕介紹了他們團隊如何通過指針網(wǎng)絡(luò)和強化學(xué)習(xí)來給出優(yōu)化方案。
在打包過程中有三項關(guān)鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優(yōu)序列。
模型中的指針網(wǎng)絡(luò),是由兩個回歸神經(jīng)網(wǎng)絡(luò)的RNN模塊(編碼器和解碼器)構(gòu)成,該網(wǎng)絡(luò)的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優(yōu)的)。當給定一個打包序列后,打包這些物品所需的最小容器就很容易可以計算出來。隨后通過強化學(xué)習(xí)便可以快速找到優(yōu)化的打包方式。
阿里團隊將通過模擬數(shù)據(jù)對該模型訓(xùn)練后,將結(jié)果應(yīng)用到天貓和菜鳥的物流打包中,結(jié)果證明強化學(xué)習(xí)后的打包方式能夠節(jié)省5%的打包箱。5%的優(yōu)化對普通人來說可能并不顯著,但考慮到物流公司每天都要處理成千上萬的包裹,這樣的優(yōu)化結(jié)果將能夠節(jié)省很多成本。
2、自動設(shè)計Banner
在購物網(wǎng)站上,一個好的banner會給用戶帶來更好的體驗。阿里巴巴平臺上有大量的商品展示,尤其是在雙十一光棍節(jié)時,對banner有大量的需求,靠手動設(shè)計顯然是不現(xiàn)實的。于是他們將深度學(xué)習(xí)應(yīng)用到了banner的設(shè)計中。
具體來說,banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特征網(wǎng)絡(luò)中,再加上用戶日志,就構(gòu)成了一個價值網(wǎng)絡(luò),最終會給出一個組合(banner)的質(zhì)量(quality)。通過這種方式為網(wǎng)上廣告進行設(shè)計顯然將會更節(jié)省人力、更快速地響應(yīng)需求,也將會得到更好的結(jié)果。
現(xiàn)在的深度學(xué)習(xí)模型變得越來越復(fù)雜,甚至有的模型已經(jīng)超過了1000層,參數(shù)空間達到了10億級。這使得深度網(wǎng)絡(luò)神經(jīng)學(xué)習(xí)在優(yōu)先的存儲器和計算資源下難以運行。金榕在此提到了阿里的兩種解決方案:模型壓縮和淺網(wǎng)模型的構(gòu)建。
1、模型壓縮
在演講中,金榕提出了一個利用乘法器交替方向法(ADMM)的low-bits量化神經(jīng)網(wǎng)絡(luò)的框架來壓縮模型。
當模型比較龐大時,我們有時可以通過尋求次優(yōu)解來降低計算量。常用的近似方法是,將連續(xù)的函數(shù)進行低比特量化(low-bit quantization),將w通過符號函數(shù)f(w)或硬雙曲切函數(shù)g(w)來替換。但這種方法近似的目標函數(shù)在最優(yōu)解附近會表現(xiàn)的很不穩(wěn)定。
為了解決這個問題,他們引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優(yōu)化問題的計算框架,它能夠?qū)⑦B續(xù)解和離散解結(jié)合起來,非常適用于求解分布式凸優(yōu)化問題。此外為了更有效地運行ADMM,他們還開發(fā)了額外梯度下架方法(extra gradient descent method)來解決優(yōu)化問題,這種方法能夠加速收斂。
通過用imageNet數(shù)據(jù)集的測試,結(jié)果顯示他們的方法要優(yōu)于別的方法,且三比特(-1、0、1)方法相比full-precision在精度上幾乎沒有損失。
2、深網(wǎng) v.s. 淺網(wǎng)
就前面說的,當想要尋求一個更優(yōu)的解時,人們往往會求助于更深的神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的預(yù)測函數(shù)往往是預(yù)定的且參數(shù)是相互獨立的。盡管這種方式在性能上有優(yōu)良的表現(xiàn),但模型和運算量都非常大,在訓(xùn)練上是非常困難的,使用起來也非常昂貴。于是他們就想,能否通過構(gòu)建復(fù)雜的激活函數(shù)來在預(yù)測函數(shù)中引入高度非線性,以此來取代神經(jīng)網(wǎng)絡(luò)的深度優(yōu)勢。換句話說,就是他們想用一個非常復(fù)雜的激活函數(shù)來開發(fā)一個相對較淺的網(wǎng)絡(luò)。
這個想法是受到了Cybenko等人的universal approximation theorem的啟發(fā)。根據(jù)這個理論,存在一個激活函數(shù)σ,嚴格遞增且是反曲的,它有以下的性質(zhì):對于任意函數(shù)f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數(shù)d(輸入?yún)?shù)的維度)、c、θ 、γ、向量w,滿足圖中的不等式。
換句話說,這個理論暗示了存在一個復(fù)雜的雙曲型激活函數(shù),使得任何連續(xù)函數(shù)都可以通過兩個隱藏層的神經(jīng)網(wǎng)絡(luò)得到很好的近似。搜索非線性激活函數(shù)的優(yōu)點是激活函數(shù)是單變量函數(shù),即使在非參數(shù)化設(shè)置中也可以有效地完成其優(yōu)化。目前這項研究仍在進行中,還有不少的困難。
雷鋒網(wǎng)注:參考論文《Deep Learning at Alibaba》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。