0
雷鋒網(wǎng) AI 科技評論按:深度學習過去十年在各個領域都取得了巨大的成功,但當把深度學習技術應用到實際問題中時,常會遇到諸多挑戰(zhàn)。阿里巴巴作為在電商領域有諸多業(yè)務的企業(yè),對深度學習有很大的需求,不可避免地當他們將深度學習應用到業(yè)務中時會遇到許多學界人士不可能遇到的問題。
前段時間剛過去的IJCAI 2017大會上,阿里巴巴集團iDST院長金榕做了一場關于《Deep Learning at Alibaba》的keynote報告。報告中,金榕介紹了深度學習在阿里巴巴的業(yè)務中的一些應用以及正在進行的一些研究。以下內(nèi)容為雷鋒網(wǎng)根據(jù)現(xiàn)場報告的錄音以及IJCAI 官網(wǎng)上的相關論文《Deep Learning at Alibaba》整理而成。
金榕的演講主要有四塊內(nèi)容。如PPT中所示:
1、計算機視覺方面。包括視覺搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業(yè)務開始,通過遷移學習來處理后兩個問題。
2、語音識別和自然語言處理。包括聲學模型、依存語法和模仿問答三個部分。
3、對組合優(yōu)化的討論。在這個討論中,金榕介紹了3D容器打包(3D Bin Packing)和自動設計banner兩個問題,前者在菜鳥運送快遞時節(jié)省了大量的成本,后者則在雙十一時節(jié)省了大量的人力、物力。
4、模型簡化問題。包括模型的壓縮以及通過淺網(wǎng)(shallow network)的嘗試工作。
在開始介紹阿里巴巴業(yè)務中的深度學習之前,金榕博士介紹了阿里巴巴企業(yè)的生態(tài)環(huán)境。作為一個電子商務企業(yè),阿里巴巴的購物平臺包括淘寶、天貓、聚劃算、飛豬、AliExpress、LAZADA(東南亞地區(qū)最大的在線購物網(wǎng)站之一)等,在此基礎上還在許多涉足領域,例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優(yōu)酷和土豆、菜鳥等。
金榕還對阿里巴巴業(yè)務中應用到的深度學習問題作了一個梳理,大概包括:
1、信息檢索(搜索和推薦系統(tǒng));
2、語音技術(自動語音識別、語音合成,對話管理);
3、自然語言處理(拼寫檢查、依存語法、問答和機器翻譯);
4、圖像/視頻內(nèi)容分析(臉部、文字的識別、匹配以及細粒分類;多形態(tài)分類;對象檢測、追蹤、識別;視頻事件檢測、分類);
5、深度學習和優(yōu)化(優(yōu)化、模型壓縮、預測;道路規(guī)劃和圖標設計)
1、拍立淘
在阿里巴巴的淘寶中有一項業(yè)務為“拍立淘”。其基本的思想就是以圖搜圖,對著你感興趣的物品拍一張照片,系統(tǒng)將根據(jù)照片給你推薦相關的商品。 據(jù)金榕介紹,現(xiàn)在已經(jīng)有超過1億件商品的30億張圖片,每天有至少1200萬活躍用戶。
這項業(yè)務的基礎就是通過深度學習對結果進行排序,阿里研究人員通過用戶記錄的三元組數(shù)據(jù)(查詢圖片、點擊圖片和未點擊圖片)來訓練模型的排序損失函數(shù),從而得到排序結果。
例如你上傳一張桌子的照片,模型將自動檢測出主體,然后按照排序分數(shù)從高到低排出相關商品的結果。
2、從拍立淘到Everything——遷移學習
拍立淘的這項業(yè)務其本質就是圖像匹配,所以可以通過遷移學習將這個模型從電子商務應用到其他領域。傳統(tǒng)的遷移學習方法如圖所示,拍立淘中圖片的矢量表示x通過線性變換遷移到別的領域的圖像表示x’上。其中W為線性遷移矩陣,這個矩陣可以通過有限的數(shù)據(jù)學習得到。
這種方法比較簡單,但由于在實際應用中源和目標往往有比較大的差距,線性模型并不能很好的調和這種差距。金榕介紹,在阿里的遷移學習中,他們引入了一個隨機傅立葉函數(shù),使遷移變換由線性變?yōu)榉蔷€性。
這種非線性遷移學習的方法在實驗中要比線性遷移學習方法的精度要高,魯棒性也更好。
1、聲學模型
自動語音識別包括聲學模型、語言模型和解碼器。這里只討論其中的聲學模型(Acoustic Model)。基于聲學模型的神經(jīng)網(wǎng)絡在過去5年已經(jīng)有了長足的發(fā)展,單詞識別的錯誤率已經(jīng)下降到了5.9%。
現(xiàn)在常用的對聲學模型的處理是雙向長短時記憶模型(Bi-directional Long Short-Term model)。這種模型相比于長短時記憶模型有更高的精度,但是潛在的因素也非常大。阿里的研究人員開發(fā)出潛在控制雙向長短時記憶模型(Latency-Controlled BLSTM),這種模型添加了刪減的反向傳播以及未來的信息,這種模型能夠加速BLSTM的計算。
2、依存語法(Dependency Parsing)
依存語法這個問題,對于非專業(yè)人士還是很難理解的。簡單來說就是通過依存語法構建了主詞與描述主詞的詞之間的關系。由于依存語法沒有詞組這個層次,每一個結點都與句子中的單詞相對應,它能直接處理句子中詞與詞之間的關系。這種特性使得它非常便于語句分析和信息提取。
最近幾年人們在將神經(jīng)網(wǎng)絡應用到語法解析方面取得了很大的成功。其中一個極好的例子就是biaffine attention parser,其基本的思想就是給范圍內(nèi)每一個可能的主詞與其他詞之間的聯(lián)系進行打分。但是這只針對你所感興趣的詞。在淘寶中,阿里的研究人員采用了附加有全局調節(jié)器的BAP,這種方式得到的結果有更好的表現(xiàn)。
例如上面的例子中,傳統(tǒng)的BAP會將cautious與decline關聯(lián)起來,而實際上它們并沒有聯(lián)系;而附加有全局調節(jié)器的BAP則顯示出較好的結果。
3、模仿問答
金榕博士在此簡要介紹了Mimicked QA系統(tǒng)。這個系統(tǒng)并不是要簡單地構建一個問答系統(tǒng),更重要的是讓你能感覺到像是在和真人對話一樣。如圖上顯示的,它首先將用戶的語音提問通過語音識別轉化成文本,再通過文本問答系統(tǒng)生成答案,隨后生成語音答案以及相應的面部表情。用戶最終得到的是一個模仿真人帶有面部表情的答案。
在這個部分,金榕通過兩個例子——3D容器打包(3D Bin Packing)和自動設計banner——來說明阿里如何將深度學習的組合優(yōu)化應用到業(yè)務當中。
1、3D容器打包
在物流業(yè)務中有一個常見的NP問題(也是組合優(yōu)化問題)就是3D容器打包:如何才能更有效地打包物品呢?這個問題的實質就是找到一個優(yōu)化的打包方式(啟發(fā)heuristic)。但是打包的方式太多了,所以困難就在于如何才能知道何時該用何種打包方式?金榕介紹了他們團隊如何通過指針網(wǎng)絡和強化學習來給出優(yōu)化方案。
在打包過程中有三項關鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問題就是物品順序、位置、方向等的一個最優(yōu)序列。
模型中的指針網(wǎng)絡,是由兩個回歸神經(jīng)網(wǎng)絡的RNN模塊(編碼器和解碼器)構成,該網(wǎng)絡的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優(yōu)的)。當給定一個打包序列后,打包這些物品所需的最小容器就很容易可以計算出來。隨后通過強化學習便可以快速找到優(yōu)化的打包方式。
阿里團隊將通過模擬數(shù)據(jù)對該模型訓練后,將結果應用到天貓和菜鳥的物流打包中,結果證明強化學習后的打包方式能夠節(jié)省5%的打包箱。5%的優(yōu)化對普通人來說可能并不顯著,但考慮到物流公司每天都要處理成千上萬的包裹,這樣的優(yōu)化結果將能夠節(jié)省很多成本。
2、自動設計Banner
在購物網(wǎng)站上,一個好的banner會給用戶帶來更好的體驗。阿里巴巴平臺上有大量的商品展示,尤其是在雙十一光棍節(jié)時,對banner有大量的需求,靠手動設計顯然是不現(xiàn)實的。于是他們將深度學習應用到了banner的設計中。
具體來說,banner就是框架、背景、對象及其他材料的一個組合序列。將這些材料的組合輸入到一個卷積特征網(wǎng)絡中,再加上用戶日志,就構成了一個價值網(wǎng)絡,最終會給出一個組合(banner)的質量(quality)。通過這種方式為網(wǎng)上廣告進行設計顯然將會更節(jié)省人力、更快速地響應需求,也將會得到更好的結果。
現(xiàn)在的深度學習模型變得越來越復雜,甚至有的模型已經(jīng)超過了1000層,參數(shù)空間達到了10億級。這使得深度網(wǎng)絡神經(jīng)學習在優(yōu)先的存儲器和計算資源下難以運行。金榕在此提到了阿里的兩種解決方案:模型壓縮和淺網(wǎng)模型的構建。
1、模型壓縮
在演講中,金榕提出了一個利用乘法器交替方向法(ADMM)的low-bits量化神經(jīng)網(wǎng)絡的框架來壓縮模型。
當模型比較龐大時,我們有時可以通過尋求次優(yōu)解來降低計算量。常用的近似方法是,將連續(xù)的函數(shù)進行低比特量化(low-bit quantization),將w通過符號函數(shù)f(w)或硬雙曲切函數(shù)g(w)來替換。但這種方法近似的目標函數(shù)在最優(yōu)解附近會表現(xiàn)的很不穩(wěn)定。
為了解決這個問題,他們引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優(yōu)化問題的計算框架,它能夠將連續(xù)解和離散解結合起來,非常適用于求解分布式凸優(yōu)化問題。此外為了更有效地運行ADMM,他們還開發(fā)了額外梯度下架方法(extra gradient descent method)來解決優(yōu)化問題,這種方法能夠加速收斂。
通過用imageNet數(shù)據(jù)集的測試,結果顯示他們的方法要優(yōu)于別的方法,且三比特(-1、0、1)方法相比full-precision在精度上幾乎沒有損失。
2、深網(wǎng) v.s. 淺網(wǎng)
就前面說的,當想要尋求一個更優(yōu)的解時,人們往往會求助于更深的神經(jīng)網(wǎng)絡。這種網(wǎng)絡的預測函數(shù)往往是預定的且參數(shù)是相互獨立的。盡管這種方式在性能上有優(yōu)良的表現(xiàn),但模型和運算量都非常大,在訓練上是非常困難的,使用起來也非常昂貴。于是他們就想,能否通過構建復雜的激活函數(shù)來在預測函數(shù)中引入高度非線性,以此來取代神經(jīng)網(wǎng)絡的深度優(yōu)勢。換句話說,就是他們想用一個非常復雜的激活函數(shù)來開發(fā)一個相對較淺的網(wǎng)絡。
這個想法是受到了Cybenko等人的universal approximation theorem的啟發(fā)。根據(jù)這個理論,存在一個激活函數(shù)σ,嚴格遞增且是反曲的,它有以下的性質:對于任意函數(shù)f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數(shù)d(輸入?yún)?shù)的維度)、c、θ 、γ、向量w,滿足圖中的不等式。
換句話說,這個理論暗示了存在一個復雜的雙曲型激活函數(shù),使得任何連續(xù)函數(shù)都可以通過兩個隱藏層的神經(jīng)網(wǎng)絡得到很好的近似。搜索非線性激活函數(shù)的優(yōu)點是激活函數(shù)是單變量函數(shù),即使在非參數(shù)化設置中也可以有效地完成其優(yōu)化。目前這項研究仍在進行中,還有不少的困難。
雷鋒網(wǎng)注:參考論文《Deep Learning at Alibaba》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。