0
雷鋒網(wǎng) AI 科技評(píng)論按:深度學(xué)習(xí)過(guò)去十年在各個(gè)領(lǐng)域都取得了巨大的成功,但當(dāng)把深度學(xué)習(xí)技術(shù)應(yīng)用到實(shí)際問(wèn)題中時(shí),常會(huì)遇到諸多挑戰(zhàn)。阿里巴巴作為在電商領(lǐng)域有諸多業(yè)務(wù)的企業(yè),對(duì)深度學(xué)習(xí)有很大的需求,不可避免地當(dāng)他們將深度學(xué)習(xí)應(yīng)用到業(yè)務(wù)中時(shí)會(huì)遇到許多學(xué)界人士不可能遇到的問(wèn)題。
前段時(shí)間剛過(guò)去的IJCAI 2017大會(huì)上,阿里巴巴集團(tuán)iDST院長(zhǎng)金榕做了一場(chǎng)關(guān)于《Deep Learning at Alibaba》的keynote報(bào)告。報(bào)告中,金榕介紹了深度學(xué)習(xí)在阿里巴巴的業(yè)務(wù)中的一些應(yīng)用以及正在進(jìn)行的一些研究。以下內(nèi)容為雷鋒網(wǎng)根據(jù)現(xiàn)場(chǎng)報(bào)告的錄音以及IJCAI 官網(wǎng)上的相關(guān)論文《Deep Learning at Alibaba》整理而成。
金榕的演講主要有四塊內(nèi)容。如PPT中所示:
1、計(jì)算機(jī)視覺(jué)方面。包括視覺(jué)搜索、圖像分類、交叉媒體檢索。金榕將從拍立淘以圖搜圖的業(yè)務(wù)開始,通過(guò)遷移學(xué)習(xí)來(lái)處理后兩個(gè)問(wèn)題。
2、語(yǔ)音識(shí)別和自然語(yǔ)言處理。包括聲學(xué)模型、依存語(yǔ)法和模仿問(wèn)答三個(gè)部分。
3、對(duì)組合優(yōu)化的討論。在這個(gè)討論中,金榕介紹了3D容器打包(3D Bin Packing)和自動(dòng)設(shè)計(jì)banner兩個(gè)問(wèn)題,前者在菜鳥運(yùn)送快遞時(shí)節(jié)省了大量的成本,后者則在雙十一時(shí)節(jié)省了大量的人力、物力。
4、模型簡(jiǎn)化問(wèn)題。包括模型的壓縮以及通過(guò)淺網(wǎng)(shallow network)的嘗試工作。
在開始介紹阿里巴巴業(yè)務(wù)中的深度學(xué)習(xí)之前,金榕博士介紹了阿里巴巴企業(yè)的生態(tài)環(huán)境。作為一個(gè)電子商務(wù)企業(yè),阿里巴巴的購(gòu)物平臺(tái)包括淘寶、天貓、聚劃算、飛豬、AliExpress、LAZADA(東南亞地區(qū)最大的在線購(gòu)物網(wǎng)站之一)等,在此基礎(chǔ)上還在許多涉足領(lǐng)域,例如螞蟻金服、阿里媽媽、微博、高德地圖、UC瀏覽器、優(yōu)酷和土豆、菜鳥等。
金榕還對(duì)阿里巴巴業(yè)務(wù)中應(yīng)用到的深度學(xué)習(xí)問(wèn)題作了一個(gè)梳理,大概包括:
1、信息檢索(搜索和推薦系統(tǒng));
2、語(yǔ)音技術(shù)(自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成,對(duì)話管理);
3、自然語(yǔ)言處理(拼寫檢查、依存語(yǔ)法、問(wèn)答和機(jī)器翻譯);
4、圖像/視頻內(nèi)容分析(臉部、文字的識(shí)別、匹配以及細(xì)粒分類;多形態(tài)分類;對(duì)象檢測(cè)、追蹤、識(shí)別;視頻事件檢測(cè)、分類);
5、深度學(xué)習(xí)和優(yōu)化(優(yōu)化、模型壓縮、預(yù)測(cè);道路規(guī)劃和圖標(biāo)設(shè)計(jì))
1、拍立淘
在阿里巴巴的淘寶中有一項(xiàng)業(yè)務(wù)為“拍立淘”。其基本的思想就是以圖搜圖,對(duì)著你感興趣的物品拍一張照片,系統(tǒng)將根據(jù)照片給你推薦相關(guān)的商品。 據(jù)金榕介紹,現(xiàn)在已經(jīng)有超過(guò)1億件商品的30億張圖片,每天有至少1200萬(wàn)活躍用戶。
這項(xiàng)業(yè)務(wù)的基礎(chǔ)就是通過(guò)深度學(xué)習(xí)對(duì)結(jié)果進(jìn)行排序,阿里研究人員通過(guò)用戶記錄的三元組數(shù)據(jù)(查詢圖片、點(diǎn)擊圖片和未點(diǎn)擊圖片)來(lái)訓(xùn)練模型的排序損失函數(shù),從而得到排序結(jié)果。
例如你上傳一張桌子的照片,模型將自動(dòng)檢測(cè)出主體,然后按照排序分?jǐn)?shù)從高到低排出相關(guān)商品的結(jié)果。
2、從拍立淘到Everything——遷移學(xué)習(xí)
拍立淘的這項(xiàng)業(yè)務(wù)其本質(zhì)就是圖像匹配,所以可以通過(guò)遷移學(xué)習(xí)將這個(gè)模型從電子商務(wù)應(yīng)用到其他領(lǐng)域。傳統(tǒng)的遷移學(xué)習(xí)方法如圖所示,拍立淘中圖片的矢量表示x通過(guò)線性變換遷移到別的領(lǐng)域的圖像表示x’上。其中W為線性遷移矩陣,這個(gè)矩陣可以通過(guò)有限的數(shù)據(jù)學(xué)習(xí)得到。
這種方法比較簡(jiǎn)單,但由于在實(shí)際應(yīng)用中源和目標(biāo)往往有比較大的差距,線性模型并不能很好的調(diào)和這種差距。金榕介紹,在阿里的遷移學(xué)習(xí)中,他們引入了一個(gè)隨機(jī)傅立葉函數(shù),使遷移變換由線性變?yōu)榉蔷€性。
這種非線性遷移學(xué)習(xí)的方法在實(shí)驗(yàn)中要比線性遷移學(xué)習(xí)方法的精度要高,魯棒性也更好。
1、聲學(xué)模型
自動(dòng)語(yǔ)音識(shí)別包括聲學(xué)模型、語(yǔ)言模型和解碼器。這里只討論其中的聲學(xué)模型(Acoustic Model)?;诼晫W(xué)模型的神經(jīng)網(wǎng)絡(luò)在過(guò)去5年已經(jīng)有了長(zhǎng)足的發(fā)展,單詞識(shí)別的錯(cuò)誤率已經(jīng)下降到了5.9%。
現(xiàn)在常用的對(duì)聲學(xué)模型的處理是雙向長(zhǎng)短時(shí)記憶模型(Bi-directional Long Short-Term model)。這種模型相比于長(zhǎng)短時(shí)記憶模型有更高的精度,但是潛在的因素也非常大。阿里的研究人員開發(fā)出潛在控制雙向長(zhǎng)短時(shí)記憶模型(Latency-Controlled BLSTM),這種模型添加了刪減的反向傳播以及未來(lái)的信息,這種模型能夠加速BLSTM的計(jì)算。
2、依存語(yǔ)法(Dependency Parsing)
依存語(yǔ)法這個(gè)問(wèn)題,對(duì)于非專業(yè)人士還是很難理解的。簡(jiǎn)單來(lái)說(shuō)就是通過(guò)依存語(yǔ)法構(gòu)建了主詞與描述主詞的詞之間的關(guān)系。由于依存語(yǔ)法沒(méi)有詞組這個(gè)層次,每一個(gè)結(jié)點(diǎn)都與句子中的單詞相對(duì)應(yīng),它能直接處理句子中詞與詞之間的關(guān)系。這種特性使得它非常便于語(yǔ)句分析和信息提取。
最近幾年人們?cè)趯⑸窠?jīng)網(wǎng)絡(luò)應(yīng)用到語(yǔ)法解析方面取得了很大的成功。其中一個(gè)極好的例子就是biaffine attention parser,其基本的思想就是給范圍內(nèi)每一個(gè)可能的主詞與其他詞之間的聯(lián)系進(jìn)行打分。但是這只針對(duì)你所感興趣的詞。在淘寶中,阿里的研究人員采用了附加有全局調(diào)節(jié)器的BAP,這種方式得到的結(jié)果有更好的表現(xiàn)。
例如上面的例子中,傳統(tǒng)的BAP會(huì)將cautious與decline關(guān)聯(lián)起來(lái),而實(shí)際上它們并沒(méi)有聯(lián)系;而附加有全局調(diào)節(jié)器的BAP則顯示出較好的結(jié)果。
3、模仿問(wèn)答
金榕博士在此簡(jiǎn)要介紹了Mimicked QA系統(tǒng)。這個(gè)系統(tǒng)并不是要簡(jiǎn)單地構(gòu)建一個(gè)問(wèn)答系統(tǒng),更重要的是讓你能感覺(jué)到像是在和真人對(duì)話一樣。如圖上顯示的,它首先將用戶的語(yǔ)音提問(wèn)通過(guò)語(yǔ)音識(shí)別轉(zhuǎn)化成文本,再通過(guò)文本問(wèn)答系統(tǒng)生成答案,隨后生成語(yǔ)音答案以及相應(yīng)的面部表情。用戶最終得到的是一個(gè)模仿真人帶有面部表情的答案。
在這個(gè)部分,金榕通過(guò)兩個(gè)例子——3D容器打包(3D Bin Packing)和自動(dòng)設(shè)計(jì)banner——來(lái)說(shuō)明阿里如何將深度學(xué)習(xí)的組合優(yōu)化應(yīng)用到業(yè)務(wù)當(dāng)中。
1、3D容器打包
在物流業(yè)務(wù)中有一個(gè)常見(jiàn)的NP問(wèn)題(也是組合優(yōu)化問(wèn)題)就是3D容器打包:如何才能更有效地打包物品呢?這個(gè)問(wèn)題的實(shí)質(zhì)就是找到一個(gè)優(yōu)化的打包方式(啟發(fā)heuristic)。但是打包的方式太多了,所以困難就在于如何才能知道何時(shí)該用何種打包方式?金榕介紹了他們團(tuán)隊(duì)如何通過(guò)指針網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)來(lái)給出優(yōu)化方案。
在打包過(guò)程中有三項(xiàng)關(guān)鍵的決定:1)物品打包的順序;2)物品放置的位置;3)物品放置的方向。所以所要求解的問(wèn)題就是物品順序、位置、方向等的一個(gè)最優(yōu)序列。
模型中的指針網(wǎng)絡(luò),是由兩個(gè)回歸神經(jīng)網(wǎng)絡(luò)的RNN模塊(編碼器和解碼器)構(gòu)成,該網(wǎng)絡(luò)的輸入是待打包物品的尺寸序列,輸出的則是打包的序列(順序、位置、方向,不一定是最優(yōu)的)。當(dāng)給定一個(gè)打包序列后,打包這些物品所需的最小容器就很容易可以計(jì)算出來(lái)。隨后通過(guò)強(qiáng)化學(xué)習(xí)便可以快速找到優(yōu)化的打包方式。
阿里團(tuán)隊(duì)將通過(guò)模擬數(shù)據(jù)對(duì)該模型訓(xùn)練后,將結(jié)果應(yīng)用到天貓和菜鳥的物流打包中,結(jié)果證明強(qiáng)化學(xué)習(xí)后的打包方式能夠節(jié)省5%的打包箱。5%的優(yōu)化對(duì)普通人來(lái)說(shuō)可能并不顯著,但考慮到物流公司每天都要處理成千上萬(wàn)的包裹,這樣的優(yōu)化結(jié)果將能夠節(jié)省很多成本。
2、自動(dòng)設(shè)計(jì)Banner
在購(gòu)物網(wǎng)站上,一個(gè)好的banner會(huì)給用戶帶來(lái)更好的體驗(yàn)。阿里巴巴平臺(tái)上有大量的商品展示,尤其是在雙十一光棍節(jié)時(shí),對(duì)banner有大量的需求,靠手動(dòng)設(shè)計(jì)顯然是不現(xiàn)實(shí)的。于是他們將深度學(xué)習(xí)應(yīng)用到了banner的設(shè)計(jì)中。
具體來(lái)說(shuō),banner就是框架、背景、對(duì)象及其他材料的一個(gè)組合序列。將這些材料的組合輸入到一個(gè)卷積特征網(wǎng)絡(luò)中,再加上用戶日志,就構(gòu)成了一個(gè)價(jià)值網(wǎng)絡(luò),最終會(huì)給出一個(gè)組合(banner)的質(zhì)量(quality)。通過(guò)這種方式為網(wǎng)上廣告進(jìn)行設(shè)計(jì)顯然將會(huì)更節(jié)省人力、更快速地響應(yīng)需求,也將會(huì)得到更好的結(jié)果。
現(xiàn)在的深度學(xué)習(xí)模型變得越來(lái)越復(fù)雜,甚至有的模型已經(jīng)超過(guò)了1000層,參數(shù)空間達(dá)到了10億級(jí)。這使得深度網(wǎng)絡(luò)神經(jīng)學(xué)習(xí)在優(yōu)先的存儲(chǔ)器和計(jì)算資源下難以運(yùn)行。金榕在此提到了阿里的兩種解決方案:模型壓縮和淺網(wǎng)模型的構(gòu)建。
1、模型壓縮
在演講中,金榕提出了一個(gè)利用乘法器交替方向法(ADMM)的low-bits量化神經(jīng)網(wǎng)絡(luò)的框架來(lái)壓縮模型。
當(dāng)模型比較龐大時(shí),我們有時(shí)可以通過(guò)尋求次優(yōu)解來(lái)降低計(jì)算量。常用的近似方法是,將連續(xù)的函數(shù)進(jìn)行低比特量化(low-bit quantization),將w通過(guò)符號(hào)函數(shù)f(w)或硬雙曲切函數(shù)g(w)來(lái)替換。但這種方法近似的目標(biāo)函數(shù)在最優(yōu)解附近會(huì)表現(xiàn)的很不穩(wěn)定。
為了解決這個(gè)問(wèn)題,他們引入了交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。ADMM是一種求解優(yōu)化問(wèn)題的計(jì)算框架,它能夠?qū)⑦B續(xù)解和離散解結(jié)合起來(lái),非常適用于求解分布式凸優(yōu)化問(wèn)題。此外為了更有效地運(yùn)行ADMM,他們還開發(fā)了額外梯度下架方法(extra gradient descent method)來(lái)解決優(yōu)化問(wèn)題,這種方法能夠加速收斂。
通過(guò)用imageNet數(shù)據(jù)集的測(cè)試,結(jié)果顯示他們的方法要優(yōu)于別的方法,且三比特(-1、0、1)方法相比f(wàn)ull-precision在精度上幾乎沒(méi)有損失。
2、深網(wǎng) v.s. 淺網(wǎng)
就前面說(shuō)的,當(dāng)想要尋求一個(gè)更優(yōu)的解時(shí),人們往往會(huì)求助于更深的神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的預(yù)測(cè)函數(shù)往往是預(yù)定的且參數(shù)是相互獨(dú)立的。盡管這種方式在性能上有優(yōu)良的表現(xiàn),但模型和運(yùn)算量都非常大,在訓(xùn)練上是非常困難的,使用起來(lái)也非常昂貴。于是他們就想,能否通過(guò)構(gòu)建復(fù)雜的激活函數(shù)來(lái)在預(yù)測(cè)函數(shù)中引入高度非線性,以此來(lái)取代神經(jīng)網(wǎng)絡(luò)的深度優(yōu)勢(shì)。換句話說(shuō),就是他們想用一個(gè)非常復(fù)雜的激活函數(shù)來(lái)開發(fā)一個(gè)相對(duì)較淺的網(wǎng)絡(luò)。
這個(gè)想法是受到了Cybenko等人的universal approximation theorem的啟發(fā)。根據(jù)這個(gè)理論,存在一個(gè)激活函數(shù)σ,嚴(yán)格遞增且是反曲的,它有以下的性質(zhì):對(duì)于任意函數(shù)f ∈ C [0, 1]n以及任意精度的限制 ε > 0,都存在常數(shù)d(輸入?yún)?shù)的維度)、c、θ 、γ、向量w,滿足圖中的不等式。
換句話說(shuō),這個(gè)理論暗示了存在一個(gè)復(fù)雜的雙曲型激活函數(shù),使得任何連續(xù)函數(shù)都可以通過(guò)兩個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)得到很好的近似。搜索非線性激活函數(shù)的優(yōu)點(diǎn)是激活函數(shù)是單變量函數(shù),即使在非參數(shù)化設(shè)置中也可以有效地完成其優(yōu)化。目前這項(xiàng)研究仍在進(jìn)行中,還有不少的困難。
雷鋒網(wǎng)注:參考論文《Deep Learning at Alibaba》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。