0
本文作者: skura | 2019-01-05 10:42 |
雷鋒網(wǎng)AI 科技評(píng)論按: AutoML 是今年的機(jī)器學(xué)習(xí)的熱點(diǎn),該技術(shù)潛力很大,在工程實(shí)踐能夠產(chǎn)生巨大的價(jià)值?,F(xiàn)階段,業(yè)界主要在探討 AutoML 的難點(diǎn)與方向階段,目前還沒(méi)有一家推出系統(tǒng)性的方案。在工程實(shí)踐上,AutoML 還沒(méi)有成為機(jī)器學(xué)習(xí)流程自動(dòng)化、智能化的主要推動(dòng)力。在實(shí)際應(yīng)用中,針對(duì)大數(shù)據(jù)大模型的 AutoML 優(yōu)化在 research 與 engineering 兩方面都很缺乏。在本次公開(kāi)課中,嘉賓分享了關(guān)于 AutoML 的算法和工程落地等實(shí)際問(wèn)題。
分享嘉賓:
徐昊,云腦科技核心算法工程師,機(jī)器學(xué)習(xí)與高性能計(jì)算專家。在機(jī)器學(xué)習(xí),自然語(yǔ)言處理,高性能分布式計(jì)算、圖計(jì)算、隨機(jī)優(yōu)化等領(lǐng)域有著十余年研發(fā)經(jīng)驗(yàn)。辛辛那提大學(xué)計(jì)算機(jī)工程博士,發(fā)表 IEEE/ACM 頂級(jí)論文 20 余篇,曾獲第八屆國(guó)際低能耗電子器件會(huì)議唯一最佳論文獎(jiǎng)。曾任 ANSYS 軟件首席工程師,主持了 10 億級(jí)節(jié)點(diǎn)的分布式概率圖計(jì)算系統(tǒng)的開(kāi)發(fā)。
公開(kāi)課回放地址:
http://www.mooc.ai/course/607/learn?lessonid=2939#lesson/2939
分享主題:AutoML 工程實(shí)踐與大規(guī)模行業(yè)應(yīng)用
分享提綱:
AutoML 業(yè)界動(dòng)態(tài)
AutoML 算法前沿進(jìn)展
AutoML 大規(guī)模工程應(yīng)用落地問(wèn)題
云腦科技高效 AutoML 系統(tǒng)
云腦 AutoML 在推薦,、游戲,、金融等領(lǐng)域的應(yīng)用
雷鋒網(wǎng) AI 科技評(píng)論將其分享內(nèi)容整理如下:
AutoML 在 2018 年是一個(gè)比較火的話題,salesforce 和微軟都開(kāi)源了 AutoML 的庫(kù),有很多開(kāi)源軟件包,如 AUTO KERAS,Auto-Sklearn 和 AutoWeka。
在算法上,今年在科研上比較受歡迎的是 NAS 算法,主要涉及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方面的搜索。在超參的搜索方面,研究比較多的是 Model Based Sequential Optimization,基本思路是在超參空間里面先采樣后建模,選擇下一個(gè)提升概率比較高的超參點(diǎn),比較流行的模型是貝葉斯和 TPE 模型等。Google 的 paper《Hyperband》上一種簡(jiǎn)單的 Bandit 方法使用的較多,基本思路是先在超參空間撒點(diǎn)采樣,然后對(duì)每個(gè)點(diǎn)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果更好的點(diǎn)可以獲得更多的資源。還有 Population based Algorithm 算法,這些都是組合優(yōu)化問(wèn)題比較經(jīng)典的解法。
在工程應(yīng)用的落地方面,AutoML 還處于實(shí)驗(yàn)階段,模型的優(yōu)化和調(diào)試效率有一定的問(wèn)題,但是工程潛力巨大。它的缺點(diǎn)是:計(jì)算量巨大,不能滿足項(xiàng)目快速迭代的需求;目前僅限于調(diào)參問(wèn)題;在搜索和優(yōu)化的過(guò)程中像一個(gè)黑盒子,人機(jī)交互較少。因此,AutoML 在大項(xiàng)目中應(yīng)用落地還存在一定的問(wèn)題。
在工程實(shí)踐中落地要考慮哪些因素呢?首先是精確度、工程迭代速度、Serving 壓力,然后如果是深度學(xué)習(xí),還要考慮深度學(xué)習(xí)優(yōu)化加速,最后,線上模型的動(dòng)態(tài)效果也需要考慮,因?yàn)榫€上模型的表現(xiàn)和線下的可能不一樣。那么,對(duì)應(yīng)的優(yōu)化環(huán)節(jié)是下圖左邊的樣本效率、特征效率、模型選擇、優(yōu)化效率和線上策略效率。
云腦在這些優(yōu)化環(huán)節(jié)是如何做的?
樣本效率
樣本效率是機(jī)器學(xué)習(xí)最核心的問(wèn)題之一,機(jī)器學(xué)習(xí)本質(zhì)上是一個(gè)采樣加擬合的過(guò)程,但是這個(gè)過(guò)程在很多系統(tǒng)中并不是一次性完成的。很多情況下,樣本的處理都很簡(jiǎn)單,大量樣本沒(méi)有用或者效率較低。樣本的選擇對(duì)精度的影響較大,其數(shù)量對(duì)耗時(shí)的影響是線性的。
我們把信息量大的樣本留下來(lái),信息量小的去掉。如何衡量樣本信息量?可以從無(wú)監(jiān)督角度和業(yè)務(wù)角度考察樣本的信息量。
下面來(lái)看一個(gè)例子。下圖是游戲點(diǎn)擊率的線上數(shù)據(jù)。這是一個(gè)重度玩家在 11 天內(nèi)樓蘭游戲時(shí)對(duì)不同游戲的點(diǎn)擊和曝光數(shù)。如果我們需要分析用戶的喜好,只需要輸入幾百個(gè)甚至幾十個(gè)樣本點(diǎn),而不需要輸入全部 3000 個(gè)樣本點(diǎn),這就是樣本的靜態(tài)效率可以提升的空間。
樣本難度也是影響樣本效率的重要因素,提高模型精度的關(guān)鍵在于獲得更多的復(fù)雜樣本。其次,需要去掉噪聲樣本。那么如何分析樣本的難度?一般使用模型預(yù)測(cè)值和真實(shí)標(biāo)簽 cross entropy。保持原有數(shù)據(jù)的分布對(duì)樣本訓(xùn)練過(guò)程來(lái)說(shuō)非常重要。
特征效率
特征(尤其是稀疏特征)對(duì)訓(xùn)練數(shù)據(jù)的效率影響很大。在項(xiàng)目工期緊張的時(shí)候,把所有的特征扔進(jìn)模型學(xué)習(xí)是不實(shí)際的,因此我們進(jìn)行定量分析。維度大的特征對(duì)訓(xùn)練的影響非常大。稀疏特征也需要重點(diǎn)分析。對(duì)過(guò)于稀疏的特征值截?cái)嗵幚硪部梢蕴岣咛卣餍?。我們現(xiàn)在比較重視變長(zhǎng)特征的處理。變長(zhǎng)特征通常是在嵌入以后取平均值或求和,變長(zhǎng)特征長(zhǎng)的樣本對(duì) batch 的影響較大。
AutoML 自動(dòng)優(yōu)化效率
AutoML 是在 5 維度超大空間聯(lián)合分布里面尋找最優(yōu)點(diǎn):數(shù)據(jù)維度、特征維度、模型維度、優(yōu)化維度和線上策略維度。傳統(tǒng)方法里面,人負(fù)責(zé)數(shù)據(jù)采樣、特征工程和調(diào)參,只有深度學(xué)習(xí)模型是自動(dòng)學(xué)習(xí)的。而前沿的算法:Model based sequential optimization 基本上是建模加采樣的方法,它假設(shè)整個(gè)超參空間是連續(xù)的;Bandit based 是一種純采樣的算法,其假設(shè)是優(yōu)化空間優(yōu)化過(guò)程中的精度的連續(xù)的,其缺點(diǎn)在于它是純采樣,沒(méi)有模型。而實(shí)際項(xiàng)目中由于各種原因,全局最優(yōu)解是個(gè)非常復(fù)雜的問(wèn)題。
在實(shí)際工程中,還需要考慮機(jī)器學(xué)習(xí)全流程優(yōu)化的問(wèn)題。它包括數(shù)據(jù)清洗、特征工程和模型調(diào)試中的工程迭代效率。我們還需要考慮線上 serving 效率、線上策略優(yōu)化和深度學(xué)習(xí)優(yōu)化加速問(wèn)題。
云腦的 AutoML 系統(tǒng)全貌如下圖所示。
云腦 AutoML 在多個(gè)領(lǐng)域都有應(yīng)用:
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。