0
本文作者: AI研習(xí)社-譯站 | 2020-09-18 15:59 |
字幕組雙語原文:數(shù)學(xué)之美:貝葉斯優(yōu)化
英語原文:The Beauty of Bayesian Optimization, Explained in Simple Terms
問題定義:給定函數(shù)f(x),該函數(shù)計算成本高、甚至可能不是解析表達(dá)式,同時假定函數(shù)導(dǎo)數(shù)未知。
你的任務(wù):找到函數(shù)得全局最小值。
這無疑是一項艱巨的任務(wù),比機(jī)器學(xué)習(xí)中的其他優(yōu)化問題還要困難。一般得優(yōu)化問題可以通過以下三種方式求解:
梯度下降方法依賴函數(shù)求導(dǎo),通過數(shù)學(xué)方法快速估計表達(dá)式。
函數(shù)的評估成本很低得優(yōu)化場景下,可以在很短時間內(nèi)獲得輸入x的許多結(jié)果,然后使用簡單的網(wǎng)格搜索選擇較好結(jié)果。
使用粒子群或模擬退火等非梯度優(yōu)化方法。
然而,這些方法并不適用上述定義的問題,對定義問句的優(yōu)化受到以下幾個方面的限制:
計算成本高。理想情況下,我們可以多次執(zhí)行函數(shù)以確定其最優(yōu)解,但我們的優(yōu)化問題中計算過多采樣是不現(xiàn)實的。
導(dǎo)數(shù)未知。 正是因為導(dǎo)數(shù)可知,梯度下降及類似方法廣泛應(yīng)用于深度學(xué)習(xí)或某些機(jī)器學(xué)習(xí)算法。導(dǎo)數(shù)能夠直到優(yōu)化方向——不幸的是,在我們問題定義中沒有導(dǎo)數(shù)。
要找到全局最小值,即使對于梯度下降這樣的方法也不是容易的事情。因此,我們的模型需要某種機(jī)制避免陷入局部最小值。
解決方案:貝葉斯優(yōu)化。該方法提供了一個優(yōu)雅的框架可用于來解決上述定義的問題,并且能夠在盡可能少的步驟中找到全局最小值。
讓我們構(gòu)造一個函數(shù)c(x)或者一個接收輸入x的模型,如下圖所示為c(x)的形狀。當(dāng)然,優(yōu)化器并不知道該函數(shù),稱之為“目標(biāo)函數(shù)”。
貝葉斯優(yōu)化通過代理優(yōu)化的方式來完成任務(wù)。一般來說,surrogate mother是指為另一個人生育孩子的代孕婦女——在本文的情況中,則是指目標(biāo)函數(shù)的近似。
代理函數(shù)通過采樣點模擬構(gòu)造(見下圖)。
根據(jù)代理函數(shù),我們大致可以確定哪些點是可能的最小值。然后再這些點附近做更多的采樣,并隨之更新代理函數(shù)。
每一次迭代,我們都會繼續(xù)觀察當(dāng)前的代用函數(shù),通過采樣了解更多感興趣的區(qū)域,并更新函數(shù)。需要注意的是,代用函數(shù)在數(shù)學(xué)上的表達(dá)方式將大大降低評估成本(例如y=x是一個成本較高的函數(shù)的近似值,y=arcsin((1-cos2x)/sin x)在一定范圍內(nèi))。
經(jīng)過一定的迭代次數(shù)后,我們注定要到達(dá)一個全局最小值,除非函數(shù)的形狀非常詭異(就是它的上下波動很大很瘋狂),這時應(yīng)該問一個比優(yōu)化更好的問題:你的數(shù)據(jù)有什么問題?
花點時間驚嘆一下這種方法的妙處。它不對函數(shù)做任何假設(shè)(除了它首先是可優(yōu)化的),不需要導(dǎo)數(shù)的信息,并且能夠通過巧妙地使用不斷更新的逼近函數(shù)來進(jìn)行常識性的推理。我們原來的目標(biāo)函數(shù)的昂貴評估根本不是問題。
這是一種基于代用的優(yōu)化方法。那么,到底是什么讓它成為貝葉斯的呢?
貝葉斯統(tǒng)計和建模的本質(zhì)是根據(jù)新的信息更新前(前)信念,以產(chǎn)生一個更新的后('后')信念。這正是本案例中代償優(yōu)化的作用,所以可以通過貝葉斯系統(tǒng)、公式和思想來最好地表示。
讓我們仔細(xì)看看代用函數(shù),通常用高斯過程來表示,它可以被認(rèn)為是擲骰子,返回與給定數(shù)據(jù)點(如sin、log)擬合的函數(shù),而不是1到6的數(shù)字。這個過程會返回幾個函數(shù),這些函數(shù)都附有概率。
左圖:四個數(shù)據(jù)點的幾個高斯過程生成的函數(shù)。右圖:函數(shù)匯總。來源:Oscar Knagg,圖片免費分享。
Oscar Knagg的這篇文章對GP的工作原理有很好的直觀認(rèn)識。
為什么用高斯過程,而不是其他的曲線擬合方法來模擬代用函數(shù),有一個很好的理由:它是貝葉斯性質(zhì)的。一個GP是一個概率分布,就像一個事件最終結(jié)果的分布(例如拋硬幣的1/2機(jī)會),但在所有可能的函數(shù)上。
例如,我們可以將當(dāng)前的數(shù)據(jù)點集定義為40%可由函數(shù)a(x)表示,10%可由函數(shù)b(x)表示,等等。通過將代用函數(shù)表示為一個概率分布,它可以通過固有的概率貝葉斯過程與新信息進(jìn)行更新。也許當(dāng)引入新的信息時,數(shù)據(jù)只有20%可以用函數(shù)a(x)表示。這些變化是由貝葉斯公式來支配的。
這將是很難甚至不可能做到的,比如說,對新數(shù)據(jù)點進(jìn)行多項式回歸擬合。
代用函數(shù)--表示為概率分布,即先驗--被更新為 "獲取函數(shù)"。這個函數(shù)負(fù)責(zé)在勘探和開發(fā)的權(quán)衡中提出新的測試點。
剝削力求在代用模型預(yù)測的目標(biāo)好的地方采樣。這就是利用已知的有希望的點。但是,如果我們已經(jīng)對某一區(qū)域進(jìn)行了足夠的探索,那么不斷地利用已知的信息就不會有什么收獲。
探索力求在不確定性較高的地點進(jìn)行采樣。這就確保了空間的任何主要區(qū)域都不會未被探索--全局最小值可能恰好就在那里。
一個鼓勵過多的開發(fā)和過少探索的獲取函數(shù)將導(dǎo)致模型只停留在它首先發(fā)現(xiàn)的最小值(通常是局部的--"只去有光的地方")。一個鼓勵相反的獲取函數(shù)將不會首先停留在一個最小值,本地或全球。在微妙的平衡中產(chǎn)生良好的結(jié)果。
acquisition 函數(shù),我們將其表示為a(x),必須同時考慮開發(fā)和探索。常見的獲取函數(shù)包括預(yù)期改進(jìn)和最大改進(jìn)概率,所有這些函數(shù)都是在給定先驗信息(高斯過程)的情況下,衡量特定投入在未來可能得到回報的概率。
讓我們把這些東西整合起來。貝葉斯優(yōu)化可以這樣進(jìn)行。
1.初始化一個高斯過程 "代用函數(shù) "的先驗分布。
2.選擇幾個數(shù)據(jù)點x,使在當(dāng)前先驗分布上運行的獲取函數(shù)a(x)最大化。
3.評估目標(biāo)成本函數(shù)c(x)中的數(shù)據(jù)點x,得到結(jié)果,y。
4.用新的數(shù)據(jù)更新高斯過程先驗分布,以產(chǎn)生一個后驗(它將成為下一步的先驗)。
5.重復(fù)步驟2-5進(jìn)行多次迭代。
6.解釋當(dāng)前的高斯過程分布(這是非常便宜的),以找到全局最小值。
貝葉斯優(yōu)化就是把概率論的思想放在代入優(yōu)化的思想后面。這兩種思想的結(jié)合創(chuàng)造了一個強(qiáng)大的系統(tǒng),從醫(yī)藥產(chǎn)品的開發(fā)到自主汽車,都有很多應(yīng)用。
但在機(jī)器學(xué)習(xí)中,最常見的是貝葉斯優(yōu)化用于超參數(shù)優(yōu)化。例如,如果我們要訓(xùn)練一個梯度提升分類器,從學(xué)習(xí)率到最大深度再到最小雜質(zhì)分割值,有幾十個參數(shù)。在這種情況下,x代表模型的超參數(shù),c(x)代表模型的性能,給定超參數(shù)x。
使用貝葉斯優(yōu)化的主要動機(jī)是在評估輸出非常昂貴的情況下。首先,需要用參數(shù)建立整個樹的合集,其次,它們需要通過多次預(yù)測來運行,這對于合集來說是非常昂貴的。
可以說,神經(jīng)網(wǎng)絡(luò)評估給定參數(shù)集的損失更快:簡單的重復(fù)矩陣乘法,速度非???,尤其是在專用硬件上。這也是使用梯度下降的原因之一,它使反復(fù)查詢了解其走向。
綜上所述:
代用優(yōu)化利用代用函數(shù)或近似函數(shù)通過抽樣來估計目標(biāo)函數(shù)。
貝葉斯優(yōu)化將代用優(yōu)化置于概率框架中,將代用函數(shù)表示為概率分布,可以根據(jù)新的信息進(jìn)行更新。
獲取函數(shù)用于評估在當(dāng)前已知的先驗條件下,探索空間中某一點會產(chǎn)生 "好 "收益的概率,平衡探索與開發(fā)
主要在目標(biāo)函數(shù)評估成本很高的時候使用貝葉斯優(yōu)化,常用于超參數(shù)調(diào)整。(這方面有很多庫,比如HyperOpt)。
感謝您的閱讀!
雷鋒字幕組是一個由AI愛好者組成的翻譯團(tuán)隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。
團(tuán)隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運營,IT咨詢?nèi)耍谛熒?;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。