0
本文作者: 老王 | 2016-11-28 19:15 |
編者按:近日,谷歌大腦負(fù)責(zé)人 Jeff Dean 在接受 Fortune 雜志采訪時講述了他對無監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)在人工智能領(lǐng)域應(yīng)用的看法,雷鋒網(wǎng)進(jìn)行編譯。
下一次你在使用谷歌搜索引擎或者使用地圖導(dǎo)航的時候,你需要記住他們背后有一個很大的大腦為你提供搜索結(jié)果,并確保你不會迷路。
當(dāng)然,它并不是一個真正的大腦,而是谷歌大腦研究團(tuán)隊?!敦敻弧冯s志的 Roger Parloff 寫到:
在過去幾年中,研究小組已經(jīng)創(chuàng)造了超過 1000 個深度學(xué)習(xí)項目將其應(yīng)用在谷歌現(xiàn)有的產(chǎn)品當(dāng)中:如 YouTube,谷歌翻譯和谷歌相冊等。研究人員通過深度學(xué)習(xí)將大量數(shù)據(jù)輸入到神經(jīng)網(wǎng)路當(dāng)中,學(xué)習(xí)比人類識別速度更快的模式。
無監(jiān)督學(xué)習(xí)的不成熟。人類的學(xué)習(xí)方式可以看作是一種無監(jiān)督學(xué)習(xí),即你只需觀察你周圍的世界并理解事物的運行方式來豐富你的認(rèn)知,無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)非常熱門的一個分支,但是它還未達(dá)到監(jiān)督學(xué)習(xí)能解決任務(wù)的那個程度。
沒錯,人的視覺主要通過無監(jiān)督學(xué)習(xí)的方式獲得訓(xùn)練。當(dāng)你還是一個孩子的時候,你在觀察世界時,有時你會得到一個監(jiān)督的信號:比如有人說“這是一只長頸鹿”或者“這是一輛車”的時候,這些少量的監(jiān)督數(shù)據(jù)就是你的心理模型對自然的回應(yīng),從而完成你對世界的認(rèn)知。
我們需要更多地結(jié)合監(jiān)督和無監(jiān)督學(xué)習(xí),就我們大多數(shù)機(jī)器學(xué)習(xí)的系統(tǒng)工作方式而言,我們還未真正到達(dá)那一步。
增強(qiáng)學(xué)習(xí)背后的邏輯是你未必需要明確你要采取的行動,你只要試探性地做一個你認(rèn)為不錯的行動,然后觀察“世界”會有怎樣的反應(yīng)。如同下棋一樣,你可根據(jù)你對手的行動來進(jìn)行反應(yīng)。最終在整個序列行為后得到獎賞信號。
增強(qiáng)學(xué)習(xí)是在你得到獎賞信號的同時,能將“信任”或“過失”分配到你。它在今天的某些領(lǐng)域非常有效。
當(dāng)你所執(zhí)行的任務(wù)狀態(tài)非常寬泛時,此時使用強(qiáng)化學(xué)習(xí)就會遇到一些挑戰(zhàn)。在現(xiàn)實世界中的某個固定時刻操作一個事項涉及到的執(zhí)行范圍可能非常廣泛。而在棋盤游戲當(dāng)中,你走的每一步棋都限定在一定的范圍內(nèi),而且游戲規(guī)也會對你進(jìn)行限制,這使得其獎賞信號的邏輯非常簡單:要么贏,要么輸。
如果我的任務(wù)是磨一杯咖啡或者其他,整個過程我也許需要采取一系列的動作,而且沒有固定的評判標(biāo)準(zhǔn),那么這個獎賞信號就不是那么清晰。
對,我認(rèn)為增強(qiáng)學(xué)習(xí)核心地方就是它需要探索。這種探索在物理環(huán)境當(dāng)中使用有點困難。我們開始嘗試把它應(yīng)用在計算機(jī)當(dāng)中,當(dāng)機(jī)器人采取一系列行動時,它會被限制在一個指定時間中只可以采取有限數(shù)量動作的集合。然而在計算機(jī)模擬中,它更容易使用大量的計算機(jī)資源,并得到一百萬個樣本。
我們主要通過 DeepMind 和我們的數(shù)據(jù)中心操作人員之間的合作來將增強(qiáng)學(xué)習(xí)應(yīng)用在核心產(chǎn)品中。它們使用強(qiáng)化學(xué)習(xí)來設(shè)置數(shù)據(jù)中心內(nèi)的空調(diào)旋鈕,并實現(xiàn)相同的、安全的冷卻操作和操作條件,大幅降低能耗。他們能夠發(fā)現(xiàn)哪些旋鈕的設(shè)置可以起到一定的作用,以及當(dāng)你以不同的方式轉(zhuǎn)動旋鈕時,它們會如何反應(yīng)。
通過增強(qiáng)學(xué)習(xí),可以發(fā)現(xiàn)這 18 個旋鈕的設(shè)置,或者更多旋鈕并未被操作人員考慮進(jìn)去。了解這個系統(tǒng)的人會這樣說:這真是一個奇怪的系統(tǒng)。但是事實證明,它們運行得確實不錯。
數(shù)據(jù)中心運行良好因為你一次需要執(zhí)行的不同操作并不多。正像 18 個旋鈕,你在那里可以上下旋轉(zhuǎn)它們。這樣結(jié)果是可以計算出來的。假設(shè)你在適當(dāng)?shù)摹⒖山邮艿臏囟确秶鷥?nèi)工作,你就會得到一個讓能耗降低的獎賞操作。從這個角度看,這差不多是一個理想的增強(qiáng)學(xué)習(xí)問題。
一個更具挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)案例是試圖用它來決定我該顯示什么樣的搜索結(jié)果。這有一個更廣泛的搜索結(jié)果集,我可以展示出不同查詢的反應(yīng),并且獎賞信號本身就是一種小范圍的噪音。就像用戶看一個搜索結(jié)果,喜歡和不喜歡表現(xiàn)地不是那么明顯。
這的確是一個很難解決的問題。由于強(qiáng)化學(xué)習(xí)可能還不夠成熟,以至于在一些極度無約束的環(huán)境中,獎賞信號還不是那么明顯。
這里面其中一項就是,很多機(jī)器學(xué)習(xí)問題的解決方案和我們對這些解決方案的研究可以在不同的領(lǐng)域中重復(fù)使用:我們與地圖團(tuán)隊合作了一些研究,他們想要讀取出現(xiàn)街頭所有店鋪和 Logo,從而更好地了解世界,比如確定這里是披薩店還是其他。
為了在圖像中找到文本,你可以訓(xùn)練一個機(jī)器學(xué)習(xí)模型,并給它一些樣本,比如人們在文本周圍畫一個圓圈或者方框。實際上,你可以用它來訓(xùn)練模型去檢測哪些圖像中包含文本。
這是一個普遍適用的功能,地圖團(tuán)隊中的不同部門可以重復(fù)使用以上模型來完成衛(wèi)星圖像分析任務(wù),比如在美國境內(nèi)或者世界范圍內(nèi)找到一個屋頂或者估計在屋頂上的太陽能電池板的安裝位置。
隨后我們發(fā)現(xiàn),相同類型的模型可協(xié)助我們解決醫(yī)療成像的初步工作。現(xiàn)在你有了醫(yī)學(xué)圖像,你可以試圖找到那些與臨床相關(guān)圖像的有趣部分。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。