0
本文作者: 老王 | 2016-11-28 19:15 |
編者按:近日,谷歌大腦負(fù)責(zé)人 Jeff Dean 在接受 Fortune 雜志采訪(fǎng)時(shí)講述了他對(duì)無(wú)監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)在人工智能領(lǐng)域應(yīng)用的看法,雷鋒網(wǎng)進(jìn)行編譯。
下一次你在使用谷歌搜索引擎或者使用地圖導(dǎo)航的時(shí)候,你需要記住他們背后有一個(gè)很大的大腦為你提供搜索結(jié)果,并確保你不會(huì)迷路。
當(dāng)然,它并不是一個(gè)真正的大腦,而是谷歌大腦研究團(tuán)隊(duì)。《財(cái)富》雜志的 Roger Parloff 寫(xiě)到:
在過(guò)去幾年中,研究小組已經(jīng)創(chuàng)造了超過(guò) 1000 個(gè)深度學(xué)習(xí)項(xiàng)目將其應(yīng)用在谷歌現(xiàn)有的產(chǎn)品當(dāng)中:如 YouTube,谷歌翻譯和谷歌相冊(cè)等。研究人員通過(guò)深度學(xué)習(xí)將大量數(shù)據(jù)輸入到神經(jīng)網(wǎng)路當(dāng)中,學(xué)習(xí)比人類(lèi)識(shí)別速度更快的模式。
無(wú)監(jiān)督學(xué)習(xí)的不成熟。人類(lèi)的學(xué)習(xí)方式可以看作是一種無(wú)監(jiān)督學(xué)習(xí),即你只需觀(guān)察你周?chē)氖澜绮⒗斫馐挛锏倪\(yùn)行方式來(lái)豐富你的認(rèn)知,無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)非常熱門(mén)的一個(gè)分支,但是它還未達(dá)到監(jiān)督學(xué)習(xí)能解決任務(wù)的那個(gè)程度。
沒(méi)錯(cuò),人的視覺(jué)主要通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式獲得訓(xùn)練。當(dāng)你還是一個(gè)孩子的時(shí)候,你在觀(guān)察世界時(shí),有時(shí)你會(huì)得到一個(gè)監(jiān)督的信號(hào):比如有人說(shuō)“這是一只長(zhǎng)頸鹿”或者“這是一輛車(chē)”的時(shí)候,這些少量的監(jiān)督數(shù)據(jù)就是你的心理模型對(duì)自然的回應(yīng),從而完成你對(duì)世界的認(rèn)知。
我們需要更多地結(jié)合監(jiān)督和無(wú)監(jiān)督學(xué)習(xí),就我們大多數(shù)機(jī)器學(xué)習(xí)的系統(tǒng)工作方式而言,我們還未真正到達(dá)那一步。
增強(qiáng)學(xué)習(xí)背后的邏輯是你未必需要明確你要采取的行動(dòng),你只要試探性地做一個(gè)你認(rèn)為不錯(cuò)的行動(dòng),然后觀(guān)察“世界”會(huì)有怎樣的反應(yīng)。如同下棋一樣,你可根據(jù)你對(duì)手的行動(dòng)來(lái)進(jìn)行反應(yīng)。最終在整個(gè)序列行為后得到獎(jiǎng)賞信號(hào)。
增強(qiáng)學(xué)習(xí)是在你得到獎(jiǎng)賞信號(hào)的同時(shí),能將“信任”或“過(guò)失”分配到你。它在今天的某些領(lǐng)域非常有效。
當(dāng)你所執(zhí)行的任務(wù)狀態(tài)非常寬泛時(shí),此時(shí)使用強(qiáng)化學(xué)習(xí)就會(huì)遇到一些挑戰(zhàn)。在現(xiàn)實(shí)世界中的某個(gè)固定時(shí)刻操作一個(gè)事項(xiàng)涉及到的執(zhí)行范圍可能非常廣泛。而在棋盤(pán)游戲當(dāng)中,你走的每一步棋都限定在一定的范圍內(nèi),而且游戲規(guī)也會(huì)對(duì)你進(jìn)行限制,這使得其獎(jiǎng)賞信號(hào)的邏輯非常簡(jiǎn)單:要么贏,要么輸。
如果我的任務(wù)是磨一杯咖啡或者其他,整個(gè)過(guò)程我也許需要采取一系列的動(dòng)作,而且沒(méi)有固定的評(píng)判標(biāo)準(zhǔn),那么這個(gè)獎(jiǎng)賞信號(hào)就不是那么清晰。
對(duì),我認(rèn)為增強(qiáng)學(xué)習(xí)核心地方就是它需要探索。這種探索在物理環(huán)境當(dāng)中使用有點(diǎn)困難。我們開(kāi)始嘗試把它應(yīng)用在計(jì)算機(jī)當(dāng)中,當(dāng)機(jī)器人采取一系列行動(dòng)時(shí),它會(huì)被限制在一個(gè)指定時(shí)間中只可以采取有限數(shù)量動(dòng)作的集合。然而在計(jì)算機(jī)模擬中,它更容易使用大量的計(jì)算機(jī)資源,并得到一百萬(wàn)個(gè)樣本。
我們主要通過(guò) DeepMind 和我們的數(shù)據(jù)中心操作人員之間的合作來(lái)將增強(qiáng)學(xué)習(xí)應(yīng)用在核心產(chǎn)品中。它們使用強(qiáng)化學(xué)習(xí)來(lái)設(shè)置數(shù)據(jù)中心內(nèi)的空調(diào)旋鈕,并實(shí)現(xiàn)相同的、安全的冷卻操作和操作條件,大幅降低能耗。他們能夠發(fā)現(xiàn)哪些旋鈕的設(shè)置可以起到一定的作用,以及當(dāng)你以不同的方式轉(zhuǎn)動(dòng)旋鈕時(shí),它們會(huì)如何反應(yīng)。
通過(guò)增強(qiáng)學(xué)習(xí),可以發(fā)現(xiàn)這 18 個(gè)旋鈕的設(shè)置,或者更多旋鈕并未被操作人員考慮進(jìn)去。了解這個(gè)系統(tǒng)的人會(huì)這樣說(shuō):這真是一個(gè)奇怪的系統(tǒng)。但是事實(shí)證明,它們運(yùn)行得確實(shí)不錯(cuò)。
數(shù)據(jù)中心運(yùn)行良好因?yàn)槟阋淮涡枰獔?zhí)行的不同操作并不多。正像 18 個(gè)旋鈕,你在那里可以上下旋轉(zhuǎn)它們。這樣結(jié)果是可以計(jì)算出來(lái)的。假設(shè)你在適當(dāng)?shù)?、可接受的溫度范圍?nèi)工作,你就會(huì)得到一個(gè)讓能耗降低的獎(jiǎng)賞操作。從這個(gè)角度看,這差不多是一個(gè)理想的增強(qiáng)學(xué)習(xí)問(wèn)題。
一個(gè)更具挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)案例是試圖用它來(lái)決定我該顯示什么樣的搜索結(jié)果。這有一個(gè)更廣泛的搜索結(jié)果集,我可以展示出不同查詢(xún)的反應(yīng),并且獎(jiǎng)賞信號(hào)本身就是一種小范圍的噪音。就像用戶(hù)看一個(gè)搜索結(jié)果,喜歡和不喜歡表現(xiàn)地不是那么明顯。
這的確是一個(gè)很難解決的問(wèn)題。由于強(qiáng)化學(xué)習(xí)可能還不夠成熟,以至于在一些極度無(wú)約束的環(huán)境中,獎(jiǎng)賞信號(hào)還不是那么明顯。
這里面其中一項(xiàng)就是,很多機(jī)器學(xué)習(xí)問(wèn)題的解決方案和我們對(duì)這些解決方案的研究可以在不同的領(lǐng)域中重復(fù)使用:我們與地圖團(tuán)隊(duì)合作了一些研究,他們想要讀取出現(xiàn)街頭所有店鋪和 Logo,從而更好地了解世界,比如確定這里是披薩店還是其他。
為了在圖像中找到文本,你可以訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,并給它一些樣本,比如人們?cè)谖谋局車(chē)?huà)一個(gè)圓圈或者方框。實(shí)際上,你可以用它來(lái)訓(xùn)練模型去檢測(cè)哪些圖像中包含文本。
這是一個(gè)普遍適用的功能,地圖團(tuán)隊(duì)中的不同部門(mén)可以重復(fù)使用以上模型來(lái)完成衛(wèi)星圖像分析任務(wù),比如在美國(guó)境內(nèi)或者世界范圍內(nèi)找到一個(gè)屋頂或者估計(jì)在屋頂上的太陽(yáng)能電池板的安裝位置。
隨后我們發(fā)現(xiàn),相同類(lèi)型的模型可協(xié)助我們解決醫(yī)療成像的初步工作?,F(xiàn)在你有了醫(yī)學(xué)圖像,你可以試圖找到那些與臨床相關(guān)圖像的有趣部分。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。