專訪 Jeff Dean丨谷歌戰(zhàn)神談增強(qiáng)學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

本文作者：老王

2016-11-28 19:15

導(dǎo)語：谷歌大腦負(fù)責(zé)人談人工智能領(lǐng)域的增強(qiáng)學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

編者按：近日，谷歌大腦負(fù)責(zé)人 Jeff Dean 在接受 Fortune 雜志采訪時講述了他對無監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)在人工智能領(lǐng)域應(yīng)用的看法，雷鋒網(wǎng)進(jìn)行編譯。

下一次你在使用谷歌搜索引擎或者使用地圖導(dǎo)航的時候，你需要記住他們背后有一個很大的大腦為你提供搜索結(jié)果，并確保你不會迷路。

當(dāng)然，它并不是一個真正的大腦，而是谷歌大腦研究團(tuán)隊(duì)?！敦敻弧冯s志的 Roger Parloff 寫到：

在過去幾年中，研究小組已經(jīng)創(chuàng)造了超過 1000 個深度學(xué)習(xí)項(xiàng)目將其應(yīng)用在谷歌現(xiàn)有的產(chǎn)品當(dāng)中：如 YouTube，谷歌翻譯和谷歌相冊等。研究人員通過深度學(xué)習(xí)將大量數(shù)據(jù)輸入到神經(jīng)網(wǎng)路當(dāng)中，學(xué)習(xí)比人類識別速度更快的模式。

研究人員推動人工智能面臨的挑戰(zhàn)是什么？

無監(jiān)督學(xué)習(xí)的不成熟。人類的學(xué)習(xí)方式可以看作是一種無監(jiān)督學(xué)習(xí)，即你只需觀察你周圍的世界并理解事物的運(yùn)行方式來豐富你的認(rèn)知，無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)非常熱門的一個分支，但是它還未達(dá)到監(jiān)督學(xué)習(xí)能解決任務(wù)的那個程度。

無監(jiān)督學(xué)習(xí)是指如何從觀察和感知當(dāng)中學(xué)習(xí)的，如果計算機(jī)可以觀察和感知，這是否可以幫助解決更復(fù)雜的問題？

沒錯，人的視覺主要通過無監(jiān)督學(xué)習(xí)的方式獲得訓(xùn)練。當(dāng)你還是一個孩子的時候，你在觀察世界時，有時你會得到一個監(jiān)督的信號：比如有人說“這是一只長頸鹿”或者“這是一輛車”的時候，這些少量的監(jiān)督數(shù)據(jù)就是你的心理模型對自然的回應(yīng)，從而完成你對世界的認(rèn)知。

我們需要更多地結(jié)合監(jiān)督和無監(jiān)督學(xué)習(xí)，就我們大多數(shù)機(jī)器學(xué)習(xí)的系統(tǒng)工作方式而言，我們還未真正到達(dá)那一步。

可否解釋一下增強(qiáng)學(xué)習(xí)技術(shù)？

增強(qiáng)學(xué)習(xí)背后的邏輯是你未必需要明確你要采取的行動，你只要試探性地做一個你認(rèn)為不錯的行動，然后觀察“世界”會有怎樣的反應(yīng)。如同下棋一樣，你可根據(jù)你對手的行動來進(jìn)行反應(yīng)。最終在整個序列行為后得到獎賞信號。

增強(qiáng)學(xué)習(xí)是在你得到獎賞信號的同時，能將“信任”或“過失”分配到你。它在今天的某些領(lǐng)域非常有效。

當(dāng)你所執(zhí)行的任務(wù)狀態(tài)非常寬泛時，此時使用強(qiáng)化學(xué)習(xí)就會遇到一些挑戰(zhàn)。在現(xiàn)實(shí)世界中的某個固定時刻操作一個事項(xiàng)涉及到的執(zhí)行范圍可能非常廣泛。而在棋盤游戲當(dāng)中，你走的每一步棋都限定在一定的范圍內(nèi)，而且游戲規(guī)也會對你進(jìn)行限制，這使得其獎賞信號的邏輯非常簡單：要么贏，要么輸。

如果我的任務(wù)是磨一杯咖啡或者其他，整個過程我也許需要采取一系列的動作，而且沒有固定的評判標(biāo)準(zhǔn)，那么這個獎賞信號就不是那么清晰。

但你仍然可以分為很多步驟，如當(dāng)你在現(xiàn)磨一杯咖啡時，你就會學(xué)習(xí)到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

對，我認(rèn)為增強(qiáng)學(xué)習(xí)核心地方就是它需要探索。這種探索在物理環(huán)境當(dāng)中使用有點(diǎn)困難。我們開始嘗試把它應(yīng)用在計算機(jī)當(dāng)中，當(dāng)機(jī)器人采取一系列行動時，它會被限制在一個指定時間中只可以采取有限數(shù)量動作的集合。然而在計算機(jī)模擬中，它更容易使用大量的計算機(jī)資源，并得到一百萬個樣本。

谷歌是否將增強(qiáng)學(xué)習(xí)應(yīng)用在核心搜索產(chǎn)品中？

我們主要通過 DeepMind 和我們的數(shù)據(jù)中心操作人員之間的合作來將增強(qiáng)學(xué)習(xí)應(yīng)用在核心產(chǎn)品中。它們使用強(qiáng)化學(xué)習(xí)來設(shè)置數(shù)據(jù)中心內(nèi)的空調(diào)旋鈕，并實(shí)現(xiàn)相同的、安全的冷卻操作和操作條件，大幅降低能耗。他們能夠發(fā)現(xiàn)哪些旋鈕的設(shè)置可以起到一定的作用，以及當(dāng)你以不同的方式轉(zhuǎn)動旋鈕時，它們會如何反應(yīng)。

通過增強(qiáng)學(xué)習(xí)，可以發(fā)現(xiàn)這 18 個旋鈕的設(shè)置，或者更多旋鈕并未被操作人員考慮進(jìn)去。了解這個系統(tǒng)的人會這樣說：這真是一個奇怪的系統(tǒng)。但是事實(shí)證明，它們運(yùn)行得確實(shí)不錯。

增強(qiáng)學(xué)習(xí)更適用于哪些任務(wù)？

數(shù)據(jù)中心運(yùn)行良好因?yàn)槟阋淮涡枰獔?zhí)行的不同操作并不多。正像 18 個旋鈕，你在那里可以上下旋轉(zhuǎn)它們。這樣結(jié)果是可以計算出來的。假設(shè)你在適當(dāng)?shù)?、可接受的溫度范圍?nèi)工作，你就會得到一個讓能耗降低的獎賞操作。從這個角度看，這差不多是一個理想的增強(qiáng)學(xué)習(xí)問題。

一個更具挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)案例是試圖用它來決定我該顯示什么樣的搜索結(jié)果。這有一個更廣泛的搜索結(jié)果集，我可以展示出不同查詢的反應(yīng)，并且獎賞信號本身就是一種小范圍的噪音。就像用戶看一個搜索結(jié)果，喜歡和不喜歡表現(xiàn)地不是那么明顯。

如何判斷用戶在搜索中不喜歡某一個結(jié)果？

這的確是一個很難解決的問題。由于強(qiáng)化學(xué)習(xí)可能還不夠成熟，以至于在一些極度無約束的環(huán)境中，獎賞信號還不是那么明顯。

將研究成果應(yīng)用于用戶每天使用的產(chǎn)品時，有哪些比較大的挑戰(zhàn)？

這里面其中一項(xiàng)就是，很多機(jī)器學(xué)習(xí)問題的解決方案和我們對這些解決方案的研究可以在不同的領(lǐng)域中重復(fù)使用：我們與地圖團(tuán)隊(duì)合作了一些研究，他們想要讀取出現(xiàn)街頭所有店鋪和 Logo，從而更好地了解世界，比如確定這里是披薩店還是其他。

為了在圖像中找到文本，你可以訓(xùn)練一個機(jī)器學(xué)習(xí)模型，并給它一些樣本，比如人們在文本周圍畫一個圓圈或者方框。實(shí)際上，你可以用它來訓(xùn)練模型去檢測哪些圖像中包含文本。

這是一個普遍適用的功能，地圖團(tuán)隊(duì)中的不同部門可以重復(fù)使用以上模型來完成衛(wèi)星圖像分析任務(wù)，比如在美國境內(nèi)或者世界范圍內(nèi)找到一個屋頂或者估計在屋頂上的太陽能電池板的安裝位置。

隨后我們發(fā)現(xiàn)，相同類型的模型可協(xié)助我們解決醫(yī)療成像的初步工作?，F(xiàn)在你有了醫(yī)學(xué)圖像，你可以試圖找到那些與臨床相關(guān)圖像的有趣部分。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當(dāng)月熱門文章

專訪 Jeff Dean丨谷歌戰(zhàn)神談增強(qiáng)學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

研究人員推動人工智能面臨的挑戰(zhàn)是什么？

無監(jiān)督學(xué)習(xí)是指如何從觀察和感知當(dāng)中學(xué)習(xí)的，如果計算機(jī)可以觀察和感知，這是否可以幫助解決更復(fù)雜的問題？

可否解釋一下增強(qiáng)學(xué)習(xí)技術(shù)？

但你仍然可以分為很多步驟，如當(dāng)你在現(xiàn)磨一杯咖啡時，你就會學(xué)習(xí)到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

谷歌是否將增強(qiáng)學(xué)習(xí)應(yīng)用在核心搜索產(chǎn)品中？

增強(qiáng)學(xué)習(xí)更適用于哪些任務(wù)？

如何判斷用戶在搜索中不喜歡某一個結(jié)果？

將研究成果應(yīng)用于用戶每天使用的產(chǎn)品時，有哪些比較大的挑戰(zhàn)？

無監(jiān)督學(xué)習(xí)是指如何從觀察和感知當(dāng)中學(xué)習(xí)的，如果計算機(jī)可以觀察和感知，這是否可以幫助解決更復(fù)雜的問題？

可否解釋一下增強(qiáng)學(xué)習(xí)技術(shù)？

但你仍然可以分為很多步驟，如當(dāng)你在現(xiàn)磨一杯咖啡時，你就會學(xué)習(xí)到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

谷歌是否將增強(qiáng)學(xué)習(xí)應(yīng)用在核心搜索產(chǎn)品中？

如何判斷用戶在搜索中不喜歡某一個結(jié)果？

將研究成果應(yīng)用于用戶每天使用的產(chǎn)品時，有哪些比較大的挑戰(zhàn)？