0
雷鋒網按:日前,知名 AI 博主、愛爾蘭國立大學 NLP 博士生 Sebastian Ruder 以“遷移學習:機器學習的下一個前線”為題,對遷移學習的技術原理、重要性與意義、應用方法做了詳細闡述。本文對其中討論遷移學習的原理、重要性,以及吳恩達的預測的部分做了節(jié)選,閱讀原文(英文)請戳這里。雷鋒網編譯。
Sebastian Ruder
Sebastian Ruder:在訓練深度神經網絡、學習輸入到輸出的精準映射上,近年來我們做得越來越好。不管是針對圖像、語句,還是標簽預測,有了大量做過標記的樣例,都已不再是難題。
今天的深度學習算法仍然欠缺的,是在新情況(不同于訓練集的情況)上的泛化能力。
在什么時候,這項能力是必須的呢?——當你把模型應用于現實情形,而非小心翼翼整理好的數據集的時候?,F實世界是相當混亂的,包含無數的特殊情形,會有許多在訓練階段模型沒有遇到過的情況。因而未必適于對新情況做預測。
把別處學得的知識,遷移到新場景的能力,就是遷移學習。
在機器學習的傳統(tǒng)監(jiān)督學習情況下,如果我們準備為某個任務/領域 A 來訓練模型,獲取任務/領域 A 里標記過的數據,會是前提。圖 1 把這表現的很清楚:model A 的訓練、測試數據的任務/領域是一致的。
圖 1: 傳統(tǒng)的 ML 監(jiān)督學習
可以預期,我們在該數據集上訓練的模型 A,在相同任務/領域的新數據上也能有良好表現。另一方面,對于給定任務/領域 B,我們需要這個領域的標記數據,來訓練模型 B,然后才能在該任務/領域取得不錯的效果。
但傳統(tǒng)的監(jiān)督學習方法也會失靈——在缺乏某任務/領域標記數據的情況下,它往往無法得出一個可靠的模型。舉個例子,如果我們想要訓練出一個模型,對夜間的行人圖像進行監(jiān)測,我們可以應用一個相近領域的訓練模型——白天的行人監(jiān)測。理論上這是可行的。但實際上,模型的表現效果經常會大幅惡化,甚至崩潰。這很容易理解,模型從白天訓練數據獲取了一些偏差,不知道怎么泛化到新場景。
如果我們想要執(zhí)行全新的任務,比如監(jiān)測自行車騎手,重復使用原先的模型是行不通的。這里有一個很關鍵的原因:不同任務的數據標簽不同。但有了遷移學習,我們能夠在一定程度上解決這個問題,并充分利用相近任務/領域的現有數據。遷移學習試圖把處理源任務獲取的知識,應用于新的目標難題,見圖 2。
圖 2: 遷移學習
實踐中,我們會試圖把源場景盡可能多的知識,遷移到目標任務或者場景。這里的知識可以有許多種表現形式,而這取決于數據:它可以是關于物體的組成部分,以更輕易地找出反常物體;它也可以是人們表達意見的普通詞語。
在去年的 NIPS 2016 講座上,吳恩達表示:“在監(jiān)督學習之后,遷移學習將引領下一波機器學習技術商業(yè)化浪潮?!?/p>
雷鋒網獲知,當時,吳恩達在白板上畫了一副草圖,對他的立場進行解釋。Sebastian Ruder 將其用電腦繪制了出來,便是下圖:
該圖是吳恩達眼中,推動機器學習取得商業(yè)化成績的主要驅動技術。從中可以看出,吳老師認為下一步將是遷移學習的商業(yè)應用大爆發(fā)。
有一點是毋庸置疑的:迄今為止,機器學習在業(yè)界的應用和成功,主要由監(jiān)督學習推動。而這又是建立在深度學習的進步、更強大的計算設施、做了標記的大型數據集的基礎上。近年來,這一波公眾對人工智能技術的關注、投資收購浪潮、機器學習在日常生活中的商業(yè)應用,主要是由監(jiān)督學習來引領。如果我們忽略“AI 冬天”的說法,相信吳恩達的預測,機器學習的這一波商業(yè)化浪潮應該會繼續(xù)。
另外一點卻不是那么清楚:為什么遷移學習已經存在數十年了,但卻在業(yè)界沒什么人用?更進一步,吳恩達預測的遷移學習商業(yè)應用爆發(fā)式增長,究竟是否會發(fā)生?
相比無監(jiān)督學習和強化學系,遷移學習目前的曝光程度不高,但越來越多的人正把目光投向它。
對于前兩者,比如說被認為是“通用 AI”(General AI)關鍵的無監(jiān)督學習,其重要性隨著 Yann LeCun 的布道以及“蛋糕論”越來越受到認可,激起又一波關注。生成對抗網絡在其中扮演技術先鋒角色。對于強化學習,最顯著的推動力量是谷歌 DeepMind。沒錯,我指的是 AlphaGo。強化學習技術已經在現實場景取得成功應用,比如降低了 40% 的谷歌數據中心溫控成本。
Yann LeCun 蛋糕論。在他看來,強化學習是櫻桃,監(jiān)督學習是糖衣,無監(jiān)督學習才是糕體。但耐人尋味的是,其中并沒有遷移學習。
這兩個領域都前景光明。但是,在可預期的將來,它們恐怕只會產出相對有限的商業(yè)化成果——更多是學術成果,存在于尖端研究和論文中。這是因為這兩個領域面臨的技術挑戰(zhàn)仍然非常嚴峻。
當前,業(yè)界對機器學習的應用呈現二元化:
一方面,近年來我們獲得了訓練更多、更精確模型的能力?,F在所處的是一個全新階段:對于許多任務,最先進的模型的性能,已達到了一個此前夢寐以求的水平:如果把這些模型不計代價地推向市場,消費者將不會抱怨其核心能力。
尖端模型的性能已強到什么程度呢?
最新的殘差網絡(residual networks)已經能在 ImageNet 上取得超人類的水平;谷歌 Smart Reply 能自動處理 10% 的手機回復;語音識別錯誤率一直在降低,精確率已超過打字員;機器對皮膚癌的識別率以達到皮膚科醫(yī)生的水平;谷歌 NMT 系統(tǒng)已經應用于谷歌翻譯的產品端;百度 DeepVoice 已實現實時語音生成……
這個列表可以搞得很長。我要表達的意思是:這個水平的成熟度,已經讓面向數百萬用戶的大規(guī)模模型部署變得可能。
但在另一方面,這些成功的模型對數據極度饑渴,需要海量標記數據來達到這樣的效果。在某些任務領域,這樣的數據資源是存在的——背后是多年的艱辛數據收集。而在個別情況下,數據是公共的,比如 ImageNet。但是大量的標記數據一般是專有的、有知識產權,亦或是收集起來極度昂貴,比如醫(yī)療、語音、MT 數據集。
同時,當機器學習模型被應用于現實情形,它會遇到無數的、此前未遭遇過的情況;也不知道該如何應付。每個客戶、用戶都有他們的偏好,會產生異于訓練集的數據。模型需要處理許多與此前訓練的任務目標相近、但不完全一樣的任務。當今的尖端模型雖然在訓練過的任務上有相當于人類或超人類的能力,但在這些情況下,性能會大打折扣甚至完全崩潰。
遷移學習是對付這些特殊情況的殺手锏。許多產品級的機器學習應用,需要進入標記數據稀缺的任務領域,對于這類商業(yè)應用,遷移學習無疑是必需的。今天,數據的“低樹果實”基本已經被摘光,接下來,必須要把學得的東西遷移到新的任務與領域中。
相關文章:
香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。