0
本文作者: 老王 | 2016-11-04 20:23 |
近日,谷歌 DeepMind 團隊發(fā)現(xiàn)了一種新的方式對深度學習算法進行調(diào)整,新算法可以只通過一個例子就能識別出圖像中的物體,該算法被稱為“單次學習”。
一套算法通常需要訓練大量數(shù)據(jù)才能“學會”一件事情,尤其是在計算機視覺和語音識別方向,通常在一個模型內(nèi)需要喂給成千上萬的圖像和語音數(shù)據(jù)才能識別出某個圖像/語音,而且圖像和語音訓練數(shù)據(jù)的獲取本身就較為麻煩。
Facebook M 研發(fā)人員曾提到,在人工客戶的指引下,計算機虛擬客服仍舊需要重復甚至百萬次才能明白用戶某一個簡單的需求。
針對學習成本和過程復雜這一問題,谷歌的 DeepMind 團隊研究員奧里奧爾·溫亞爾斯(Oriol Vinyals)在深度學習系統(tǒng)中增加了一個記憶組件,當然,這套系統(tǒng)仍然需要事先分析數(shù)百種圖片,訓練好成型的學習模型,但此后卻可以學會通過一張照片識別新的物體。
那么它是如何做到分析一張圖片就能完成物體的檢測和識別的?其實這套系統(tǒng)本質(zhì)上是通過分析圖片中的獨特元素來完成識別任務。這種算法只需要看一個例子,便可達到近似于傳統(tǒng)深度學習系統(tǒng)的準確率。
除了谷歌的“單次學習”之外,目前較為熱門的“遷移學習”也是提高數(shù)據(jù)訓練效率的一種方式,它可以事先把一個預先訓練好的模型挪到一個類似的任務上使用,節(jié)省了訓練時間。
深度學習的某些任務中擁有龐大的數(shù)據(jù)集,而有些相似的任務卻沒有那么大數(shù)據(jù)集。在這種情況下可以從前者訓練好的模型中抽掉最后幾層,在后者上只另外訓練最后幾層。如語音識別領域,當研究人員擁有大量英語數(shù)據(jù),卻缺乏葡萄牙語數(shù)據(jù)時,但由于兩者均受拉丁語影響,有著一定的共性,研究者可事先拿英語語音數(shù)據(jù)訓練模型,基于這個模型在葡萄牙語上訓練模型的最后幾層,然后對這幾層的參數(shù)進行微調(diào)。
楊強教授曾在雷鋒網(wǎng)承辦的 CCF-GAIR 大會中提到一點,大數(shù)據(jù)設計出來的模型用于小數(shù)據(jù)上,它的副產(chǎn)品就是個性化。這就是遷移學習的目的。
遷移學習分為兩種:樣本遷移,特征遷移。其在應用場景中則如下:
基于模型的遷移:如圖像識別,訓練萬張頂千萬張。相似度越大,遷移的概率大。
社交網(wǎng)絡之間的遷移:將千萬人的大數(shù)據(jù)模型遷移到某個人身上。
由此可以看出,谷歌的單次學習系統(tǒng)與基于模型的遷移在目的上有一定的相通之處。
之前也有研究者開發(fā)過單次學習系統(tǒng),但通常不兼容深度學習系統(tǒng)。而這次具有一定的突破性意義。
韓國先進科技學院大腦和機器智能實驗室主任 Sang Wan Lee 說:
這是一種很有趣的方法,它提供了一種新穎的方式對大規(guī)模的數(shù)據(jù)庫進行單次學習。這為人工智能社區(qū)做出了技術貢獻,計算機視覺研究人員可能非常重視此事。
任何新算法在提到效率的同時,總是無法避免它的不足。有學者對單次學習提出了質(zhì)疑,他認為該套學習系統(tǒng)與人類的學習方法存在很大差異,可能會導致識別準確率的問題。哈佛大學腦科學系副教授山姆·格什曼(Sam Gershman)表示,人類通常是通過理解一張圖像的組成元素來學習的,但在此基礎上還需要一些實際的知識和嘗試。平衡車可能看上去與自行車或摩托車大不相同,但它卻可以使用相同的零件。上面提到單次學習是基于物體的獨特元素來判斷,即便計算機掌握摩托車和自行車的所有零件,但面對擁有相似零件的平衡車時,有很大概率存在誤判的問題。
Sang Wan Lee 表示,計算機的單次學習能力要比拼人類還需要經(jīng)過一段時間,即便是我們自己目前也并沒有揭開人類單次學習能力的秘密。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。