人工智能在深度學(xué)習(xí)領(lǐng)域的前世今生

本文作者： kosir蘭徹

2016-08-11 11:17

導(dǎo)語：本文介紹了人工智能發(fā)展的7個(gè)重要階段，深度學(xué)習(xí)帶動(dòng)了人工智能發(fā)展的新歷程，例如深度在語音，圖像識(shí)別的領(lǐng)域的大熱，最后也提出自己對(duì)于深度學(xué)習(xí)發(fā)展方向及挑戰(zhàn)的看法。

雷鋒網(wǎng)按：本文作者蘭徹，文章詳細(xì)介紹了1）人工智能發(fā)展的七個(gè)重要階段；2）深度學(xué)習(xí)在人工智能的發(fā)展；3）最后也提出作者對(duì)于深度學(xué)習(xí)挑戰(zhàn)和未來發(fā)展的看法。

Dave Bowman: Hello, HAL do you read me, HAL? 哈爾，你看到我了嗎？

HAL: Affirmative, Dave, I read you. 大衛(wèi)，我看到你了

Dave Bowman: Open the pod bay doors, HAL. 哈爾，打開艙門

HAL: I'm sorry Dave, I'm afraid I can't do that. 對(duì)不起，大衛(wèi)，我不能這做

~《2001: A Space Odyssey》~

這兩年人工智能熱鬧非凡，不僅科技巨頭發(fā)力AI取得技術(shù)與產(chǎn)品的突破，還有眾多初創(chuàng)企業(yè)獲得風(fēng)險(xiǎn)資本的青睞，幾乎每周都可以看到相關(guān)領(lǐng)域初創(chuàng)公司獲得投資的報(bào)道，而最近的一次春雷毫無疑問是Google旗下Deepmind開發(fā)的人工智能AlphaGo與南韓李世石的圍棋之戰(zhàn)，AiphaGo大比分的獲勝讓人們對(duì)AI刮目相看的同時(shí)也引發(fā)了對(duì)AI將如何改變我們生活的思考。其實(shí)，人工智能從上世紀(jì)40年代誕生至今，經(jīng)歷了一次又一次的繁榮與低谷，首先我們來回顧下過去半個(gè)世紀(jì)里人工智能的各個(gè)發(fā)展歷程。

|人工智能發(fā)展的七大篇章

人工智能的起源：人工智能真正誕生于20世紀(jì)的40 - 50年代，這段時(shí)間里數(shù)學(xué)類、工程類、計(jì)算機(jī)等領(lǐng)域的科學(xué)家探討著人工大腦的可能性，試圖去定義什么是機(jī)器的智能。在這個(gè)背景下，1950年Alan Turing發(fā)表了題為“機(jī)器能思考嗎”的論文，成為劃時(shí)代之作，提出了著名的圖靈測(cè)試去定義何為機(jī)器具有智能，他說只要有30%的人類測(cè)試者在5分鐘內(nèi)無法分辨出被測(cè)試對(duì)象，就可以認(rèn)為機(jī)器通過了圖靈測(cè)試。

人工智能在深度學(xué)習(xí)領(lǐng)域的前世今生

圖1：圖靈測(cè)試；Alan Turing本人

人工智能的第一次黃金時(shí)期：現(xiàn)在公認(rèn)的人工智能起源是1956年的達(dá)特矛斯會(huì)議，在會(huì)議上計(jì)算機(jī)科學(xué)家John McCarthy說服了參會(huì)者接受“人工智能（Artificial Intelligence）”。達(dá)特矛斯會(huì)議之后的十幾年是人工智能的第一次黃金時(shí)代，大批研究者撲向這一新領(lǐng)域，計(jì)算機(jī)被應(yīng)用于代數(shù)應(yīng)用題、幾何定理證明，一些頂尖高校建立的人工智能項(xiàng)目獲得了ARPA等機(jī)構(gòu)的大筆經(jīng)費(fèi)，甚至有研究者認(rèn)為機(jī)器很快就能替代人類做到一切工作。

人工智能的第一次低谷：到了70年代，由于計(jì)算機(jī)性能的瓶頸、計(jì)算復(fù)雜性的增長以及數(shù)據(jù)量的不足，很多項(xiàng)目的承諾無法兌現(xiàn)，比如現(xiàn)在常見的計(jì)算機(jī)視覺根本找不到足夠的數(shù)據(jù)庫去支撐算法去訓(xùn)練，智能也就無從談起。后來學(xué)界將人工智能分為兩種：難以實(shí)現(xiàn)的強(qiáng)人工智能和可以嘗試的弱人工智能。強(qiáng)人工智能是可以認(rèn)為就是人，可執(zhí)行“通用任務(wù)”；弱人工智能則處理單一問題，我們迄今仍處于弱人工智能時(shí)代，而很多項(xiàng)目的停滯也影響了資助資金的走向，AI參與了長達(dá)數(shù)年之久的低谷。

專家系統(tǒng)的出現(xiàn)：1970年代之后，學(xué)術(shù)界逐漸接受新的思路：人工智能不光要研究解法，還得引入知識(shí)。于是，專家系統(tǒng)誕生了，它利用數(shù)字化的知識(shí)去推理，模仿某一領(lǐng)域的專家去解決問題，“知識(shí)處理”隨之成為了主流人工智能的研究重點(diǎn)。在1977年世界人工智能大會(huì)提出的“知識(shí)工程”的啟發(fā)下，日本的第五代計(jì)算機(jī)計(jì)劃、英國的阿爾維計(jì)劃、歐洲的尤里卡計(jì)劃和美國的星計(jì)劃相機(jī)出臺(tái)，帶來專家系統(tǒng)的高速發(fā)展，涌現(xiàn)了卡內(nèi)基梅隆的XCON系統(tǒng)和Symbolics、IntelliCorp等新公司。

人工智能的第二次經(jīng)費(fèi)危機(jī)：20世紀(jì)90年代之前的大部分人工智能項(xiàng)目都是靠政府機(jī)構(gòu)的資助資金在研究室里支撐，經(jīng)費(fèi)的走向直接影響著人工智能的發(fā)展。80年代中期，蘋果和IBM的臺(tái)式機(jī)性能已經(jīng)超過了運(yùn)用專家系統(tǒng)的通用型計(jì)算機(jī)，專家系統(tǒng)的風(fēng)光隨之褪去，人工智能研究再次遭遇經(jīng)費(fèi)危機(jī)。

IBM的深藍(lán)和Watson：專家系統(tǒng)之后，機(jī)器學(xué)習(xí)成為了人工智能的焦點(diǎn)，其目的是讓機(jī)器具備自動(dòng)學(xué)習(xí)的能力，通過算法使得機(jī)器從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律并對(duì)新的樣本作出判斷識(shí)別或預(yù)測(cè)。在這一階段，IBM無疑是AI領(lǐng)域的領(lǐng)袖，1996年深藍(lán)（基于窮舉搜索樹）戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫，2011年Watson（基于規(guī)則）在電視問答節(jié)目中戰(zhàn)勝人類選手，特別是后者涉及到放到現(xiàn)在仍然是難題的自然語言理解，成為機(jī)器理解人類語言的里程碑的一步。

深度學(xué)習(xí)的強(qiáng)勢(shì)崛起：深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的第二次浪潮，2013年4月，《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。其實(shí)，深度學(xué)習(xí)并不是新生物，它是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)（Neural Network）的發(fā)展，兩者之間有相同的地方，采用了相似的分層結(jié)構(gòu)，而不一樣的地方在于深度學(xué)習(xí)采用了不同的訓(xùn)練機(jī)制，具備強(qiáng)大的表達(dá)能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)曾經(jīng)是機(jī)器學(xué)習(xí)領(lǐng)域很火的方向，后來由于參數(shù)難于調(diào)整和訓(xùn)練速度慢等問題淡出了人們的視野。

但是有一位叫Geoffrey Hinton的多倫多大學(xué)老教授非常執(zhí)著的堅(jiān)持神經(jīng)網(wǎng)絡(luò)的研究，并和Yoshua Bengio、Yann LeCun（發(fā)明了現(xiàn)在被運(yùn)用最廣泛的深度學(xué)習(xí)模型-卷積神經(jīng)網(wǎng)CNN）一起提出了可行的deep learning方案。標(biāo)志性的事情是，2012年Hinton的學(xué)生在圖片分類競賽ImageNet上大大降低了錯(cuò)誤率（ImageNet Classification with Deep Convolutional Neural Networks），打敗了工業(yè)界的巨頭Google，頓時(shí)讓學(xué)術(shù)界和工業(yè)界嘩然，這不僅學(xué)術(shù)意義重大，更是吸引了工業(yè)界大規(guī)模的對(duì)深度學(xué)習(xí)的投入：2012年Google Brain用16000個(gè)CPU核的計(jì)算平臺(tái)訓(xùn)練10億神經(jīng)元的深度網(wǎng)絡(luò)，無外界干涉下自動(dòng)識(shí)別了“Cat”；Hinton的DNN初創(chuàng)公司被Google收購，Hinton個(gè)人也加入了Google；而另一位大牛LeCun加盟Facebook，出任AI實(shí)驗(yàn)室主任；百度成立深度學(xué)習(xí)研究所，由曾經(jīng)領(lǐng)銜Google Brain的吳恩達(dá)全面負(fù)責(zé)。不僅科技巨頭們加大對(duì)AI的投入，一大批初創(chuàng)公司乘著深度學(xué)習(xí)的風(fēng)潮涌現(xiàn)，使得人工智能領(lǐng)域熱鬧非凡。

|人工智能之主要引擎：深度學(xué)習(xí)

機(jī)器學(xué)習(xí)發(fā)展分為兩個(gè)階段，起源于上世紀(jì)20年代的淺層學(xué)習(xí)（Shallow Learning）和最近幾年才火起來的深度學(xué)習(xí)（Deep Learning）。淺層學(xué)習(xí)的算法中，最先被發(fā)明的是神經(jīng)網(wǎng)絡(luò)的反向傳播算法（back propagation），為什么稱之為淺層呢，主要是因?yàn)楫?dāng)時(shí)的訓(xùn)練模型是只含有一層隱含層（中間層）的淺層模型，淺層模型有個(gè)很大的弱點(diǎn)就是有限參數(shù)和計(jì)算單元，特征表達(dá)能力弱。

上世紀(jì)90年代，學(xué)術(shù)界提出一系列的淺層機(jī)器學(xué)習(xí)模型，包括風(fēng)行一時(shí)的支撐向量機(jī)Support Vector Machine，Boosting等，這些模型相比神經(jīng)網(wǎng)絡(luò)在效率和準(zhǔn)確率上都有一定的提升，直到2010年前很多高校研究室里都是用時(shí)髦的SVM等算法，包括筆者本人（當(dāng)時(shí)作為一名機(jī)器學(xué)習(xí)專業(yè)的小碩，研究的是Twitter文本的自動(dòng)分類，用的就是SVM），主要是因?yàn)檫@類淺層模型算法理論分析簡單，訓(xùn)練方法也相對(duì)容易掌握，這個(gè)時(shí)期神經(jīng)網(wǎng)絡(luò)反而相對(duì)較為沉寂，頂級(jí)學(xué)術(shù)會(huì)議里很難看到基于神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的研究。

但其實(shí)后來人們發(fā)現(xiàn)，即使訓(xùn)練再多的數(shù)據(jù)和調(diào)整參數(shù)，識(shí)別的精度似乎到了瓶頸就是上不去，而且很多時(shí)候還需要人工的標(biāo)識(shí)訓(xùn)練數(shù)據(jù)，耗費(fèi)大量人力，機(jī)器學(xué)習(xí)中的5大步驟有特征感知，圖像預(yù)處理，特征提取，特征篩選，預(yù)測(cè)與識(shí)別，其中前4項(xiàng)是不得不親自設(shè)計(jì)的（筆者經(jīng)過機(jī)器學(xué)習(xí)的地獄般的折磨終于決定轉(zhuǎn)行）。在此期間，我們執(zhí)著的Hinton老教授一直研究著多隱層神經(jīng)網(wǎng)絡(luò)的算法，多隱層其實(shí)就是淺層神經(jīng)網(wǎng)絡(luò)的深度版本，試圖去用更多的神經(jīng)元來表達(dá)特征，但為什么實(shí)現(xiàn)起來這么苦難的呢，原因有三點(diǎn)：

1. BP算法中誤差的反向傳播隨著隱層的增加而衰減；優(yōu)化問題，很多時(shí)候只能達(dá)到局部最優(yōu)解；

2. 模型參數(shù)增加的時(shí)候，對(duì)訓(xùn)練數(shù)據(jù)的量有很高要求，特別是不能提供龐大的標(biāo)識(shí)數(shù)據(jù)，只會(huì)導(dǎo)致過度復(fù)雜；

3. 多隱層結(jié)構(gòu)的參數(shù)多，訓(xùn)練數(shù)據(jù)的規(guī)模大，需要消耗很多計(jì)算資源。

人工智能在深度學(xué)習(xí)領(lǐng)域的前世今生

圖2：傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與多隱層神經(jīng)網(wǎng)絡(luò)

2006年，Hinton和他的學(xué)生R.R. Salakhutdinov在《Science》上發(fā)表了一篇文章（Reducing the dimensionality of data with neural networks），成功訓(xùn)練出多層神經(jīng)網(wǎng)絡(luò)，改變了整個(gè)機(jī)器學(xué)習(xí)的格局，雖然只有3頁紙但現(xiàn)在看來字字千金。這篇文章有兩個(gè)主要觀點(diǎn)：1）多隱層神經(jīng)網(wǎng)絡(luò)有更厲害的學(xué)習(xí)能力，可以表達(dá)更多特征來描述對(duì)象；2）訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)，可通過降維（pre-training）來實(shí)現(xiàn)，老教授設(shè)計(jì)出來的Autoencoder網(wǎng)絡(luò)能夠快速找到好的全局最優(yōu)點(diǎn)，采用無監(jiān)督的方法先分開對(duì)每層網(wǎng)絡(luò)進(jìn)行訓(xùn)練，然后再來微調(diào)。

人工智能在深度學(xué)習(xí)領(lǐng)域的前世今生

圖3：圖像的與訓(xùn)練，編碼→解碼→微調(diào)

從圖3我們可以看到，深度網(wǎng)絡(luò)是逐層逐層進(jìn)行預(yù)訓(xùn)練，得到每一層的輸出；同時(shí)引入編碼器和解碼器，通過原始輸入與編碼→再解碼之后的誤差來訓(xùn)練，這兩步都是無監(jiān)督訓(xùn)練過程；最后引入有標(biāo)識(shí)樣本，通過有監(jiān)督訓(xùn)練來進(jìn)行微調(diào)。逐層訓(xùn)練的好處是讓模型處于一個(gè)接近全局最優(yōu)的位置去獲得更好的訓(xùn)練效果。

以上就是Hinton在2006年提出的著名的深度學(xué)習(xí)框架，而我們實(shí)際運(yùn)用深度學(xué)習(xí)網(wǎng)絡(luò)的時(shí)候，不可避免的會(huì)碰到卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks, CNN）。CNN的原理是模仿人類神經(jīng)元的興奮構(gòu)造：大腦中的一些個(gè)體神經(jīng)細(xì)胞只有在特定方向的邊緣存在時(shí)才能做出反應(yīng)，現(xiàn)在流行的特征提取方法就是CNN。打個(gè)比方，當(dāng)我們把臉非?？拷粡埲四槇D片觀察的時(shí)候（假設(shè)可以非常非常的近），這時(shí)候只有一部分的神經(jīng)元是被激活的，我們也只能看到人臉上的像素級(jí)別點(diǎn)，當(dāng)我們把距離一點(diǎn)點(diǎn)拉開，其他的部分的神經(jīng)元將會(huì)被激活，我們也就可以觀察到人臉的線條→圖案→局部→人臉，整個(gè)就是一步步獲得高層特征的過程。

人工智能在深度學(xué)習(xí)領(lǐng)域的前世今生

圖4：基本完整的深度學(xué)習(xí)流程

深度學(xué)習(xí)的“深”（有很多隱層），好處是顯而易見的 – 特征表達(dá)能力強(qiáng)，有能力表示大量的數(shù)據(jù)；pretraining是無監(jiān)督訓(xùn)練，節(jié)省大量人力標(biāo)識(shí)工作；相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，通過逐層逐層訓(xùn)練的方法降低了訓(xùn)練的難度，比如信號(hào)衰減的問題。深度學(xué)習(xí)在很多學(xué)術(shù)領(lǐng)域，比淺層學(xué)習(xí)算法往往有20-30%成績的提高，驅(qū)使研究者發(fā)現(xiàn)新大陸一般涌向深度學(xué)習(xí)這一領(lǐng)域，弄得現(xiàn)在不說用了深度學(xué)習(xí)都不好意思發(fā)論文了。

|深度學(xué)習(xí)的重要發(fā)展領(lǐng)域

深度學(xué)習(xí)首先在圖像、聲音和語義識(shí)別取得了長足的進(jìn)步，特別是在圖像和聲音領(lǐng)域相比傳統(tǒng)的算法大大提升了識(shí)別率，其實(shí)也很容易理解，深度學(xué)習(xí)是仿人來大腦神經(jīng)感知外部世界的算法，而最直接的外部自然信號(hào)莫過于圖像、聲音和文字（非語義）。

圖像識(shí)別：圖像是深度學(xué)習(xí)最早嘗試的領(lǐng)域，大牛Yann LeCun早在1989年就開始了卷積神經(jīng)網(wǎng)絡(luò)的研究，取得了在一些小規(guī)模（手寫字）的圖像識(shí)別的成果，但在像素豐富的圖片上遲遲沒有突破，直到2012年Hinton和他學(xué)生在ImageNet上的突破，使識(shí)別精度提高了一大步。2014年，香港中文大學(xué)教授湯曉鷗領(lǐng)導(dǎo)的計(jì)算機(jī)視覺研究組開發(fā)了名為DeepID的深度學(xué)習(xí)模型，在LFW (Labeled Faces in the Wild，人臉識(shí)別使用非常廣泛的測(cè)試基準(zhǔn))數(shù)據(jù)庫上獲得了99.15%的識(shí)別率，人用肉眼在LFW上的識(shí)別率為97.52%，深度學(xué)習(xí)在學(xué)術(shù)研究層面上已經(jīng)超過了人用肉眼的識(shí)別。

當(dāng)然在處理真實(shí)場(chǎng)景的人臉識(shí)別時(shí)還是差強(qiáng)人意，例如人臉不清晰，光照條件，局部遮擋等因素都會(huì)影響識(shí)別率，所以在實(shí)際操作中機(jī)器學(xué)習(xí)與人工確認(rèn)相結(jié)合，更加妥當(dāng)。國內(nèi)做人臉識(shí)別的公司眾多，其中Face++、中科奧森、Sensetime、Linkface、飛搜科技都是走在前面的，在真實(shí)環(huán)境運(yùn)用或者在垂直細(xì)分領(lǐng)域中有著深厚的數(shù)據(jù)積累。在基于面部特征識(shí)別技術(shù)的情緒識(shí)別領(lǐng)域，閱面科技與Facethink（Facethink為天使灣早期投資項(xiàng)目）是國內(nèi)少數(shù)進(jìn)入該領(lǐng)域的初創(chuàng)公司。

語音識(shí)別：語音識(shí)別長期以來都是使用混合高斯模型來建模，在很長時(shí)間內(nèi)都是占據(jù)壟斷地位的建模方式，但盡管其降低了語音識(shí)別的錯(cuò)誤率，但面向商業(yè)級(jí)別的應(yīng)用仍然困難，也就是在實(shí)際由噪音的環(huán)境下達(dá)不到可用的級(jí)別。直到深度學(xué)習(xí)的出現(xiàn)，使得識(shí)別錯(cuò)誤率在以往最好的基礎(chǔ)上相對(duì)下降30%以上，達(dá)到商業(yè)可用的水平。微軟的俞棟博士和鄧力博士是這一突破的最早的實(shí)踐者，他們與Hinton一起最早將深度學(xué)習(xí)引入語音識(shí)別并取得成功。由于語音識(shí)別的算法成熟，科大訊飛、云知聲、思必馳在通用識(shí)別上識(shí)別率都相差不大，在推廣上科大訊飛是先行者，從軍用到民用，包括移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、智能家居都有廣泛涉及。

自然語言處理（NLP）：即使現(xiàn)在深度學(xué)習(xí)在NLP領(lǐng)域并沒有取得像圖像識(shí)別或者語音識(shí)別領(lǐng)域的成績，基于統(tǒng)計(jì)的模型仍然是NLP的主流，先通過語義分析提取關(guān)鍵詞、關(guān)鍵詞匹配、算法判定句子功能（計(jì)算距離這個(gè)句子最近的標(biāo)識(shí)好的句子），最后再從提前準(zhǔn)備的數(shù)據(jù)庫里提供用戶輸出結(jié)果。顯然，這明顯談不上智能，只能算一種搜索功能的實(shí)現(xiàn)，而缺乏真正的語言能力。蘋果的Siri、微軟的小冰、圖靈機(jī)器人、百度度秘等巨頭都在發(fā)力智能聊天機(jī)器人領(lǐng)域，而應(yīng)用場(chǎng)景在國內(nèi)主要還是客服（即使客戶很討厭機(jī)器客戶，都希望能第一時(shí)間直接聯(lián)系到人工服務(wù)），我認(rèn)為市場(chǎng)上暫時(shí)還沒出現(xiàn)成熟度非常高的產(chǎn)品。小冰眾多競爭對(duì)手中還是蠻有意思的，她的設(shè)想就是“你隨便和我聊天吧”，而其他競爭對(duì)手則專注于某些細(xì)分領(lǐng)域卻面臨著在細(xì)分領(lǐng)域仍是需要通用的聊天系統(tǒng)，個(gè)人認(rèn)為小冰經(jīng)過幾年的數(shù)據(jù)積累和算法改善是具備一定優(yōu)勢(shì)脫穎而出。

為什么深度學(xué)習(xí)在NLP領(lǐng)域進(jìn)展緩慢：對(duì)語音和圖像來說，其構(gòu)成元素（輪廓、線條、語音幀）不用經(jīng)過預(yù)處理都能清晰的反映出實(shí)體或者音素，可以簡單的運(yùn)用到神經(jīng)網(wǎng)絡(luò)里進(jìn)行識(shí)別工作。而語義識(shí)別大不相同：首先一段文本一句話是經(jīng)過大腦預(yù)處理的，并非自然信號(hào)；其次，詞語之間的相似并不代表其意思相近，而且簡單的詞組組合起來之后意思也會(huì)有歧義（特別是中文，比如說“萬萬沒想到”，指的是一個(gè)叫萬萬的人沒想到呢，還是表示出乎意料的沒想到呢，還是一部電影的名字呢）；對(duì)話需要上下文的語境的理解，需要機(jī)器有推理能力；人類的語言表達(dá)方式靈活，而很多交流是需要知識(shí)為依托的。很有趣，仿人類大腦識(shí)別機(jī)制建立的深度學(xué)習(xí)，對(duì)經(jīng)過我們?nèi)祟惔竽X處理的文字信號(hào)，反而效果差強(qiáng)人意。根本上來說，現(xiàn)在的算法還是弱人工智能，可以去幫人類快速的自動(dòng)執(zhí)行（識(shí)別），但還是不能理解這件事情本身。

|深度學(xué)習(xí)的挑戰(zhàn)和發(fā)展方向的探討

受益于計(jì)算能力的提升和大數(shù)據(jù)的出現(xiàn)，深度學(xué)習(xí)在計(jì)算機(jī)視覺和語音識(shí)別領(lǐng)域取得了顯著的成果，不過我們也看到了一些深度學(xué)習(xí)的局限性，亟待解決：

1. 深度學(xué)習(xí)在學(xué)術(shù)領(lǐng)域取得了不錯(cuò)的成果，但在商業(yè)上對(duì)企業(yè)活動(dòng)的幫助還是有限的，因?yàn)樯疃葘W(xué)習(xí)是一個(gè)映射的過程，從輸入A映射到輸出B，而在企業(yè)活動(dòng)中我如果已經(jīng)擁有了這樣的A→B的配對(duì)，為什么還需要機(jī)器學(xué)習(xí)來預(yù)測(cè)呢？讓機(jī)器自己在數(shù)據(jù)中尋找這種配對(duì)關(guān)系或者進(jìn)行預(yù)測(cè)，目前還是有很大難度。

2. 缺乏理論基礎(chǔ)，這是困擾著研究者的問題。比如說，AlphaGo這盤棋贏了，你是很難弄懂它怎么贏的，它的策略是怎樣的。在這層意思上深度學(xué)習(xí)是一個(gè)黑箱子，在實(shí)際訓(xùn)練網(wǎng)絡(luò)的過程中它也是個(gè)黑箱子：神經(jīng)網(wǎng)絡(luò)需要多少個(gè)隱層來訓(xùn)練，到底需要多少有效的參數(shù)等，都沒有很好的理論解釋。我相信很多研究者在建立多層神經(jīng)網(wǎng)絡(luò)的時(shí)候，還是花了很多時(shí)間在枯燥的參數(shù)調(diào)試上。

3. 深度學(xué)習(xí)需要大量的訓(xùn)練樣本。由于深度學(xué)習(xí)的多層網(wǎng)絡(luò)結(jié)構(gòu)，其具備很強(qiáng)的特征表達(dá)能力，模型的參數(shù)也會(huì)增加，如果訓(xùn)練樣本過小是很難實(shí)現(xiàn)的，需要海量的標(biāo)記的數(shù)據(jù)，避免產(chǎn)生過擬合現(xiàn)象（overfitting）不能很好的表示整個(gè)數(shù)據(jù)。

4. 在上述關(guān)于深度學(xué)習(xí)在NLP應(yīng)用的篇章也提到，目前的模型還是缺乏理解及推理能力。

因此，深度學(xué)習(xí)接下來的發(fā)展方向也將會(huì)涉及到以上問題的解決，Hinton、LeCun和Bengio三位AI領(lǐng)袖曾在合著的一篇論文（Deep Learning）的最后提到：

（https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf）

1. 無監(jiān)督學(xué)習(xí)。雖然監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中表現(xiàn)不俗，壓倒了無監(jiān)督學(xué)習(xí)在預(yù)訓(xùn)練的效果，但人類和動(dòng)物的學(xué)習(xí)都是無監(jiān)督學(xué)習(xí)的，我們感知世界都是通過我們自己的觀察，因此若要更加接近人類大腦的學(xué)習(xí)模式，無監(jiān)督學(xué)習(xí)需要得到更好的發(fā)展。

2. 強(qiáng)化學(xué)習(xí)。增強(qiáng)學(xué)習(xí)指的是從外部環(huán)境到行為映射的學(xué)習(xí)，通過基于回報(bào)函數(shù)的試錯(cuò)來發(fā)現(xiàn)最優(yōu)行為。由于在實(shí)際運(yùn)用中數(shù)據(jù)量是遞增的，在新數(shù)據(jù)中能否學(xué)習(xí)到有效的數(shù)據(jù)并做修正顯得非常重要，深度+強(qiáng)化學(xué)習(xí)可以提供獎(jiǎng)勵(lì)的反饋機(jī)制讓機(jī)器自主的學(xué)習(xí)（典型的案例是AlphaGo）。

3. 理解自然語言。老教授們說：趕緊讓機(jī)器讀懂語言吧！

4. 遷移學(xué)習(xí)。把大數(shù)據(jù)訓(xùn)練好的模型遷移運(yùn)用到有效數(shù)據(jù)量小的任務(wù)上，也就是把學(xué)到的知識(shí)有效的解決不同但相關(guān)領(lǐng)域的問題，這事情顯得很性感，但問題就在遷移過程已訓(xùn)練好的模型是存在自我偏差的，所以需要高效的算法去消除掉這些偏差。根本上來說，就是讓機(jī)器像人類一樣具備快速學(xué)習(xí)新知識(shí)能力。

自深度學(xué)習(xí)被Hinton在《Science》發(fā)表以來，短短的不到10年時(shí)間里，帶來了在視覺、語音等領(lǐng)域革命性的進(jìn)步，引爆了這次人工智能的熱潮。雖然目前仍然存在很多差強(qiáng)人意的地方，距離強(qiáng)人工智能還是有很大距離，它是目前最接近人類大腦運(yùn)作原理的算法，我相信在將來，隨著算法的完善以及數(shù)據(jù)的積累，甚至硬件層面仿人類大腦神經(jīng)元材料的出現(xiàn)，深度學(xué)習(xí)將會(huì)更進(jìn)一步的讓機(jī)器智能化。

最后，我們以Hinton老先生的一段話來結(jié)束這篇文章：“It has been obvious since the 1980s that backpropagation through deep autoencoders would be very effective for nonlinear dimensionality reduction, provided that computers were fast enough, data sets were big enough, and the initial weights were close enough to a good solution. All three conditions are now satisfied.”（自從上世紀(jì)80年代我們就知道，如果有計(jì)算機(jī)足夠快、數(shù)據(jù)足夠大、初始權(quán)重值足夠完美，基于深度自動(dòng)編碼器的反向傳播算法是非常有效的?，F(xiàn)在，這三者都具備了。）

雷鋒網(wǎng)注：文章由作者授權(quán)首發(fā)，如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。蘭徹來自于天使灣創(chuàng)投，專注于人工智能與機(jī)器人領(lǐng)域投資，曾在日本學(xué)習(xí)工作十年，深研AI機(jī)器人業(yè)務(wù)，愛好黑科技，歡迎各類AI和機(jī)器人領(lǐng)域創(chuàng)業(yè)者勾搭，微信hongguangko-sir。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

kosir蘭徹

專欄作者

發(fā)私信

當(dāng)月熱門文章