數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

本文作者：胡嘉琪TakeeWOO

2017-10-16 11:32

導(dǎo)語：海量的標(biāo)注數(shù)據(jù)，加上簡單粗暴的前向/后向傳播計算，也許并不是人工智能未來的全部

雷鋒網(wǎng)按：本文作者胡嘉琪，雷鋒網(wǎng)專欄作者。

在最近結(jié)束的2017年度AI星際爭霸競賽上，F(xiàn)acebook做出了一款人工智能“CherryPi”，參與到這項旨在讓各路AI技術(shù)在星際爭霸游戲中同場競技的賽事之中。

但很遺憾的是，F(xiàn)acebook僅僅獲得了賽事的第六名，最直接的原因，在于Facebook堅持在CherryPi的研發(fā)中主要使用機器學(xué)習(xí)技術(shù)，而非像其他大多數(shù)參與者那樣使用純粹的預(yù)設(shè)編碼腳本。預(yù)設(shè)編碼腳本即通過人工方式預(yù)編程了非常復(fù)雜的游戲策略腳本，讓程序根據(jù)腳本按圖索驥機械式執(zhí)行游戲。面對這些實際上并不能稱為人工智能的對手，F(xiàn)acebook自家主要基于AI技術(shù)的CherryPi基本處于劣勢，最終僅能獲得第六名。隨便提一下今年這項賽事的獲勝者是一名對星際爭霸游戲本身有深刻理解的業(yè)余人士所編制的腳本機器人。當(dāng)然Facebook的失敗并不意外，因為目前要純粹靠人工智能去挑戰(zhàn)攜帶了大量人類游戲先驗知識的腳本機器人，本身就是一場不對等的較量。

數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

（2017年星際爭霸AI大賽排行榜）

如果說Facebook的人工智能技術(shù)雖然最終未能取得好成績，但尚且能和人類精心編制的腳本機器人一戰(zhàn)的話，那發(fā)明了AlphaGo的DeepMind目前則被星際爭霸2徹底玩壞了。

DeepMind與星際爭霸2

此前，DeepMind和星際爭霸系列制作公司暴雪聯(lián)合推出了星際爭霸2的機器學(xué)習(xí)平臺sc2le，DeepMind借此希望在繼AlphaGo后在星際爭霸2上繼續(xù)挑戰(zhàn)人類，但令人失望的是，目前DeepMind在星際爭霸2上進展緩慢。在今年7月底，DeepMind發(fā)表了一篇論文《StarCraft II: A New Challenge for Reinforcement Learning》系統(tǒng)闡述了他們在星際爭霸2中的進展，在論文中DeepMind承認了目前的深度學(xué)習(xí)與增強學(xué)習(xí)框架在星際爭霸2中并無任何理想的結(jié)果（...However, when trained on the main game, these agents are unable to make significant progress），AI甚至還遠遠比不上游戲自帶的簡單電腦（很弱的腳本機器人）。既然在全局游戲中表現(xiàn)非常差，DeepMind不得不退而求其次，設(shè)計了7個星際爭霸2的迷你游戲，包括：

1. 尋路（“MoveToBeacon”）；
2. 收集散落水晶（“CollectMineralShards”）；
3. 尋找并消滅小狗（“FindAndDefeatZerglings”）；
4. 消滅蟑螂（“DefeatRoaches”）；
5. 消滅小狗和毒爆蟲（“DefeatZerglingsAndBanelings”）；
6. 收集水晶和氣（“CollectMineralsAndGas”）；
7. 訓(xùn)練機槍兵（“BuildMarines”）；

在上面難度相當(dāng)于Atari小游戲的迷你任務(wù)中，DeepMind的人工智能的表現(xiàn)才勉強達到合格線。下圖是DeepMind在論文中總結(jié)的任務(wù)得分數(shù)據(jù)，在尋找并消滅小狗和消滅蟑螂游戲中AI接近、超越了普通人類玩家（DeepMind 自家工作人員），在尋路上接近了人類高手。

數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

（DeepMind在7個迷你游戲的表現(xiàn)得分）

然而，上述7個迷你游戲相對于星際爭霸2的全局游戲相差懸殊，DeepMind通過迷你游戲的設(shè)計將星際爭霸2人工智能試驗降低到Atari小游戲級別的難度，并不意味著人工智能在星際爭霸2這款類似人類現(xiàn)實世界對抗/戰(zhàn)爭簡化模擬的游戲上有太多顯著的突破。而究其原因，在于星際爭霸2的決策空間巨大，涉及了在收集資源、建設(shè)建筑、訓(xùn)練部隊、局部戰(zhàn)術(shù)等方面的海量決策，其決策空間遠高于只有落子一個動作的圍棋。另外更要命的是，RTS游戲由于進程較長，其策略的回報（reward）趨向長期，即意味著難以定義類似于Atari游戲中Agent非常明確的回報，這使得DeepMind在Atari游戲中屢試不爽的Reinforcement Learning變得難以湊效。

于是DeepMind似乎希望后續(xù)把研究回歸到傳統(tǒng)的監(jiān)督學(xué)習(xí)方向，借助海量的星際爭霸2人類玩家對局replay數(shù)據(jù)去優(yōu)化學(xué)習(xí)的效果。在論文中通過replay增強學(xué)習(xí)后，Agent在采礦和造兵上等任務(wù)上相比此前自學(xué)有了顯著的提升。

之所以說了這么多AI與星際爭霸2的事情，是因為從中我們可以看到一個關(guān)鍵性的現(xiàn)象：在類似于星際爭霸2這種復(fù)雜任務(wù)（決策空間巨大）之中，在計算機視覺、機器翻譯、語音識別等領(lǐng)域取得了巨大成功的主流深度學(xué)習(xí)方法，事實上難以取得太多的成果，甚至連DeepMind也承認，在星際爭霸2的嘗試中他們遇到的困難遠遠高于此前的估計。而這是因為，當(dāng)前的主流深度學(xué)習(xí)方法并不完美，其一切都是建立在海量的訓(xùn)練數(shù)據(jù)基礎(chǔ)上。

算法不夠，數(shù)據(jù)來湊

眾所周知，目前深度學(xué)習(xí)在人工智能中所取得的成功，實際上建立在三大驅(qū)動因素上：算法、數(shù)據(jù)和算力。首先主流的深度學(xué)習(xí)算法近年來變化越來越少，同時深度網(wǎng)絡(luò)的架構(gòu)本身似乎對于效果的產(chǎn)出正在減弱，而真正讓主流深度學(xué)習(xí)方法在計算機視覺、機器翻譯、語音識別等領(lǐng)域取得了巨大成功的關(guān)鍵驅(qū)動力是數(shù)據(jù)。深度學(xué)習(xí)區(qū)別于傳統(tǒng)機器學(xué)習(xí)方法的最大特征，是深度學(xué)習(xí)可以使用海量的數(shù)據(jù)去提升自身的表現(xiàn)（Performance），這可以用一幅經(jīng)典的圖表去展示。下圖中橫坐標(biāo)是使用的訓(xùn)練數(shù)據(jù)量，縱坐標(biāo)是算法表現(xiàn)，傳統(tǒng)的機器學(xué)習(xí)算法往往在數(shù)據(jù)量超過一定的閾值后，其表現(xiàn)就難以繼續(xù)隨著訓(xùn)練數(shù)據(jù)量而提升，更多的數(shù)據(jù)輸入僅僅是浪費；而大型的深度神經(jīng)網(wǎng)絡(luò)模型猶如一只大水桶，在裝入了更多的數(shù)據(jù)后其表現(xiàn)能夠繼續(xù)攀升，數(shù)據(jù)成為了深度學(xué)習(xí)的核心驅(qū)動力，缺乏了海量的標(biāo)注數(shù)據(jù)，深度學(xué)習(xí)的效果并不會比傳統(tǒng)機器學(xué)習(xí)方法有太大的改善。而最后算力是保障如此巨大的海量數(shù)據(jù)能跑在深度學(xué)習(xí)框架上的基礎(chǔ)能力，從某種角度理解NVIDIA的股價，是建立在數(shù)據(jù)科學(xué)界需要將海量數(shù)據(jù)注入深度神經(jīng)網(wǎng)絡(luò)并進行大量前向/方向傳播的基礎(chǔ)上。

數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

（來源于Andrew Ng神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)課程）

甚至，我們能以以下公式描述當(dāng)今的人工智能業(yè)態(tài)：

當(dāng)今人工智能 = 海量的標(biāo)注數(shù)據(jù) + 簡單粗暴的前向/后向傳播計算

于是AI界開始了標(biāo)注數(shù)據(jù)收集的軍備競賽，類似Amazon Mechanical Turk的數(shù)據(jù)標(biāo)注眾包平臺不斷涌現(xiàn)，而自身具備了海量數(shù)據(jù)資源的BAT或者搜狗，一夜之間在語音識別準(zhǔn)確率上紛紛接近甚至超越了在語音識別深耕了超過十年的科大訊飛。標(biāo)注數(shù)據(jù)的價值，讓大數(shù)據(jù)時代一句經(jīng)典的話——“數(shù)據(jù)即將成為新時代的電力”變得前所未有的真實。一個個如ImageNet等人工智能競賽中不斷被打破的準(zhǔn)確率記錄，其背后是無數(shù)的人力物力被投入到高質(zhì)量的標(biāo)注數(shù)據(jù)之中，人工智能一定程度上，甚至可以理解為有多少人工，被投入到數(shù)據(jù)標(biāo)注之中，就能有多少智能。

然而，過分依賴海量標(biāo)注數(shù)據(jù)的主流深度學(xué)習(xí)方法目前面臨了越來越多的挑戰(zhàn)，首先在某些標(biāo)注數(shù)據(jù)難以收集或者收集代價很大的領(lǐng)域，讓AI應(yīng)用的建立變得舉步維艱，比如在智慧醫(yī)療中，高質(zhì)量的醫(yī)學(xué)影像標(biāo)注數(shù)據(jù)收集門檻非常高。另外更為重要的是，海量標(biāo)注數(shù)據(jù)+深度學(xué)習(xí)框架+GPU并行計算的簡單粗暴模式，在越來越多領(lǐng)域被證明或許沒有大家想象的那么管用，上一節(jié)DeepMind在星際爭霸2中的努力是其中一個案例。

究其原因，當(dāng)下主流的深度學(xué)習(xí)方法或許并不是最優(yōu)的范式。目前有越來越多的人在反思深度學(xué)習(xí)的局限和缺陷，甚至包括了深度學(xué)習(xí)之父Geoffrey Hinton本人。大多數(shù)學(xué)習(xí)過深度學(xué)習(xí)的人基本都練習(xí)過經(jīng)典的cats vs dogs（貓狗大戰(zhàn)）數(shù)據(jù)集，即從數(shù)萬張已標(biāo)注的貓咪和狗狗照片，訓(xùn)練神經(jīng)網(wǎng)絡(luò)判斷一張圖片的類別。但對于人類而言，我們并不需要如此大量的標(biāo)注去讓我們學(xué)習(xí)一種動物是貓咪，即使對于一個從來不知道貓的幼兒，在見過幾次貓之后就能認知到這種實際上是一種區(qū)別于其他動物的物種，哪怕不知道它的語言名稱，當(dāng)某一天有人告訴她這種生物叫“貓咪”后，只需要這一次“標(biāo)注”（One-shot learning），她以后就能準(zhǔn)確分辨出每一只貓。然而對于當(dāng)前深度學(xué)習(xí)來說，依賴的是大量的數(shù)據(jù)標(biāo)注，這種One-shot learning是極其艱難的挑戰(zhàn)。

數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

在這里，我們能總結(jié)性地說一句，大數(shù)據(jù)讓深度學(xué)習(xí)插上了騰飛的翅膀，但同樣也成為了深度學(xué)習(xí)飛翔到更多領(lǐng)域的障礙。畢竟在很多領(lǐng)域海量的標(biāo)注數(shù)據(jù)不是那么容易獲取，甚至“標(biāo)注”本身也是一項極其難定義的事情，比如在星際爭霸2中，我們應(yīng)該如何更好地標(biāo)注replay數(shù)據(jù)，讓AI能更好地進行監(jiān)督學(xué)習(xí)？甚至進一步說，這種標(biāo)注行為也許并不是一個明智的選擇，正如人類并不需要在學(xué)會玩星際爭霸之前，首先得看成千上萬場別人的replay去學(xué)習(xí)各種玩法。

人工智能的下半場

在計算機視覺、機器翻譯、語音識別等標(biāo)注數(shù)據(jù)獲取相對代價低廉的領(lǐng)域，誠然我們看到了主流深度學(xué)習(xí)方法所取得的巨大成功，這不僅是孜孜不倦積累30多年的深度神經(jīng)網(wǎng)絡(luò)技術(shù)的集中爆發(fā)，也使得深度學(xué)習(xí)引領(lǐng)人工智能進入了目前的熾熱狀態(tài)。但必須實事求是地說，越來越多的證據(jù)表明，當(dāng)前主流深度學(xué)習(xí)方法也許并不是一項普適性技術(shù)，在更多類似星際爭霸2等任務(wù)極其復(fù)雜、數(shù)據(jù)難以標(biāo)注的領(lǐng)域，也許我們需要的是新的方法。

深度學(xué)習(xí)之父Geoffrey Hinton最近公開號召摒棄現(xiàn)有深度學(xué)習(xí)（主要是反向傳播、CNN）范式，重新奮力向前尋找全新的道路。Hinton認為，要想讓神經(jīng)網(wǎng)絡(luò)能夠自己變得智能，即實現(xiàn)不依賴海量標(biāo)注數(shù)據(jù)的“無監(jiān)督學(xué)習(xí)”，意味著需要放棄反向傳播等目前主流深度學(xué)習(xí)理念。對于在深度學(xué)習(xí)領(lǐng)域中，地位猶如愛因斯坦于物理學(xué)界的Hinton，要質(zhì)疑甚至推翻自身花費了十幾年心血所建立的主流深度學(xué)習(xí)方法，必然是需要具備極其巨大勇氣的，我們甚至可以合理推測，Hinton老爺子心中必定是對人工智能未來有了新的vision，才能驅(qū)使他堅定地做出如此艱難的選擇。

數(shù)據(jù)依賴癥：當(dāng)今AI領(lǐng)域的核心風(fēng)險

當(dāng)然，也許只有類似Hinton等極少數(shù)人才能擁有對于未來技術(shù)演進的vision，但立足于對當(dāng)前業(yè)態(tài)的觀察，我們也能發(fā)現(xiàn)目前主流深度學(xué)習(xí)的勢能似乎已經(jīng)在逐漸減弱，也許這就是當(dāng)前人工智能業(yè)界最大的風(fēng)險所在。

海量的標(biāo)注數(shù)據(jù)，加上簡單粗暴的前向/后向傳播計算，也許并不是人工智能未來的全部，從今天開始，我們最好把這點記在心中。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。