1
本文作者: 楊曉凡 | 2017-07-17 23:41 |
雷鋒網(wǎng) AI 科技評論按:上周我們報道了谷歌的一項研究 “數(shù)據(jù)為王”是真的嗎?谷歌輕撫著100倍的數(shù)據(jù)量點了點頭 - 雷鋒網(wǎng),它直觀地體現(xiàn)了更多訓(xùn)練數(shù)據(jù)可以帶來更好的結(jié)果,但連線(WIRED)的這篇文章就表示了對這一結(jié)果的擔(dān)憂。雷鋒網(wǎng) AI 科技評論對原文編譯如下。
上一周,谷歌又發(fā)布了一項破紀(jì)錄的AI研究,不過這次的研究結(jié)果是對目前 AI 商業(yè)化熱潮的一盆冷水。傳統(tǒng)上大家都認(rèn)為科技企業(yè)的生態(tài)系統(tǒng)是靠小公司顛覆大公司、大公司隨之瓦解,從而保持創(chuàng)新和非壟斷的,消費者和整個科技經(jīng)濟(jì)都逐漸變得越來越依賴這種模式??墒钱?dāng)科技競爭的武器成為機(jī)器學(xué)習(xí),而機(jī)器學(xué)習(xí)又需要用海量數(shù)據(jù)訓(xùn)練的時候,想要正面打敗一個科技巨頭就會變得前所未有地難。
這項谷歌與CMU(卡耐基梅隆大學(xué))合作進(jìn)行的圖像識別研究開支非常高,它占用了50個高性能 GPU整整2個月的時間,而且用到的帶標(biāo)簽圖像數(shù)量也達(dá)到了史無前例的3億張(這個領(lǐng)域多數(shù)的研究用到的標(biāo)準(zhǔn)數(shù)據(jù)庫大小僅僅是1百萬張圖像而已)。這項研究的目的是測試有沒有辦法繼續(xù)提升圖像識別的正確率,尤其不是靠優(yōu)化現(xiàn)有算法,而僅僅靠十倍的、上百倍的數(shù)據(jù)。
實驗結(jié)果是肯定的。在谷歌和CMU的研究人員用嘆為觀止的3億張圖片的新數(shù)據(jù)庫訓(xùn)練了一個標(biāo)準(zhǔn)的圖像識別系統(tǒng)以后,他們表示這個系統(tǒng)在多項圖像理解測試中的表現(xiàn)都創(chuàng)下了新高。比如識別照片中的物體,算法的識別準(zhǔn)確率和訓(xùn)練所用的數(shù)據(jù)量之間有明顯的正相關(guān)。AI研究界的上空曾經(jīng)盤踞著這個問題,“僅僅靠更多的訓(xùn)練數(shù)據(jù)能否從現(xiàn)有算法壓榨出更多的潛能”,這次谷歌和CMU的研究結(jié)果就可以算是給出了明確的答案。
這種對于已經(jīng)很多的數(shù)據(jù)還能得到“更多數(shù)據(jù)=更好表現(xiàn)”的結(jié)果提醒了大家,谷歌、Facebook、微軟這樣的擁有大量數(shù)據(jù)的科技巨頭占據(jù)的優(yōu)勢可能要比之前普遍認(rèn)為的還要大。目前看起來谷歌的3億張圖片的數(shù)據(jù)庫帶來的提升并不算大,訓(xùn)練數(shù)據(jù)從一百萬增加到3億也僅僅提升了3%的物體識別正確率,但是論文作者們表示,他們覺得可以把軟件部分調(diào)整得更適合超大量的數(shù)據(jù),從而進(jìn)一步擴(kuò)大數(shù)據(jù)量帶來的優(yōu)勢。即便最后的結(jié)果沒有那么理想,科技界中微小的優(yōu)勢也可能會帶來顯著的影響,比如自動駕駛汽車的視覺系統(tǒng)識別準(zhǔn)確率繼續(xù)提升一點點都舉足輕重,產(chǎn)品的每一點點效率提升也都可以帶來十幾億的營收增長。
對于把 AI 作為發(fā)展核心的公司們來說,囤積數(shù)據(jù)作為一種防御策略已經(jīng)得到了充分的討論和執(zhí)行。谷歌、微軟等等公司已經(jīng)開源了許多軟件甚至硬件設(shè)計,給更多人提供了豐富的工具,但是對喂給這些工具的數(shù)據(jù)卻是越發(fā)守口如瓶??萍脊敬_實會發(fā)布一些數(shù)據(jù),谷歌去年發(fā)布了一個來自7百萬個YouTube視頻的大型數(shù)據(jù)集,Salesforce也發(fā)布了一個來自Wikipedia的數(shù)據(jù)集用于讓機(jī)器學(xué)習(xí)模型學(xué)習(xí)人類語言。但是 AI 開發(fā)實驗室 Manifold 的合伙人、勞倫斯伯克利國家級實驗室的訪問學(xué)者 Luke de Oliveira說,(正如我們所想的那樣)這些公開的數(shù)據(jù)對潛在的競爭者來說往往沒有多少價值?!澳切绊懽约耶a(chǎn)品保持市場地位的關(guān)鍵數(shù)據(jù),他們是永遠(yuǎn)也不會公開的”,他說。
谷歌和CMU的研究者確實表示他們希望這項對于海量數(shù)據(jù)價值的研究可以催生出跟谷歌的數(shù)據(jù)規(guī)模類似的超大規(guī)模開源圖像數(shù)據(jù)集?!拔覀冇芍缘叵M@項研究可以激勵視覺研究社區(qū)重視數(shù)據(jù)的重要性,并且集合多方力量建立更大的數(shù)據(jù)集”,他們寫道。CMU的 Abhinav Gupta也參與了這項研究,他說有一種方法是與通用視覺數(shù)據(jù)基金會(Common Visual Data Foundation)合作;這是一家由Facebook和微軟發(fā)起的非營利機(jī)構(gòu),它就已經(jīng)發(fā)布過一些開源圖片數(shù)據(jù)集。
與此同時,手中數(shù)據(jù)少的公司如果想在數(shù)據(jù)的“富人”能靠數(shù)據(jù)變得更聰明的世界中生存下來,得自己變得有創(chuàng)意一點。初創(chuàng)公司DataRobot的CEO Jeremy Achin就猜測小公司們之間可能會共享數(shù)據(jù)來讓他們的風(fēng)險預(yù)測能力可以與體量大的競爭對手匹敵。這種做法以前在保險業(yè)中見過,未來可能變得越來越普遍,因為機(jī)器學(xué)習(xí)已經(jīng)在越來越多的各界企業(yè)中展現(xiàn)了它的重要性。
未來機(jī)器學(xué)習(xí)的發(fā)展如果能夠降低對數(shù)據(jù)量的需求,是有可能顛覆當(dāng)下 AI 的“數(shù)據(jù)”生態(tài)的,Uber去年就收購了一家做這方面研究的公司。不過即便現(xiàn)在也可以嘗試回避局內(nèi) AI 玩家的常見數(shù)據(jù)優(yōu)勢。一家研究如何提高機(jī)器學(xué)習(xí)易用性的公司 Fast.ai 的聯(lián)合創(chuàng)始人 Rachel Thomas 說,初創(chuàng)公司可以另辟戰(zhàn)場,在互聯(lián)網(wǎng)巨頭的視野之外尋找機(jī)器學(xué)習(xí)的應(yīng)用場景從中獲利,比如農(nóng)業(yè)方面?!拔矣X得這些大公司不見得在每個地方都有很大的優(yōu)勢,其實許多特定領(lǐng)域內(nèi)的數(shù)據(jù)根本就沒人收集”,她說。在她看來即便是人工智能的巨頭也會有盲點。
相關(guān)文章:
中科視拓CTO山世光:如何用X數(shù)據(jù)驅(qū)動AI成長? | CCF-GAIR 2017
菜鳥網(wǎng)絡(luò)算法專家朱禮君:物流優(yōu)化問題在大數(shù)據(jù)時代被賦予新的意義? | CCF-GAIR 2017
“數(shù)據(jù)為王”是真的嗎?谷歌輕撫著100倍的數(shù)據(jù)量點了點頭
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。