0
本文作者: 李秀琴 | 2017-12-28 12:25 |
雷鋒網(wǎng)注:IBM全球杰出工程師、IBM 研究院認知系統(tǒng)全球研究負責人林詠華
雷鋒網(wǎng)按:2017年可謂AI元年,全球各行各業(yè)皆在此多有投入。然而,在這火熱背后,又有多少理性?甚或人云亦云?日前,IBM全球杰出工程師、IBM 研究院認知系統(tǒng)全球研究負責人林詠華向外談論了她對AI領域的洞察和見解,并表達了她對“如何才能享受AI帶來的紅利”的看法(本文來自APICloud的投稿)。
林詠華認為,人工智能目前的火爆與其可實驗性密切相關,任何一個開發(fā)者或大學生都可以借助開源社區(qū)的力量進行AI實驗性的嘗試。
對于那些AI技術基礎比較薄弱的企業(yè),若想享受AI帶來的紅利,林詠華認為,首先應解決目前的兩大難題:人才和數(shù)據(jù)。AI人才由于稀缺性而越來越貴;數(shù)據(jù)則因大多數(shù)都來自互聯(lián)網(wǎng),與其真正應用的細分領域如醫(yī)療、教育等無直接關系,這也在某種程度上阻礙了AI的進程。因此,這些企業(yè)更應該找準AI技術在自身業(yè)務領域的定位,想好未來產(chǎn)品的戰(zhàn)略,并抓好進入市場的時機。
而對于未來幾年,AI將在哪些領域?qū)崿F(xiàn)大規(guī)模應用的問題,林詠華認為,一個新的 AI 技術是否可以大規(guī)模投入市場,還應該視這個市場對該技術的差錯的容忍程度高低而定。
以下是林詠華接受 “AI時代的移動技術革新”大會主辦方的采訪實錄,雷鋒網(wǎng)對其做了不改變原意的編輯。
如何看待當下的人工智能熱潮?有多少是理性驅(qū)使,又有多少是人云亦云?
人工智能目前無論在企業(yè)還是投資界都是被火爆地追逐著。說實在話,當IBM在 2011年構建出 Watson,并首次在智力競賽中打敗最優(yōu)秀的人類選手時,能預見人工智能對未來業(yè)界發(fā)展的重要性,但沒有想象到這種人人談人工智能的火爆局面。
縱觀整個信息技術在過去10年的發(fā)展,無論是10年前移動通信的發(fā)展熱潮,還是5年前云計算的風起云涌,都沒有今天人工智能被關注的廣泛性和火爆性。原因是什么呢?是今天人工智能的可實驗性遠遠高于之前的信息科技。
這個“可實驗性”是指一個開發(fā)者、一個大學生,甚至會編程的中學生都可以進行人工智能實驗性的嘗試。它來源于整個開源社區(qū)在代碼和數(shù)據(jù)上的整體貢獻, 得益于整個信息科技領域?qū)﹂_源文化的推動,也得益于幾個大的人工智能會議對被錄用文章的數(shù)據(jù)和代碼的公開性要求。
在過去幾年,圍繞深度學習、神經(jīng)網(wǎng)絡等算法的代碼以及公開數(shù)據(jù)集層出不窮。一個開發(fā)者,只需要懂 Python,就可以在一天之內(nèi)構建起一個開發(fā)環(huán)境,并把開源的代碼跑起來。利用開源的數(shù)據(jù)集,就可以重現(xiàn)別人的結(jié)果。
一個新的人工智能研究方向出現(xiàn),就伴隨著一些優(yōu)秀的數(shù)據(jù)集公開。例如,當年李飛飛主導的 ImageNet 為今天的圖象識別奠定了最大的數(shù)據(jù)集基礎,今年12月 MIT IBM Watson Lab 為了推動視頻中的動作識別,共同推出的百萬量級的視頻動作數(shù)據(jù)集。所有的這些貢獻,都是為了降低大家實驗的難度,推動業(yè)界更快速地解決人工智能中的難題。在這種人人都可以嘗試的氛圍下,既推高了大家對這個領域的關注和興趣,必然也帶來了人云亦云的火爆。
但是,這是否就代表了今天在學術界解決了的問題,相關的技術已經(jīng)可以大量地使用到工業(yè)界呢?我覺得大家需要看到工業(yè)界和學術界之間的差距。之前我也看到一些人工智能領域的專家進行了許多分析,我這里就討論兩點:
第一是數(shù)據(jù)的差異。
數(shù)據(jù)是人工智能必不可少的用于訓練機器的輸入。而今天能在公開途徑獲得的數(shù)據(jù)集絕大多數(shù)都是非商業(yè)用途數(shù)據(jù),是從互聯(lián)網(wǎng)上積累的數(shù)據(jù)。真正用于工業(yè)場景的高價值數(shù)據(jù)是難以放到公開數(shù)據(jù)集中,也難以讓千千萬萬研究者進行算法研究的。
IBM 研究院在醫(yī)療、汽車駕駛、生產(chǎn)制造等重要行業(yè)領域與相關企業(yè)進行人工智能合作研究。在這些行業(yè)和企業(yè)中,我們遇到了大量公開數(shù)據(jù)集所沒有的數(shù)據(jù)分布。在面對行業(yè)生產(chǎn)部署的嚴苛要求時,我們一些已有的研究是不適用的,許多在頂級會議中號稱的最佳結(jié)果也是不適用的。因此,這里需要我們腳踏實地,深入工業(yè)行業(yè)進行人工智能的研究和開發(fā)。
第二是人工智能系統(tǒng)本身的成本。
把人工智能用到工業(yè)界,我們需要認真審視它附加到現(xiàn)有產(chǎn)品上的成本開銷。以視頻監(jiān)控為例,在視頻監(jiān)控中使用人工智能是一個很熱的話題。今天,使用人臉識別、人或車輛的自動捕捉進行初步的視頻分析已經(jīng)開始廣泛使用在城市、公共安全等領域。
其實基于計算機視覺的人工智能可以做得更多,它可以檢測和識別各種物體(而不僅僅是人或車輛),檢測人的各種動作等等。但基于深度學習的目標檢測算法往往需要大量的GPU計算資源。基于今年最新的GPU硬件能力,一塊高性能的GPU也就只能支持3~4路視頻的復雜目標檢測(單個模型)。平攤到每路視頻,就要大約1000~2000美金的硬件成本。相比起目前4K攝像頭的成本,將近是10倍的成本差異。
如果我們進一步考慮動作檢測,使用光流計算或3D深度學習或者更復雜的算法,這個成本的疊加更加難以接受。所以,在人工智能向前行進時,我們需要更多的研究和創(chuàng)新,去解決全系統(tǒng)的優(yōu)化問題,而絕對不能只停留在單一的功能或精準度的層面。
對于在 AI 領域技術基礎比較薄弱的企業(yè),如何才能享受到 AI 帶來的紅利?
為什么今天的企業(yè)都爭先恐后的想要進入 AI 領域?他們是希望成為像 IBM、Google 這樣的 AI 公司,每年到 AAAI 或 NIPS 發(fā)幾篇文章嗎?答案當然不是。企業(yè)想進入 AI 領域,還是希望在自己的業(yè)務領域能獲得新的增長點,希望借用 AI 的力量能打造出新的產(chǎn)品贏得更多市場份額,希望通過 AI 能把已有的產(chǎn)品提升一個水平從而更快地擊敗市場上的競爭對手。
所以,對于這些希望利用 AI 技術的企業(yè)而言有兩點是重要的。
第一,找準 AI 技術在自身業(yè)務領域的定位,也就是未來產(chǎn)品的戰(zhàn)略思考。這一點是無論如何不能由別的公司代替你去思考的,因為只有企業(yè)自己最了解自身的業(yè)務領域、發(fā)展機遇和企業(yè)現(xiàn)狀。
第二,Time-to Market,時間是十分寶貴的。在目前信息平坦的年代,市場機遇的賽跑就是時間的賽跑。
對于各個行業(yè)的企業(yè),如果希望享受到人工智能帶來的紅利,需要自身花更多時間去思考和策劃上面提到的第一點問題(產(chǎn)品戰(zhàn)略),而在第二點(Time-to Market)上,需要懂得借助外力。今天,在與時間賽跑的過程中,企業(yè)面臨的最大挑戰(zhàn)是人才和數(shù)據(jù)的問題。如何“借助外力”,往往也是企業(yè)猶豫的。
人才
如果像傳統(tǒng)的購買企業(yè)服務模式來解決人才問題,對于一些行業(yè)會行不通。對于許多行業(yè),他們的數(shù)據(jù)是具有高度保密的性質(zhì),不能把這些數(shù)據(jù)都交由第三方公司進行數(shù)據(jù)訓練和分析。此外,企業(yè)的生產(chǎn)環(huán)境所針對的數(shù)據(jù)類型也會隨著時間有所改變,例如零售業(yè)中貨架的商品品類,生產(chǎn)線上產(chǎn)品的批次改變等。因此,哪怕企業(yè)交由第三方公司開發(fā)了一個機器學習的模型,是否之后所有在生產(chǎn)環(huán)境中的變化都要依賴第三方公司進行調(diào)整呢?所以,在引入 AI 技術的過程中,企業(yè)往往會在“人才培養(yǎng)時間過長”和“把控產(chǎn)品”之間猶豫。
數(shù)據(jù)
在人才的問題之后,另一個困擾企業(yè)的問題是數(shù)據(jù)的問題。
過去幾年,深度學習的成功是基于海量的互聯(lián)網(wǎng)開源數(shù)據(jù)。但這些數(shù)據(jù)都是互聯(lián)網(wǎng)的數(shù)據(jù),和企業(yè)希望解決的問題(如特定病種的醫(yī)療影像、產(chǎn)品質(zhì)量的影像等等)沒有直接的關系。所以,當需要使用 AI 技術來賦能自己的業(yè)務領域時,企業(yè)需要自己準備業(yè)務場景的數(shù)據(jù)集,也需要由具備專業(yè)領域知識的人員來標注數(shù)據(jù)集。因此,準備數(shù)據(jù)這個過程本身就極耗時間和人力。
另外,企業(yè)往往會面臨數(shù)據(jù)不足的問題,尤其是需要高度關注的數(shù)據(jù)類型。例如,在醫(yī)療影像中,往往有著各種癥狀的數(shù)據(jù)比健康人群的數(shù)據(jù)更為重要;在生產(chǎn)制造中,有著各種瑕疵問題的數(shù)據(jù)比質(zhì)量正常的產(chǎn)品數(shù)據(jù)更需要關注;在汽車駕駛中,在各種惡劣天氣路況下的數(shù)據(jù)比正常天氣和光照的時候獲得的數(shù)據(jù)更需要我們注意。但這些數(shù)據(jù)往往是小概率情況下的數(shù)據(jù)。
因此,如何針對這些數(shù)量稀少卻又十分重要的數(shù)據(jù)進行機器學習呢?不解決好這個問題,就難以把 AI 真正用到工業(yè)界場景。意識到這個問題的重要性,IBM 研究院確立了一系列針對小數(shù)據(jù)(Small Dataset)的研究,基于遷移學習、數(shù)據(jù)增強等課題進行深入研發(fā)。這些技術也應用到了 IBM 的 Watson 及企業(yè) AI 開發(fā)平臺(PowerAI)之上,直接幫助企業(yè)解決數(shù)據(jù)的問題。
未來幾年內(nèi),哪些 AI 應用可以大規(guī)模投入市場?哪些還需要更長時間的研究及驗證?
由于業(yè)界的你追我趕,AI 儼然是在一個高速跑道上發(fā)展。大家對短期的定義是1~2年,中長期是3~5年。一個新的 AI 技術是否可以大規(guī)模投入市場,應該看這個市場對該技術的差錯容忍程度的高或低,例如,該技術能有 80% 的準確度就可以被接受,還是需要有 95%,甚至 99% 的準確度才可以?
記得在 2015 年,一個玩具廠商推出了 CogniToys(一個能跟孩子對話的綠色小恐龍),當年還被評為“2015 年度最佳玩具”。其實當年 CogniToys 的對話能力比今天國內(nèi)好些公司推出的智能音箱要差好些。但因為 CogniToys 只是一個玩具產(chǎn)品,它不需要有很高的準確度。跟孩子的對話對一句錯一句也沒有多大關系。所以在 2015 年,哪怕機器對話技術還不成熟,也不能阻擋 CogniToys 在亞馬遜上熱賣。但是,同樣的對話技術,如果我們用于要求嚴謹?shù)尼t(yī)療行業(yè),或銀行理財行業(yè),就需要有更長的技術成熟期。
又例如,有一些技術今天可能只做到 90% 的準確率,如果我們希望在未來 1~2 年能廣泛使用,就需要從應用場景上進行折中。折中的手法可以是多樣的,例如加入人為判定。我們在 top1 的準確率不夠的情形下,可以提供給用戶 top5 的識別結(jié)果,讓用戶再從 top5 人為判斷。
通過這樣的手法,可以讓某些 AI 技術加快在一些領域的使用。當然,可以使用這樣折中手法的應用領域,必須不是工業(yè)控制領域的。對于需要實時控制的系統(tǒng)領域,包括無人駕駛、自動化控制等,都必須有完全高準確率的要求。而這種對高準確率有完全硬性要求的應用場景,必然需要更長時間的研究和驗證。
哪怕同一個技術,同一個工業(yè)領域,放在不同的地區(qū)使用,也會有時間的先后問題。例如,使用 AI 技術進行無人駕駛,目前多個廠商都先挑選諸如特定場區(qū)工程車輛、園區(qū)班車等,因為路況相對單一和簡單。我們最近到印度參展,看到印度的汽車行業(yè),就連輔助駕駛的研發(fā),也都才剛剛開始。重要原因就是該地區(qū)的路況復雜度遠高于美國和中國。所以,無人駕駛?cè)绻谟《嚷涞兀蛟S需要 3~5 年的時間。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。