0
本文作者: 恒亮 | 2017-01-17 09:43 |
提起Jeremy Howard,人工智能和大數(shù)據(jù)領(lǐng)域的從業(yè)者們可謂無(wú)人不知無(wú)人不曉。
他是Enlitic、FastMail、Optimal Decisions Group三家科技公司的創(chuàng)始人兼CEO,是大數(shù)據(jù)競(jìng)賽平臺(tái)Kaggle的前主席和首席科學(xué)家,是美國(guó)奇點(diǎn)大學(xué)(Singularity University)最年輕的教職工,是在2014達(dá)沃斯論壇上發(fā)表主題演講的全球青年領(lǐng)袖,他在 TED 上的演講《The wonderful and terrifying implications of computers that can learn》收獲了近200萬(wàn)的點(diǎn)擊…
顯然,他是一個(gè)閑不住的人。為了讓深度學(xué)習(xí)技術(shù)被更多的人理解和使用,Jeremy Howard近期又創(chuàng)立了一個(gè)名為 fast.ai 的技術(shù)分享平臺(tái)。該平臺(tái)不但免費(fèi)提供關(guān)于深度學(xué)習(xí)技術(shù)的系列視頻教程(例如由Jeremy Howard本人講授的“Practical Deep Learning For Coders”),同時(shí)也可以直接幫助從業(yè)者和用戶(hù)開(kāi)發(fā)簡(jiǎn)單快捷的軟件產(chǎn)品。近日,Jeremy Howard在采訪(fǎng)中就 fast.ai、深度學(xué)習(xí)、Kaggle 和大數(shù)據(jù)等話(huà)題發(fā)表了自己的看法,以下為采訪(fǎng)原文,由雷鋒網(wǎng)編譯。
問(wèn)題1:能否為大家介紹一下您最近創(chuàng)立的fast.ai平臺(tái)及其未來(lái)規(guī)劃?還有就是“Practical Deep Learning For Coders”系列教程和一般的深度學(xué)習(xí)教程究竟有何不同?
網(wǎng)上有許多深度學(xué)習(xí)的課程,但我認(rèn)為其中沒(méi)有一個(gè)能滿(mǎn)足我們目前最重要的需求。我們想向人們展示如何選擇和使用最有效的深度學(xué)習(xí)技術(shù)來(lái)解決他們的特定問(wèn)題。我們想讓課程盡可能地容易接受,深入淺出,而不是把簡(jiǎn)單問(wèn)題復(fù)雜化。
此前的教學(xué)方式要么需要深厚的數(shù)學(xué)積累(如牛津的課程),要么就跳過(guò)了基礎(chǔ)性的講解,試圖直接用深度學(xué)習(xí)技術(shù)來(lái)解決高階的問(wèn)題(如Udacity的課程),這兩種類(lèi)型的教程顯然都不是最好的。
從團(tuán)隊(duì)成員自身的科研經(jīng)歷中我們發(fā)現(xiàn),雖然深度學(xué)習(xí)技術(shù)的確可以提供許多高水平的運(yùn)算結(jié)果,但獲得這些結(jié)果的過(guò)程其實(shí)是需要大量的細(xì)節(jié)處理的。通常情況下,處理這些細(xì)節(jié)問(wèn)題的關(guān)鍵點(diǎn)并不會(huì)出現(xiàn)在相關(guān)的論文、書(shū)籍或者在線(xiàn)教程中,而是直接在從業(yè)人員之間通過(guò)口頭交流和討論的方式分享。同時(shí)我們還發(fā)現(xiàn)了一些這種討論的局限性,例如很少見(jiàn)到從業(yè)者們討論諸如:“如何在最合理的時(shí)間內(nèi)訓(xùn)練模型”、“如何最合理地規(guī)劃科研經(jīng)費(fèi)的使用”,這類(lèi)非?,F(xiàn)實(shí)的問(wèn)題。
實(shí)際上,通過(guò)一些科研經(jīng)歷和項(xiàng)目,我們發(fā)現(xiàn)目前最需要教授的內(nèi)容其實(shí)是遷移學(xué)習(xí)。即如何基于已經(jīng)在大數(shù)據(jù)集上訓(xùn)練完成的現(xiàn)有模型,找到一個(gè)最有利的分析起始點(diǎn)。如何利用遷移學(xué)習(xí)提高訓(xùn)練的效率,提供更精準(zhǔn)的模型,以及減少數(shù)據(jù)的使用量。
我們的思路是:教授實(shí)用的東西。在fast.ai的平臺(tái)上,我們將通過(guò)系列課程為大家分享那些我們?cè)诠こ虒?shí)踐中真正使用過(guò),并證明有效的東西,而不僅僅是那些理論上的定義和公式。據(jù)許多開(kāi)發(fā)者反映,通過(guò)學(xué)習(xí)fast.ai提供的深度學(xué)習(xí)慕課,他們已經(jīng)大大提高了模型的準(zhǔn)確性和訓(xùn)練效率,這似乎能證明我們的思路是正確的。
問(wèn)題2:在fast.ai之前,2014年您還創(chuàng)辦過(guò)一家名為Enlitic的科技公司,主要的研究方向是利用深度學(xué)習(xí)的技術(shù)幫助放射科的醫(yī)生更快更準(zhǔn)確地進(jìn)行醫(yī)學(xué)診斷。我想問(wèn)一下這方面Enlitic取得了怎樣的成績(jī)?和受過(guò)專(zhuān)業(yè)訓(xùn)練的放射科醫(yī)生相比,Enlitic的技術(shù)究竟表現(xiàn)如何?
我并不知道最近的情況,因?yàn)橐呀?jīng)好幾個(gè)月沒(méi)去過(guò)Enlitic了。但通過(guò)此前在Enlitic的研發(fā)經(jīng)歷,我認(rèn)為深度學(xué)習(xí)技術(shù)在未來(lái)醫(yī)療領(lǐng)域的發(fā)展?jié)摿κ呛艽蟮?。而且最重要的是,這方面的研究可以挽救病人的生命,降低發(fā)展中國(guó)家的醫(yī)療成本,這需要我們投入巨大的努力。
雷鋒網(wǎng)注:據(jù)悉尼先驅(qū)晨報(bào)的報(bào)道,Enlitic憑借深度學(xué)習(xí)技術(shù)超越了4位頂級(jí)的放射科醫(yī)生,包括診斷出了人類(lèi)醫(yī)生無(wú)法診斷出的7%的癌癥,以及在人類(lèi)醫(yī)生高達(dá)66%的癌癥誤診率的情況下,Enlitic的誤診率只有47%。
問(wèn)題3:將Enlitic和其他一些類(lèi)似的自動(dòng)化診斷技術(shù)應(yīng)用在醫(yī)療保健領(lǐng)域的具體障礙都有哪些?
最大的障礙之一是缺乏完整的數(shù)據(jù)集,即大量病人在一段時(shí)間內(nèi)進(jìn)行各種醫(yī)學(xué)測(cè)試、醫(yī)學(xué)干預(yù),以及醫(yī)療效果的綜合性的數(shù)據(jù)集。只有基于這樣的大規(guī)模的完整的數(shù)據(jù)集,我們才可以建立精準(zhǔn)的深度學(xué)習(xí)模型,提供基于實(shí)際醫(yī)療效果的診斷和治療建議,而不是簡(jiǎn)單的初級(jí)的診斷猜測(cè)。
另一個(gè)障礙是缺乏在這一領(lǐng)域工作的數(shù)據(jù)科學(xué)家。讓我感到驚訝的是,目前有大量的杰出科學(xué)家投身于相對(duì)影響力較低的領(lǐng)域,比如廣告技術(shù)、產(chǎn)品建議和社交網(wǎng)絡(luò)。同時(shí),目前有大量的深度學(xué)習(xí)研究人員都聚焦于如何“構(gòu)建大腦”,而不是利用技術(shù)解決當(dāng)前人類(lèi)面對(duì)的實(shí)際問(wèn)題。
另一個(gè)出人意料的障礙是,醫(yī)學(xué)領(lǐng)域太細(xì)分太專(zhuān)業(yè)了,這造成我們的科研成果或許能適用于某一科室,但卻很難在更一般的醫(yī)療問(wèn)題上提供有效的建議。因此,傳統(tǒng)醫(yī)學(xué)的細(xì)分和專(zhuān)業(yè)化也是障礙之一。
問(wèn)題4:作為前冠軍選手和專(zhuān)家,您在Kaggle的最大收獲是什么?另外,對(duì)于Kaggle的參賽選手您有哪些想說(shuō)的?
我在比賽中的經(jīng)歷就是最大的收獲,實(shí)際上,我在比賽過(guò)程中學(xué)到的那些機(jī)器學(xué)習(xí)的相關(guān)知識(shí)加起來(lái)比此前20年學(xué)到的都多。而且,在過(guò)去的幾個(gè)月中,為了準(zhǔn)備fast.ai的相關(guān)課程,我又深入研究了幾個(gè)Kaggle的數(shù)據(jù)集,在這個(gè)過(guò)程中我也收獲了很多快樂(lè)。此外,在Kaggle的比賽中看到一些團(tuán)隊(duì)?wèi){借深度學(xué)習(xí)領(lǐng)域的最新研究成果獲得好成績(jī),也是一件令人快慰的事。
對(duì)于那些希望在Kaggle比賽中提高排名的參賽者,和其他一些希望提高他們專(zhuān)業(yè)技能的機(jī)器學(xué)習(xí)從業(yè)者,我的建議很簡(jiǎn)單:每天向競(jìng)賽組委會(huì)提交作品。
在理想情況下,請(qǐng)每天至少花費(fèi)30分鐘在你要提交的作品上,值得強(qiáng)調(diào)的是:即使只花5分鐘時(shí)間調(diào)整一些參數(shù),也比什么也不做要好。因?yàn)槿绻銏?jiān)持每天都提交作品,每天都在思考和實(shí)踐,那么在比賽結(jié)束時(shí)一定比其他人收獲更多,另外,及時(shí)將收獲以博客的形式分享出來(lái)也是一個(gè)值得提倡的好習(xí)慣。因?yàn)樵趯?shí)際的工作環(huán)境中,其實(shí)很少有機(jī)會(huì)處理這些嚴(yán)格定義的數(shù)據(jù)集,當(dāng)然,跟世界頂級(jí)的數(shù)據(jù)科學(xué)家們一起做基準(zhǔn)測(cè)試的機(jī)會(huì)也就更少了。
問(wèn)題5:隨著數(shù)據(jù)科學(xué)不斷向著自動(dòng)化分析的方向發(fā)展,您認(rèn)為在未來(lái)5年中,數(shù)據(jù)科學(xué)家們應(yīng)該關(guān)注哪些技能,才不至于被某種高級(jí)算法替代?
實(shí)際上,我希望在未來(lái)幾年中,數(shù)據(jù)科學(xué)家的作用將越來(lái)越小,同時(shí)看到數(shù)據(jù)科學(xué)被納入其他更多的職業(yè)之中,例如醫(yī)療專(zhuān)家、律師和物流經(jīng)理等。因此,我認(rèn)為數(shù)據(jù)科學(xué)家們應(yīng)該了解一個(gè)行業(yè)是如何創(chuàng)造價(jià)值的,不同的行業(yè)是如何協(xié)同工作的,以及一個(gè)行業(yè)的內(nèi)部組織架構(gòu)師怎樣的。最重要的是,數(shù)據(jù)科學(xué)家們應(yīng)該找到某種方法來(lái)嚴(yán)格測(cè)試自己在相關(guān)領(lǐng)域的工作影響力,并與這一領(lǐng)域的專(zhuān)家合作,通過(guò)各種手段來(lái)增加自己的影響力。
其實(shí),我也無(wú)法確定當(dāng)前的哪些核心技術(shù)在5年后依然重要,但我認(rèn)為,最關(guān)鍵的能力其實(shí)在于如何適應(yīng)和學(xué)習(xí)。
問(wèn)題6:您覺(jué)得深度學(xué)習(xí)技術(shù)在未來(lái)5年能達(dá)到怎樣的高度?深度學(xué)習(xí)會(huì)在每個(gè)領(lǐng)域都超越人類(lèi)么?還是在某些領(lǐng)域人類(lèi)將永遠(yuǎn)保持領(lǐng)先?
我認(rèn)為目前還很難找到深度學(xué)習(xí)的極限,我們也不知道深度學(xué)習(xí)需要多長(zhǎng)時(shí)間才能超越人類(lèi)。但從目前的發(fā)展來(lái)看,每次我看到有人試圖用深度學(xué)習(xí)技術(shù)來(lái)改善他們面對(duì)的特定問(wèn)題時(shí),似乎都能獲得成功。例如,有一位醫(yī)學(xué)博士候選人告訴我,通過(guò)在項(xiàng)目中應(yīng)用5個(gè)小時(shí)深度學(xué)習(xí)技術(shù)取得的科研成果,已經(jīng)大大超過(guò)了他此前5年的研究成果!
在藝術(shù)和創(chuàng)造性的領(lǐng)域,人類(lèi)將永遠(yuǎn)保持領(lǐng)先,因?yàn)槿祟?lèi)更專(zhuān)注于觀察他人的表現(xiàn)。
問(wèn)題7:您是奇點(diǎn)大學(xué)(Singularity University)最年輕的教職工,請(qǐng)問(wèn)您在那里的具體崗位是什么?還有,您對(duì)所謂的人工智能發(fā)展的奇點(diǎn)(singularity)怎么看?
其實(shí),我不認(rèn)為我現(xiàn)在是年齡最小的了。我在奇點(diǎn)大學(xué)教授數(shù)據(jù)科學(xué)相關(guān)的課程。每年我最重要的工作之一就是在“全球解決方案計(jì)劃”(Global Solutions Program)中教書(shū)。80位全球最聰明和最富有熱情的科學(xué)家們每年都會(huì)聚在一起,探討如何解決人類(lèi)目前面對(duì)的最迫切的問(wèn)題,我很幸運(yùn)的有機(jī)會(huì)指導(dǎo)他們?nèi)绾螌?shù)據(jù)科學(xué)的技術(shù)融入其中。
其實(shí)奇點(diǎn)大學(xué)不是一所傳統(tǒng)意義上的大學(xué),更與所謂的人工智能的奇點(diǎn)無(wú)關(guān)。實(shí)際上,我并不知道是否會(huì)有技術(shù)發(fā)展上的奇點(diǎn),也不知道什么人可以聲稱(chēng)他們看到了奇點(diǎn)的發(fā)生。
問(wèn)題8:如果可以的話(huà),您能否就離開(kāi)Kaggle和Enlitic這一問(wèn)題發(fā)表一些看法?
離開(kāi)Kaggle并非一個(gè)艱難的決定,因?yàn)槲覐膩?lái)都沒(méi)打算真正入職Kaggle,而只是想做一名志愿者去幫忙。但令人意想不到的是Kaggle后來(lái)融到了很多錢(qián),因此我只好以全職員工的身份加入。后來(lái),Kaggle決定將100%的精力集中在石油天然氣的數(shù)據(jù)分析業(yè)務(wù)上,我并不認(rèn)同他們的做法,因此就離開(kāi)了。由于我此前主要的研究方向是如何利用深度學(xué)習(xí)技術(shù)解決一些實(shí)際的社會(huì)問(wèn)題,所以后來(lái)就進(jìn)入了醫(yī)療信息領(lǐng)域。
離開(kāi)Enlitic則要艱難的多。最初是由于家人健康的原因,我離開(kāi)了Enlitic一年。一年后當(dāng)我重返公司時(shí),我發(fā)現(xiàn)這時(shí)的Enlitic已經(jīng)不是我當(dāng)前創(chuàng)立的樣子了,Enlitic變成了一家營(yíng)業(yè)額高于科技研發(fā)的公司。其實(shí)在創(chuàng)辦Enlitic之前,我就曾思考過(guò)一個(gè)問(wèn)題:改變醫(yī)療行業(yè)的最佳途徑到底是什么?是通過(guò)進(jìn)入學(xué)術(shù)界進(jìn)行前沿的學(xué)術(shù)研究,還是創(chuàng)辦一家成功的醫(yī)療科技公司?我當(dāng)時(shí)的思考結(jié)果是創(chuàng)辦公司。但從Enlitic的經(jīng)歷我認(rèn)識(shí)到,面對(duì)需要消耗大量經(jīng)費(fèi)和基礎(chǔ)性研究的領(lǐng)域,創(chuàng)辦以外部融資為主要生存手段的創(chuàng)業(yè)公司并非一個(gè)明智的選擇。因?yàn)閬?lái)自投資者和公司員工的壓力太大,他們都迫切地希望公司的股價(jià)一路高漲。
話(huà)雖如此,但我仍然不確定進(jìn)入學(xué)術(shù)界是否是一個(gè)更好的選擇,但我仍覺(jué)得值得一試。這也是為什么我和好朋友Rachel Thomas一起創(chuàng)辦了不靠外部融資生存的學(xué)術(shù)分享平臺(tái)fast.ai。
問(wèn)題9:您業(yè)余時(shí)間都喜歡做什么?有推薦的書(shū)目么?
我最喜歡業(yè)余時(shí)間和女兒一起玩,喜歡她對(duì)所有事物都充滿(mǎn)了好奇和興趣。閱讀方面,我花了非常多的時(shí)間來(lái)閱讀深度學(xué)習(xí)相關(guān)的論文和參考文獻(xiàn),因此沒(méi)有時(shí)間閱讀其他的東西,而且除了深度學(xué)習(xí),我也很難找到其他什么東西能引起我的閱讀興趣。話(huà)雖如此,我有時(shí)候也會(huì)在晚上聽(tīng)一些輕松的有聲讀物,最近在聽(tīng)PG Wodehouse。
來(lái)源:kdnuggets,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。