0
雷鋒網(wǎng)按:本文原作者阿薩姆,本文整理自作者在知乎《未來(lái) 3-5 年內(nèi),哪個(gè)方向的機(jī)器學(xué)習(xí)人才最緊缺?》問(wèn)題下的回答。雷鋒網(wǎng)已獲得轉(zhuǎn)載授權(quán)。
既然已經(jīng)身在工業(yè)屆,那么我就談?wù)劰I(yè)界未來(lái)幾年需要什么樣的機(jī)器學(xué)習(xí)人才。不談學(xué)術(shù)界主要還是因?yàn)榇蟛糠秩俗罱K不會(huì)從事研究,而會(huì)奮斗在應(yīng)用領(lǐng)域。相較而言,工業(yè)界對(duì)人才的需求更加保守,這和學(xué)術(shù)界不同。這受限于很多客觀因素,如硬件運(yùn)算能力、數(shù)據(jù)安全、算法穩(wěn)定性、人力成本開(kāi)支等。
這個(gè)答案可能更適合兩類人:
1. 在讀的學(xué)生朋友
2. 工作不久想要轉(zhuǎn)行機(jī)器學(xué)習(xí)的朋友。
特別厲害的技術(shù)大牛建議探索適合自己的路線,而我只能談一談適合大部分人的路線。但在回答前,我還是忍不住吐槽一下那種簡(jiǎn)單回答 “深度學(xué)習(xí)”,“大數(shù)據(jù)”,“NLP”,“機(jī)器視覺(jué)” 的人。這每一個(gè)領(lǐng)域的小方向都多如牛毛,以自然語(yǔ)言處理 (NLP) 為例,細(xì)分有自然語(yǔ)言生成、自然語(yǔ)言理解,還有不同語(yǔ)言的語(yǔ)言模型。任何一個(gè)方向花幾十年研究也不為過(guò),只給出幾個(gè)字的答案和買彩票有什么區(qū)別...
因此大部分機(jī)器學(xué)習(xí)實(shí)踐者還是該腳踏實(shí)地。盲目追逐熱點(diǎn)很容易跌進(jìn)陷阱,而鞏固基礎(chǔ)、尋找自己擅長(zhǎng)的領(lǐng)域和機(jī)器學(xué)習(xí)交叉點(diǎn)可以幫助你在未來(lái)的就業(yè)市場(chǎng)變得炙手可熱,成為工業(yè)界最緊缺的人才。
0. 背景
工業(yè)界未來(lái)需要什么樣的機(jī)器學(xué)習(xí)人才?老生常談,能將模型應(yīng)用于專業(yè)領(lǐng)域的人,也就是跨領(lǐng)域讓機(jī)器學(xué)習(xí)落地的人。有人會(huì)問(wèn)現(xiàn)在我們不就需要這樣的人嗎?答案是肯定的,我們需要并將長(zhǎng)期需要這樣的人才,現(xiàn)階段的機(jī)器學(xué)習(xí)落地還存在各種各樣的困難。這樣的需求不會(huì)是曇花一現(xiàn),這就跟 web 開(kāi)發(fā)是一個(gè)道理,從火熱到降溫也經(jīng)過(guò)了十年的周期。一個(gè)領(lǐng)域的發(fā)展有特定的周期,機(jī)器學(xué)習(xí)的門檻比 web 開(kāi)發(fā)高而且正屬于朝陽(yáng)期,所以大家致力于成為 “專精特定領(lǐng)域” 的機(jī)器學(xué)習(xí)專家不會(huì)過(guò)時(shí)。
什么是特定領(lǐng)域的機(jī)器學(xué)習(xí)專家?舉個(gè)例子,我以前曾回答 “人工智能是否會(huì)替代財(cái)務(wù)工作者” 時(shí)提到我曾在某個(gè)公司研究如何用機(jī)器學(xué)習(xí)自動(dòng)化一部分審計(jì)工作,但遇到的最大困難是我自己對(duì)審計(jì)的了解有限,而其他審計(jì)師對(duì)我的工作不是非常支持導(dǎo)致進(jìn)展緩慢。所以如果你有足夠的機(jī)器學(xué)習(xí)知識(shí),并對(duì)特定領(lǐng)域有良好的理解,在職場(chǎng)供求中你肯定可以站在優(yōu)勢(shì)的那一邊。以我的另一個(gè)回答為例「阿薩姆:反欺詐 (Fraud Detection) 中所用到的機(jī)器學(xué)習(xí)模型有哪些?」,特定領(lǐng)域的知識(shí)幫助我們更好的解釋機(jī)器學(xué)習(xí)模型的結(jié)果,得到老板和客戶的認(rèn)可,這才是算法落了地。能寫代碼、構(gòu)建模型的人千千萬(wàn),但理解自己在做什么,并從中結(jié)合自己的領(lǐng)域知識(shí)提供商業(yè)價(jià)值的人少之又少。所以調(diào)侃一句,哪個(gè)方向的機(jī)器學(xué)習(xí)人才最緊缺?答:每個(gè)領(lǐng)域都需要專精的機(jī)器學(xué)習(xí)人才,你對(duì)特定領(lǐng)域的理解就是你的武器。
當(dāng)然,給喂雞湯不給勺很不厚道,所以我也會(huì)給出一些具體建議。再次申明,我的建議僅給以就業(yè)為目的的朋友,走研究路線我有不同的建議,本文不再贅述。
1. 基本功
說(shuō)到底機(jī)器學(xué)習(xí)還是需要一定的專業(yè)知識(shí),這可以通過(guò)學(xué)校學(xué)習(xí)或者自學(xué)完成。但有沒(méi)有必要通曉數(shù)學(xué),擅長(zhǎng)優(yōu)化呢?我的看法是不需要的,大前提是需要了解基本的數(shù)學(xué)統(tǒng)計(jì)知識(shí)即可,更多的討論可以看我這個(gè)答案「阿薩姆:如何看待「機(jī)器學(xué)習(xí)不需要數(shù)學(xué),很多算法封裝好了,調(diào)個(gè)包就行」這種說(shuō)法?」。最低程度下我建議掌握五個(gè)小方向,對(duì)于現(xiàn)在和未來(lái)幾年內(nèi)的工業(yè)界夠用了。再一次重申,我對(duì)于算法的看法是大部分人不要造輪子,不要造輪子,不要造輪子!只要理解自己在做什么,知道選擇什么模型,直接調(diào)用 API 和現(xiàn)成的工具包就好了。
回歸模型 (Regression)。學(xué)校的課程中其實(shí)講得更多的都是分類,但事實(shí)上回歸才是工業(yè)屆最常見(jiàn)的模型。比如產(chǎn)品定價(jià)或者預(yù)測(cè)產(chǎn)品的銷量都需要回歸模型。現(xiàn)階段比較流行的回歸方法是以數(shù)為模型的 xgboost,預(yù)測(cè)效果很好還可以對(duì)變量重要性進(jìn)行自動(dòng)排序。而傳統(tǒng)的線性回歸 (一元和多元) 也還會(huì)繼續(xù)流行下去,因?yàn)槠淞己玫目山忉屝院偷瓦\(yùn)算成本。如何掌握回歸模型?建議閱讀 Introduction to Statistical Learning 的 2-7 章,并看一下 R 里面的 xgboost 的 package 介紹。
分類模型 (Classification)。這個(gè)屬于老生常談了,但應(yīng)該對(duì)現(xiàn)在流行并將繼續(xù)流行下去的模型有深刻的了解。舉例,隨機(jī)森林 (Random Forests) 和支持向量機(jī) (SVM) 都還屬于現(xiàn)在常用于工業(yè)界的算法??赡芎芏嗳讼氩坏降氖?,邏輯回歸 (Logistic Regression) 這個(gè)常見(jiàn)于大街小巷每一本教科書的經(jīng)典老算法依然占據(jù)了工業(yè)界大半壁江山。這個(gè)部分推薦看李航《統(tǒng)計(jì)學(xué)習(xí)算法》,挑著看相對(duì)應(yīng)的那幾章即可。
神經(jīng)網(wǎng)絡(luò) (Neural Networks)。我沒(méi)有把神經(jīng)網(wǎng)絡(luò)歸結(jié)到分類算法還是因?yàn)楝F(xiàn)在太火了,有必要學(xué)習(xí)了解一下。隨著硬件能力的持續(xù)增長(zhǎng)和數(shù)據(jù)集愈發(fā)豐富,神經(jīng)網(wǎng)絡(luò)的在中小企業(yè)的發(fā)揮之處肯定會(huì)有。三五年內(nèi),這個(gè)可能會(huì)發(fā)生。但有人會(huì)問(wèn)了,神經(jīng)網(wǎng)絡(luò)包含內(nèi)容那么豐富,比如結(jié)構(gòu),比如正則化,比如權(quán)重初始化技巧和激活函數(shù)選擇,我們?cè)搶W(xué)到什么程度呢?我的建議還是抓住經(jīng)典,掌握基本的三套網(wǎng)絡(luò): a. 普通的 ANN b. 處理圖像的 CNN c. 處理文字和語(yǔ)音的 RNN(LSTM)。對(duì)于每個(gè)基本的網(wǎng)絡(luò)只要了解經(jīng)典的處理方式即可,具體可以參考《深度學(xué)習(xí)》的 6-10 章和吳恩達(dá)的 Deep Learning 網(wǎng)課 (已經(jīng)在網(wǎng)易云課堂上線)。
數(shù)據(jù)壓縮 / 可視化 (Data Compression & Visualization)。在工業(yè)界常見(jiàn)的就是先對(duì)數(shù)據(jù)進(jìn)行可視化,比如這兩年很火的流形學(xué)習(xí) (manifold learning) 就和可視化有很大的關(guān)系。工業(yè)界認(rèn)為做可視化是磨刀不誤砍柴工,把高維數(shù)據(jù)壓縮到 2 維或者 3 維可以很快看到一些有意思的事情,可能能節(jié)省大量的時(shí)間。學(xué)習(xí)可視化可以使用現(xiàn)成的工具,如 Qlik Sense 和 Tableau,也可以使用 Python 的 Sklearn 和 Matplotlib。
無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí) (Unsupervised & Semi-supervised Learning)。工業(yè)界的另一個(gè)特點(diǎn)就是大量的數(shù)據(jù)缺失,大部分情況都沒(méi)有標(biāo)簽。以最常見(jiàn)的反詐騙為例,有標(biāo)簽的數(shù)據(jù)非常少。所以我們一般都需要使用大量的無(wú)監(jiān)督,或者半監(jiān)督學(xué)習(xí)來(lái)利用有限的標(biāo)簽進(jìn)行學(xué)習(xí)。多說(shuō)一句,強(qiáng)化學(xué)習(xí)在大部分企業(yè)的使用基本等于 0,估計(jì)在未來(lái)的很長(zhǎng)一陣子可能都不會(huì)有特別廣泛的應(yīng)用。
基本功的意義是當(dāng)你面對(duì)具體問(wèn)題的時(shí)候,你很清楚可以用什么武器來(lái)處理。而且上面介紹的很多工具都有幾十年的歷史,依然歷久彌新。所以以 3-5 年的跨度來(lái)看,這些工具依然會(huì)非常有用,甚至像 CNN 和 LSTM 之類的深度學(xué)習(xí)算法還在繼續(xù)發(fā)展迭代當(dāng)中。無(wú)論你現(xiàn)在還在學(xué)校還是已經(jīng)開(kāi)始工作,掌握這些基本的技術(shù)都可以通過(guò)自學(xué)在幾個(gè)月到一兩年內(nèi)完成。
2. 秘密武器
有了基本功只能說(shuō)明你可以輸出了,怎么才能使得你的基本功不是屠龍之術(shù)?必須要結(jié)合領(lǐng)域知識(shí),這也是為什么我一直勸很多朋友不要盲目轉(zhuǎn)機(jī)器學(xué)習(xí)從零做起。而學(xué)生朋友們可以更多的關(guān)注自己感興趣的領(lǐng)域,思考如何可以把機(jī)器學(xué)習(xí)運(yùn)用于這個(gè)領(lǐng)域。比如我自己對(duì)歷史和哲學(xué)很感興趣,常常在思考機(jī)器學(xué)習(xí)和其他文科領(lǐng)域之間的聯(lián)系,也寫過(guò)一些開(kāi)腦洞的文章「 帶你了解機(jī)器學(xué)習(xí) (一): 機(jī)器學(xué)習(xí)中的 “哲學(xué)”」。
而已經(jīng)有了工作 / 研究經(jīng)驗(yàn)的朋友,要試著將自己的工作經(jīng)歷利用起來(lái)。舉例,不要做機(jī)器學(xué)習(xí)里面最擅長(zhǎng)投資的人,而要做金融領(lǐng)域中最擅長(zhǎng)機(jī)器學(xué)習(xí)的專家,這才是你的價(jià)值主張 (value proposition)。最重要的是,機(jī)器學(xué)習(xí)的基本功沒(méi)有大家想的那么高不可攀,沒(méi)有必要放棄自己的本專業(yè)全職轉(zhuǎn)行,沉沒(méi)成本太高。通過(guò)跨領(lǐng)域完全可以做到曲線救國(guó),化劣勢(shì)為優(yōu)勢(shì),你們可能比只懂機(jī)器學(xué)習(xí)的人有更大的行業(yè)價(jià)值。
舉幾個(gè)我身邊的例子,我的一個(gè)朋友是做傳統(tǒng)軟件工程研究的,前年他和我商量如何使用機(jī)器學(xué)習(xí)以 GitHub 上的 commit 歷史來(lái)識(shí)別 bug,這就是一個(gè)很好的結(jié)合領(lǐng)域的知識(shí)。如果你本身是做金融出身,在你補(bǔ)足上面基本功的同時(shí),就可以把機(jī)器學(xué)習(xí)交叉運(yùn)用于你自己擅長(zhǎng)的領(lǐng)域,做策略研究,我已經(jīng)聽(tīng)說(shuō)了無(wú)數(shù)個(gè) “宣稱” 使用機(jī)器學(xué)習(xí)實(shí)現(xiàn)了交易策略案例。雖不可盡信,但對(duì)特定領(lǐng)域的深刻理解往往就是捅破窗戶的那最后一層紙,只理解模型但不了解數(shù)據(jù)和數(shù)據(jù)背后的意義,導(dǎo)致很多機(jī)器學(xué)習(xí)模型只停留在好看而不實(shí)用的階段。
換個(gè)角度思考,不同領(lǐng)域的人都有了對(duì)機(jī)器學(xué)習(xí)的理解能更好的促進(jìn)這個(gè)技術(shù)落地,打破泡沫的傳言。而對(duì)于大家而言,不用再擔(dān)心自己會(huì)失業(yè),還能找到自己的角度在這個(gè)全民深度學(xué)習(xí)的時(shí)代找到 “金飯碗”。所以我建議各行各業(yè)的從業(yè)者不必盲目的轉(zhuǎn)計(jì)算機(jī)或者機(jī)器學(xué)習(xí),而應(yīng)該加深對(duì)本專業(yè)的了解并自學(xué)補(bǔ)充上面提到的基本功,自己成為這個(gè)領(lǐng)域的機(jī)器學(xué)習(xí)專家。
3. 彈藥補(bǔ)給
沒(méi)有什么不會(huì)改變,這個(gè)時(shí)代的科技迭代速度很快。從深度學(xué)習(xí)開(kāi)始發(fā)力到現(xiàn)在也不過(guò)短短十年,所以沒(méi)有人知道下一個(gè)會(huì)火的是什么?以深度學(xué)習(xí)為例,這兩年非?;鸬膶?duì)抗生成網(wǎng)絡(luò) (GAN),多目標(biāo)學(xué)習(xí) (multi-lable learning),遷移學(xué)習(xí) (transfer learning) 都還在飛速的發(fā)展。有關(guān)于深度學(xué)習(xí)為什么有良好泛化能力的理論猜想文章在最新的 NIPS 聽(tīng)說(shuō)也錄了好幾篇。這都說(shuō)明了沒(méi)有什么行業(yè)可以靠吃老本一直瀟灑下去,我們還需要追新的熱點(diǎn)。但機(jī)器學(xué)習(xí)的范圍和領(lǐng)域真的很廣,上面所說(shuō)的都還是有監(jiān)督的深度學(xué)習(xí),無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)也是現(xiàn)在火熱的研究領(lǐng)域。所以我的建議是盡量關(guān)注、學(xué)習(xí)了解已經(jīng)成熟和已經(jīng)有實(shí)例的新熱點(diǎn),不要凡熱點(diǎn)必追。
如果你有這些基本功和良好的領(lǐng)域結(jié)合能力,三年五年絕不是職業(yè)的瓶頸期,甚至十年都還太早。科技時(shí)代雖然給了我們很大的變革壓力,但也帶給了我們無(wú)限的可能。技術(shù)總會(huì)過(guò)時(shí),熱點(diǎn)總會(huì)過(guò)去,但不會(huì)過(guò)去的是我們不斷追求新科技的熱情和對(duì)自己的挑戰(zhàn)。
歡迎加入機(jī)器學(xué)習(xí)的世界 ?????
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。