丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

本文作者: 叢末 2018-10-30 10:24
導語:數(shù)據(jù)分析師入行需要的技術能力較易,轉行、自學性價比極高。
活動
企業(yè):杉數(shù)科技
操作:公開課合作
事項:求職分享

隨著互聯(lián)網(wǎng)的興起,人工智能和大數(shù)據(jù)成為了熱門領域,越來越多的企業(yè)開始通過對數(shù)據(jù)的挖掘分析來為商業(yè)決策提供建議,在國內市場,人工智能和大數(shù)據(jù)領域人才出現(xiàn)巨大的缺口。而數(shù)據(jù)分析師入行需要的技術能力較易,轉行/自學性價比極高,成為大數(shù)據(jù)領域的熱門職業(yè)。

近日,在雷鋒網(wǎng) AI 研習社第 5 期職播間上,杉數(shù)科技算法工程師趙珂珍進行了「從大廠到初創(chuàng)企業(yè)的決策之路」的求職分享,并進行了招聘宣講。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/567?=zhaokezhen

趙珂珍:杉數(shù)科技算法工程師,本科畢業(yè)于天津大學建筑工程學院,研究生畢業(yè)于斯坦福大學工學院,從傳統(tǒng)工程學科跨領域成為算法工程師,曾在國內頭部大廠擔任數(shù)據(jù)分析師,現(xiàn)就職于杉數(shù)科技,從事與大數(shù)據(jù)相關的工作。

分享主題:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路

分享提綱:

1. 個人經(jīng)歷及為何選擇杉數(shù)科技;

2. 大數(shù)據(jù)分析工程師職業(yè)內容;

3. 大數(shù)據(jù)分析工業(yè)場景應用實例;

4. 大數(shù)據(jù)分析/挖掘的自學建議;

5. 杉數(shù)科技招聘內容及內推通道。

雷鋒網(wǎng) AI 研習社將其分享內容整理如下:

大家好,歡迎來到 AI 研習社職播間,我是分享嘉賓趙珂珍,這次的分享內容更針對初入職場或者有志于跨領域轉入大數(shù)據(jù)分析相關崗位的求職者。本次分享包括:

第一,簡單介紹個人經(jīng)歷以及最終選擇杉數(shù)科技公司的原因;

第二,簡單介紹大數(shù)據(jù)分析師是做什么的,在行業(yè)內有怎樣的分類,以及工作中具體需要用到哪些技能等等;

第三,結合我在大廠和杉數(shù)科技的經(jīng)驗,根據(jù)具體的工業(yè)場景應用實例,讓大家了解大數(shù)據(jù)分析師的工作內容;

第四,結合自己求學、求職和工作的經(jīng)驗,為大家提供一些大數(shù)據(jù)分析師所需要的學習建議和資源(其中包括我在斯坦福學習的優(yōu)質課程資源);

第五,詳細介紹一下杉數(shù)科技的業(yè)務和公司情況,為大家講解算法工程師類的招聘需求,并提供簡歷投放通道。

個人經(jīng)歷及為何選擇杉數(shù)科技

首先,做一個簡單的自我介紹。我本科畢業(yè)于天津大學工學院,主要學習建筑工程的水利工程,它和土木工程比較類似。在校期間,我學習了大量力學和數(shù)學相關知識,并在南開大學獲得金融雙學位,主要學習數(shù)學、經(jīng)濟學和金融學相關的基本理論。研究生畢業(yè)于斯坦福工學院,專業(yè)是環(huán)境流體力學,這個專業(yè)要求很扎實的線性代數(shù)知識和編程技能。另外,因為研究生采用自由選課制度,跟本科差別不大,學生可以選修學院的其他課程,因此我修完本專業(yè)學分后,還選修了一些熱門課程,例如吳恩達的機器學習課程 CS229,李飛飛的深度學習與圖像識別 CS231n。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

后來在課程學習過程中,我有了跨行業(yè)就業(yè)的想法。當時考慮到目前業(yè)內大多數(shù)博士生在做 AI 設計,而研究生階段的課程和數(shù)據(jù)挖掘的銜接更為自然,因此我開始找數(shù)據(jù)相關的實習。研一暑假,我在國內頭部大廠總部新成立的大數(shù)據(jù)分析部擔任數(shù)據(jù)分析工程師,兩個多月后拿到了 return offer。研二第一學期,我又接觸到斯坦福校友組建的創(chuàng)業(yè)公司——杉數(shù)科技,并且拿到 offer 回國入職。目前我正式在杉數(shù)科技工作,擔任算法工程師,主攻機器學習方向。

結合我個人的經(jīng)歷來看,我今天的分享主要回答三個問題:為什么選擇跨專業(yè)進入大數(shù)據(jù)領域?為什么選擇回國就業(yè)?大廠和初創(chuàng)企業(yè)有什么差異,為什么我最終選擇了創(chuàng)業(yè)公司?這三個問題也是大多數(shù)求職者或多或少會面臨的問題。

第一個是職業(yè)方向的選擇。比起我本專業(yè)的方向,大數(shù)據(jù)領域有著顯而易見的幾點優(yōu)勢:人才缺口非常大,薪資的相對水平比較高,成長速度比較快。

從互聯(lián)網(wǎng)開始普及,我們每天都會產(chǎn)生大量的數(shù)據(jù),并且數(shù)據(jù)存儲技術也在進一步發(fā)展,所以大數(shù)據(jù)背后的價值越來越被大家所重視。實際上,銀行、電商等領域中,數(shù)據(jù)分析已經(jīng)有完整的職業(yè)生態(tài)了,但是信息技術的發(fā)展,給數(shù)據(jù)分析帶來了更多的應用場景,目前單電商領域的發(fā)展就帶來了采銷、倉儲、運送等環(huán)節(jié)的數(shù)據(jù)應用,甚至傳統(tǒng)工業(yè)也都對數(shù)據(jù)挖掘提出要求,而在未來幾十年里,這個需求都不會衰退,大數(shù)據(jù)的用人缺口極大。

目前,高校針對大數(shù)據(jù)分析和人工智能領域設置的對口專業(yè)非常少,很多專業(yè)人才都是計算機、金融或者統(tǒng)計出身,而用人市場又存在極大的需求,因而工資也水漲船高。

至于成長速度,一方面,大數(shù)據(jù)面對的工業(yè)場景在不斷更新和擴展,目前比較熱門的可能是互聯(lián)網(wǎng)電商行業(yè),而很多傳統(tǒng)工業(yè)也在嘗試用大數(shù)據(jù)做決策優(yōu)化;另一方面,很多數(shù)據(jù)挖掘理論也在與時俱進,因此數(shù)據(jù)挖掘算法相關從業(yè)者需要保持項目的實踐推進能力,并持續(xù)進行理論學習,這類從業(yè)者的淘汰率大,壓力也大,不過成長速度也快。

第二個問題是為什么回國。一個原因是根據(jù)自身情況所做出的選擇,在這里不多說,有借鑒意義的是中美在大數(shù)據(jù)行業(yè)的差異性。

美國作為一個發(fā)達國家,很多應用場景下的數(shù)據(jù)采集、管理分析流程已經(jīng)比較成熟了。除了前沿的技術研究進展,從工業(yè)應用領域來看,中美大體差異不大,甚至中國在未來的發(fā)展空間還更廣闊,但是涉及到一些傳統(tǒng)工業(yè)或電商、物流這類的新型產(chǎn)業(yè),中國整體的大數(shù)據(jù)應用水平還是比較遲滯的。

中國在數(shù)據(jù)這一領域的發(fā)展空間會給大家更多的機會,因此在大數(shù)據(jù)行業(yè)發(fā)光發(fā)熱,其實是一個非常好的選擇。現(xiàn)在進入這一行業(yè)的人,在某種程度上會成為第一批接觸并且解決該行業(yè)問題的人才。

第三個問題是創(chuàng)業(yè)公司和大廠有哪些區(qū)別。實際上,二者有各自的優(yōu)勢。大廠具有穩(wěn)定、體系分明、接觸業(yè)務層面較深、細分領域深耕、晉升通道明確等優(yōu)勢,而初創(chuàng)公司的優(yōu)勢表現(xiàn)在:管理扁平、任人唯能、接觸項目廣泛、直接對接客戶,并對業(yè)界的不同領域均能涉獵,成長曲線陡峭。

在劣勢上,大廠可能存在視野過窄、不跳槽難以晉升、工作內容及模式固定化、成為一顆「螺絲釘」等問題。而初創(chuàng)公司相對來說比較不穩(wěn)定,并且團隊靠譜與否會影響上述優(yōu)勢能否保證。

我個人傾向去創(chuàng)業(yè)公司或者大廠剛剛成立的重點部門,因為二者都具備一個特質,就是都能接觸到大量工作和項目,而不是在一些細分的領域做「螺絲釘」。在我看來,入行初期比較重要的是行業(yè)視野——大面看得全,才能夠在深耕領域做出最優(yōu)的選擇。因此我的第一份正式工作就選擇了創(chuàng)業(yè)公司。另外我實習大廠的大數(shù)據(jù)部門,也有同樣優(yōu)勢,它剛剛成立,能夠很快對接到業(yè)務層面,并且其內部也是采取扁平化的管理方式,能給我很多的鍛煉機會。

其他原因還包括團隊和成長機會。我曾在硅谷機緣巧合地接觸到了杉數(shù)科技的 CTO 王子卓老師,便立志加入杉數(shù)團隊。由于杉數(shù)科技目前還在成長階段,能夠讓我接觸大量項目,而每一個項目就是行業(yè)或工業(yè)的解決方案。此外,除了技術和理論研究實力非常強大的創(chuàng)始人團隊,杉數(shù)科技更有一批行業(yè)非常頂尖的科學家,這些都是行業(yè)內的超優(yōu)質資源。因此對個人而言,杉數(shù)科技的工作不僅僅意味著能與這些優(yōu)秀科學家共事,大量的項目也非常鍛煉人。

杉數(shù)科技是一家基于大數(shù)據(jù)的咨詢公司,主要客戶是中國工業(yè)界的大中型企業(yè),其基于大數(shù)據(jù)的精細化運算和行業(yè)解決方案,能夠幫助企業(yè)提高決策水平。

之所以說杉數(shù)科技的前景非常好,一方面是因為大環(huán)境下越來越多的工業(yè)企業(yè)開始重視數(shù)據(jù),但它們未必有足夠的資金像 BAT 一樣去養(yǎng)數(shù)據(jù)團隊,并且即便是 BAT 這樣的大型企業(yè),針對特定的、非常態(tài)的復雜問題也需要搞外包服務,這也是杉數(shù)科技存在的價值。另一方面,杉數(shù)科技創(chuàng)始人團隊都是斯坦福高學歷人才,并且配備豐富的行業(yè)經(jīng)驗和學術經(jīng)驗,并兼有強勁的技術實力和前沿的理論研究實力,曾為 Google、IBM、波音、美國能源部、中國電網(wǎng)等機構解決運營決策優(yōu)化問題。

大數(shù)據(jù)分析工程師職業(yè)內容

下面我講一下大數(shù)據(jù)分析師的工作內容,公司的崗位需求以及職業(yè)發(fā)展路徑。

數(shù)據(jù)分析這個概念,其實大家都不陌生,基本上就是針對一些數(shù)據(jù)源,去探索它們的特點,得出相應的結論或者追溯一些商業(yè)現(xiàn)象的原因。不同于傳統(tǒng)的數(shù)據(jù)分析,大數(shù)據(jù)分析不僅僅是基于自身的數(shù)據(jù)統(tǒng)計,有時也需要考慮一些外部因素,對其他需要的數(shù)據(jù)源進行采集、整理和合并,并且它的數(shù)據(jù)規(guī)模比較大,從業(yè)人員需要掌握一定的運行并行工具和算法,而不僅局限于基于統(tǒng)計學的分析。

但是就我的從業(yè)經(jīng)歷來看,大部分數(shù)據(jù)分析師的末端工作內容還是基于一些常用的統(tǒng)計學理論和傳統(tǒng)的數(shù)據(jù)分析方法,只是在這一步前增加了很多大型數(shù)據(jù)集整理、合并和運算的過程,而這些過程需要一些新的技能和理論。

從一個維度來說,目前大數(shù)據(jù)分析有兩個大體的方向:

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

一個是偏業(yè)務方向,這個方向要求從業(yè)者對業(yè)務有著比較深的理解,并且有比較強的統(tǒng)計學理論知識,能夠對大型數(shù)據(jù)集做簡單的處理,然后得到所需維度的數(shù)據(jù),而最重要的一項能力是,要能夠結合商用市場和業(yè)務提出的要求,去定位問題和發(fā)現(xiàn)結論。一般來說,工作中所需外部數(shù)據(jù)源越少,前期的物理邏輯就越簡單,也越接近傳統(tǒng)的商業(yè)分析。

比如拿到某個企業(yè)某個部門這一季度的所有訂單后,需要對訂單的來源去向分區(qū)域、分時段進行統(tǒng)計,然后要輸出結果、監(jiān)控異常、定位來源,并根據(jù)數(shù)據(jù)表現(xiàn)提出解決方案,這一整個過程就是商業(yè)分析。而當數(shù)據(jù)量達到一定的規(guī)模,沒有辦法用 Excel 這些工具直接進行分析的時候,就需要使用一些大數(shù)據(jù)平臺對數(shù)據(jù)進行預處理和預運算,比如維度擴大到整個企業(yè)某季度的所有訂單。其中,當我們在分析產(chǎn)品類型、客戶類型等多個維度的結果輸出的時候,涉及到的就是某些初級大數(shù)據(jù)分析師的工作內容,一直到這一步,相關的數(shù)據(jù)分析都是跟業(yè)務結合得非常緊密的。

目前很多領域的大數(shù)據(jù)分析師的基本工作內容,就是在大數(shù)據(jù)平臺用 SQL 等工具來整理和取數(shù),做一些初步運算,然后再用 Excel 進行分析和操作。而精細到不同場景,這個崗位會有一些不同的發(fā)展方向:有做數(shù)據(jù)產(chǎn)品的,需要具備一定的需求把控能力和項目管理能力;有做決策支持的,需要一些商業(yè)敏感度—在一些業(yè)務開展之前,要能夠利用市場數(shù)據(jù)的各個維度進行分析,以確定某項業(yè)務是否要開展,有哪些方案,以及哪些方案能最大程度地爭取利潤和減少風險等等;有做數(shù)據(jù)運營的,包括客戶運營和產(chǎn)品增長運營等,要結合一些歷史數(shù)據(jù)和數(shù)據(jù)規(guī)律,找到其增長點,推行并迭代數(shù)據(jù)。

我們可以從這些工作內容看到,其實偏業(yè)務方向的大數(shù)據(jù)分析師結合市場、產(chǎn)品或者運營,可以有多種發(fā)展方向,他們可以緊貼著業(yè)務、運營和產(chǎn)品等跟市場結合比較緊密的部分不斷成長,直到進入決策層,前景十分光明。

這種業(yè)務型大數(shù)據(jù)分析師的崗位需求,在技能方面的門檻不是非常高。基本上學會用 SQL 取數(shù),可以使用大數(shù)據(jù)平臺對一些數(shù)據(jù)進行處理,會用 Excel 的高端操作進行數(shù)據(jù)分析、匯報撰寫以及擁有基本的可視化技術,就可以嘗試找這方面的工作了。另外,這個崗位的核心能力在于你的商業(yè)敏感度以及對業(yè)務的了解深度,而這些都是需要在實際工作中積累的軟實力。

另一個是偏技術方向,其基礎仍然是做數(shù)據(jù)分析,但是工作的側重點有所變化。除了監(jiān)控數(shù)據(jù)、鎖定異常、查找原因等工作內容,數(shù)據(jù)挖掘方向的大數(shù)據(jù)分析師面臨多一層的需求——給定解決方案。比如某個網(wǎng)站想要將廣告投放收入最大化,你要考慮怎樣根據(jù)網(wǎng)站的流量分布采取適當?shù)耐斗欧桨负褪召M方案,甚至針對不同客戶進行定向投放等,這其中就涉及一些推薦問題。一套合理的投放模型,向上要考慮廣告投放方案的利潤最大化,向下要考慮向客戶推薦廣告能夠最大化地帶來真實流量,這一系列的邏輯,不僅要基于大量的數(shù)據(jù)采集來分析結論,也要基于業(yè)務邏輯、算法理論和基于經(jīng)驗的假設提出解決方案—實際上到這個階段,大數(shù)據(jù)分析師已經(jīng)進階為大數(shù)據(jù)工程師和科學家。同時,這個過程中還會用到一些基于大數(shù)據(jù)工具下的數(shù)據(jù)挖掘算法、傳統(tǒng)機器算法,甚至深度學習算法知識。嚴格意義上講,這已經(jīng)是算法工程師的工作了。

不過實際上在很多應用場景下,大數(shù)據(jù)分析師不需要解決這樣系統(tǒng)、龐大的類如推薦、識別等問題,而只需要在具體工作場景下針對一些小的問題,建立簡單的機器學習模型,比如隨機回歸、邏輯分類器等。以一個小的應用場景為例,在給定了客戶數(shù)據(jù)后,需要訓練一個分類器能夠最大程度地識別傾向于某個產(chǎn)品子類的客戶,從而對這個客戶進行篩選,然后提供針對性的服務。這是一個比較簡單的分類問題,需要根據(jù)不同的情況采用不同的方法進行建模。

總之,偏技術這個方向的大數(shù)據(jù)分析師,無論是利用傳統(tǒng)機器學習方法還是深度學習方法,都需要采用一定的數(shù)據(jù)挖掘算法,去嘗試建立模型解決問題,迭代、更新數(shù)據(jù)以及不斷調整參數(shù),這一整套過程就是大多數(shù)數(shù)據(jù)挖掘師的工作邏輯。

這個方向下也細分出很多不同的發(fā)展方向,比如定價、推薦、語音識別、NLP 等等,但這個方向因為門檻比較高,要求掌握扎實的數(shù)學、線性代數(shù)、計算機算法理論基礎,以及較強的代碼能力。另外,機器學習和深度學習算法還在不斷更新中,基本上會隨著論文更新出現(xiàn)新的算法,因此這個方面需要大家不斷學習,保持閱讀論文,隨時更新個人知識。

在工業(yè)界,偏技術方向的人一般會沿著技術專家、數(shù)據(jù)科學家的路線發(fā)展,或者在積累經(jīng)驗后產(chǎn)學結合進行算法方面的革新等等。對于想要跨專業(yè)往這個領域發(fā)展的求職者,我建議大家先進入一些技能較低的大數(shù)據(jù)分析崗位,在工業(yè)界積累一定問題處理能力后,再在特定領域通過深造努力向數(shù)據(jù)挖掘方向靠攏。

目前,大數(shù)據(jù)分析師和數(shù)據(jù)挖掘師的行業(yè)主要集中在數(shù)據(jù)采集和管理比較成熟和體系化的金融、政務等領域,其中,金融行業(yè)的大數(shù)據(jù)分析師會相對偏量化一點,并且側重商業(yè)分析,要求較高的金融理論知識。不過,互聯(lián)網(wǎng)企業(yè)可能會是未來大數(shù)據(jù)人才缺口最大的行業(yè),比如電商、物流行業(yè)的整個鏈條的智能管理和決策優(yōu)化都要基于一定大數(shù)據(jù)算法實現(xiàn);而政務領域往往是基于互聯(lián)網(wǎng)+平臺,并且采取一些外包的方式實現(xiàn)智能化管理。此外,像今日頭條這類資訊型的互聯(lián)網(wǎng)公司也會有廣告推薦、用戶增長等大數(shù)據(jù)分析相關的熱門崗位。

除了本身搭載移動互聯(lián)網(wǎng)信息化的成熟企業(yè),工業(yè)界企業(yè)對大數(shù)據(jù)應用上的訴求基本上集中在倉配優(yōu)化、成本控制、定量預測等很多細分領域。大數(shù)據(jù)比較成熟的企業(yè),比較重視在深耕領域的精細化模型的搭建,比如我們前面提到的推薦算法等等,但是對于大數(shù)據(jù)初具規(guī)模的企業(yè)和傳統(tǒng)企業(yè)來說,基于成本控制和利潤提升的簡單算法的全局性優(yōu)化方案是更為重要的。

數(shù)據(jù)分析和數(shù)據(jù)科學也是有差異的。基本上,數(shù)據(jù)分析的技術棧有三個:數(shù)據(jù)庫處理、腳本細處理(有一些公司會對這個技能有一定要求)、維度分析+可視化。而數(shù)據(jù)科學是基于數(shù)據(jù)分析的技能,要求比較強的編程能力、數(shù)學能力和算法能力,門檻相對較高。

大數(shù)據(jù)分析工業(yè)場景應用實例

簡單舉個實例來介紹一下我在工業(yè)界中所做的與大數(shù)據(jù)分析相關的工作。由于大多數(shù)數(shù)據(jù)分析崗位也要求一定的基本建模能力,所以我把涉及到數(shù)據(jù)分析的工作內容簡單歸類為三個大場景:

第一個,數(shù)據(jù)監(jiān)控。這一類場景下基本是固定取數(shù)邏輯,只需根據(jù)業(yè)務市場或數(shù)據(jù)模型的需求,從數(shù)據(jù)庫中提取元代數(shù)據(jù),再通過邏輯合并和運算處理輸出結果。數(shù)據(jù)監(jiān)控工作具有重復性的特點,需要周期性生成固定口徑的數(shù)據(jù),以及監(jiān)控一段時間內的數(shù)據(jù)分布,鎖定數(shù)據(jù)異常,并且發(fā)現(xiàn)異常時,還需要在數(shù)據(jù)庫中結合業(yè)務進行診斷,最后生成分析報告。我一般會用 SQL 取數(shù)、Excel 統(tǒng)計,最后做 PPT 進行匯報。

第二個,數(shù)據(jù)分析。這個場景跟數(shù)據(jù)監(jiān)控相似,不同的是,它是不固定取數(shù)邏輯,可能會涉及多次取數(shù)以及不同的分析方法,因為其最終目的是在數(shù)據(jù)層面找到一些現(xiàn)象的原因、結論,而在分析之前,我們很難從成百上千個工業(yè)維度的數(shù)據(jù)直接定位到造成某個影響的維度。另外這一場景最終的呈現(xiàn)形式也是匯報,需要用到一些前端知識和便利的可視化軟件。

第三個,數(shù)據(jù)建模。這個場景需要在分析的基礎上,根據(jù)業(yè)務需求抽象模型方案并進行數(shù)據(jù)集探索,建模完成相應需求。

除了這三個場景,還有一些其他場景,它們不屬于大數(shù)據(jù)分析師的崗位,但需要密切依靠大數(shù)據(jù)的相關工作,例如工業(yè)定價、工業(yè)銷量預測、倉儲管理、供應鏈優(yōu)化等,這些工作都需結合運籌學和其他算法知識進行數(shù)據(jù)挖掘、建模及優(yōu)化工作。

下面是我的一個具體工作案例,讓大家了解這三個場景在實際工作中的具體應用。這是我們公司做的一個定價項目下的子環(huán)節(jié):

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

(關于該定價項目的具體工作案例講解,請請回看視頻 00:26:30 處,http://www.mooc.ai/open/course/567?=zhaokezhen

大數(shù)據(jù)分析/挖掘的自學建議

針對大數(shù)據(jù)分析和初步數(shù)據(jù)挖掘自學,我會提供一些建議,也會給大家提供一些資料。

現(xiàn)在,大數(shù)據(jù)分析崗位所需的技能包括:

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

第一個,數(shù)據(jù)獲取的技能,需要處理哪些數(shù)據(jù)/哪些維度/如何界定待分析等問題,大部分公司要求使用 SQL+R/Python 等軟件進行預處理。

第二個,數(shù)據(jù)處理的技能,需要掌握 R/Python 等工具,能幫助大家比較靈活地進行數(shù)據(jù)清洗工作。不過針對數(shù)據(jù)量比較小的數(shù)據(jù),可以直接使用 Excel 處理,這就需要掌握 Excel 高端技能。

第三個,數(shù)據(jù)分析的技能,其中的軟技能包括商業(yè)敏銳度、業(yè)務理解以及統(tǒng)計學知識。

第四個,數(shù)據(jù)展示的技能,要求大家具備優(yōu)秀的可視化和良好的表達能力。

標配就是 SQL+Excel,依靠這些能力基本上就能幫助你找到一些工作或者實習機會。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

針對 SQL,我建議大家去菜鳥教程上進行學習,主要掌握比較簡單的應用型語法,可以一邊操作一邊學習,遇到不懂的則要學會使用搜索引擎進行查詢。另外,我建議直接上 Leecode 網(wǎng)站,刷一下數(shù)據(jù)結構這幾道題,網(wǎng)站上按照從易到難的順序會有不同的解法,大家可以嘗試用不同方法去解決一個問題。掌握 SQL,基本上可以應付工業(yè)界的取數(shù)任務了。

Excel 方面,基礎操作無法滿足要求,要求至少熟練使用常用的統(tǒng)計工具,如簡單的表格數(shù)據(jù)處理、查詢、排序等,vlookup 等高級函數(shù),多維引用數(shù)值公式,可視化圖表(需要掌握圖表展示、美化、高級圖表、圖標插件等)以及非常常用的數(shù)據(jù)透視。另外,有的數(shù)據(jù)處理也涉及 VBA 開發(fā),大家如果對這方面有興趣也可以自學一下。

大家如果掌握了 SQL+ Excel+PPT 這三個工具,基本上就可以嘗試去找大數(shù)據(jù)相關的工作,之后可以根據(jù)個人發(fā)展方向和崗位需求確定自己的技能加強方向。

另外,針對想要學習一些腳本語言的同學,我比較推薦 Python,這款軟件比較好用,且容易入門。大家可以上廖雪峰的官網(wǎng)上了解一下基本的 Python 語法、數(shù)據(jù)存儲方式等內容。關于數(shù)據(jù)處理的學習,則可以直接看 pandas 手冊(http://pandas.pydata.org/pandas-docs/stable/pandas.pdf)——從 500 頁開始基本上都在介紹常用的語法指令。目前數(shù)據(jù)處理方面的工作,一般都是使用 SQL+pandas 指令完成的。

如果需要掌握結構化處理,大家可以學習一下 numpy 這個數(shù)據(jù)包,并在在工作中邊學邊用。在機器學習和深度學習中,該數(shù)據(jù)包的應用比較多。

基于數(shù)據(jù)分析的數(shù)據(jù)挖掘,則要求自學者有較好的線性代數(shù)基礎,并進行機器學習和深度學習相關的學習。關于傳統(tǒng)的機器學習理論,比較完備的課程是吳恩達的 CS229,工業(yè)界中常見的分類和回歸問題所涉及到的,比如隨機分離以及樸素貝葉斯等理論,CS229 基本都涵蓋到了,不過這門課程偏理論一點,因此對數(shù)學理論的要求非常高。大家之后在工作中可能遇到各種「疑難雜癥」,可以去閱讀相關論文或者技術博客(尋找相應的解決方法和思路)。而實用性較強的課程中,我比較推薦 Stanford CS246 這門課程,包括基于 Spark 平臺去操作完成一些簡單的推薦算法、直線聚類等與工業(yè)界結合非常緊密的實踐和課程。

此外,針對一些數(shù)據(jù)挖掘細分領域的偏理論的課程,我在資料(http://sendanywhe.re/900QEJJZ)中附上了著名的黃皮書,大家可以參考。

傳統(tǒng)機器學習相關工作,將這些理論掌握就可以說是做好比較充分的準備了。需要注意的是,工業(yè)界跟學術界存在的一個比較顯著的差別就是,工業(yè)界的工業(yè)數(shù)據(jù)是非常「臟」的,當遇到很多棘手的問題,我們無法獲得理想數(shù)據(jù)進行模型訓練,比如分類中常見的分類不平衡等問題,這就需要我們結合工業(yè)場景嘗試不同的算法和工業(yè)應用理解去找到合適解決方法。另外,不同公司的數(shù)據(jù)分析崗位的具體工作內容會有區(qū)別。因此,我認為行業(yè)經(jīng)驗以及學習和理解能力非常重要。

杉數(shù)科技招聘內容及內推通道

接下來介紹一下杉數(shù)科技,并給大家講一些崗位的招聘需求。

杉數(shù)科技于 2016 年 7 月份成立,總部在北京東城區(qū),并在上海楊浦區(qū)設立有子公司——上海杉數(shù)網(wǎng)絡科技有限公司。創(chuàng)立的同年 8 月,杉數(shù)科技便獲得真格基金與北極光創(chuàng)投的聯(lián)合投資,天使輪融資高達 210 萬美金,創(chuàng)下 2016 年中國大數(shù)據(jù)領域天使輪融資額度新高。2017 年 7 月,杉數(shù)科技完成 A 輪融資,融資額約 4000 萬元,由高達投資(Pagoda Investment)領投,將門創(chuàng)投、聯(lián)想創(chuàng)投跟投。

公司由五位斯坦福的教授及博士聯(lián)合創(chuàng)立,匯聚了海內外一流科學家團隊,目標是希望利用優(yōu)秀的人工智能決策技術,讓中國每個企業(yè)都擁有定制最優(yōu)化決策的能力,并通過創(chuàng)新地結合一些機器學習和深度學習技術以及運籌優(yōu)化技術,為企業(yè)服務。目前的合作方包括京東、順豐、德邦、萬達、滴滴、永輝等各個行業(yè)的巨頭企業(yè)。

下面是我們公司最初的幾個創(chuàng)始人:

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

杉數(shù)科技創(chuàng)立以來也獲得了大大小小數(shù)十個獎項,比如「國家高新技術企業(yè)」、「中關村技術企業(yè)」、黑馬新零售 Top 50 等。相比于傳統(tǒng)的咨詢公司,我們公司有一些優(yōu)勢:較強的優(yōu)化求解技術、從數(shù)據(jù)到?jīng)Q策的閉環(huán)服務能力、頂尖的數(shù)據(jù)決策科學家團隊等等。除此之外,我們還有許多與大企業(yè)的合作經(jīng)驗,目前仍與大企業(yè)保持深度合作。

我們的業(yè)務項目包括為電商、零售等行業(yè)提供智能預測、庫存優(yōu)化、倉儲自動化、收益管理、智慧選址等一系列的解決方案。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

其中,我介紹一下智能選址、倉儲管理等杉數(shù)科技的成功案例,而在這些項目的實施過程中,我們也可以看到杉數(shù)科技需要哪些方面的人才。

案例一:智能選址。在零售行業(yè)相關項目中,我們做了門店選址項目。傳統(tǒng)的選址一般會根據(jù)行業(yè)經(jīng)驗粗略地劃一片目標區(qū)域,派遣人員進行實地走訪并最終確認。而在這個項目中,我們顛覆了傳統(tǒng)的選址方式,將選址問題變成了一個優(yōu)化問題,這個問題主要目的是:增加營收,進行品牌營銷,以及提高人口覆蓋率、便利程度。

營收方面,已知大量門店的流水數(shù)據(jù),再結合一定業(yè)務經(jīng)驗,我們挖掘了店面營收相關的若干個大特征(大范圍內共享的特征,比如人口覆蓋、最近地鐵站的距離等)和小特征(更精細的特征,包括店面的臺階高度,門前是否有欄桿等),對特征進行量化后,采取了多種預測模型,最終使得每月的營收準確度高達 90% 以上。覆蓋率方面,我們將上海的大特征打到各個網(wǎng)格中,以找到全局營收和人口覆蓋最優(yōu)的函數(shù)為選址目標,通過整數(shù)規(guī)劃獲得最優(yōu)網(wǎng)格后,再結合業(yè)務人員的實地考察,找到符合營收最高的小特征的地址,并確定下來。這個過程中,要求數(shù)據(jù)分析師對業(yè)務有較深理解。

其中,在店面的特征對營收造成影響上,我們將現(xiàn)實問題抽象成一個模型,并采用目標、約束以及機器學習預測相關的方法。這就要求需要大數(shù)據(jù)分析師有很強的數(shù)據(jù)搜索、處理能力以及邏輯思維、取數(shù)、建模能力等。

案例二:智能倉儲管理。這個項目中,我們將整個倉儲問題分解為很多子問題,從問題流程的角度將其劃分為補貨問題、擺放問題、訂單波次問題以及揀貨路徑問題,這四個問題的聯(lián)合最優(yōu)解才是補貨和揀貨成本最低的最優(yōu)方案。

補貨問題是一個經(jīng)典的倉儲問題。我們首先將庫存 SKU 按照銷量熱度分組,對于高銷量的產(chǎn)品,我們的策略是單獨為其開辟空間,這種產(chǎn)品一般處于促銷狀態(tài);而低銷量的產(chǎn)品的存放量則會比較少,這些數(shù)量可以應付一段時間的需求。

擺放問題同樣涉及產(chǎn)品銷量熱度問題,此外還需要考慮產(chǎn)品間的關聯(lián)度。首先,熱銷產(chǎn)品要擺放在距離揀貨出發(fā)點最近的位置(如果出發(fā)點與終點分開,則需要離終點最近)。關聯(lián)度上,一個訂單同時出現(xiàn)兩款產(chǎn)品的可能性越高,產(chǎn)品的關聯(lián)度也就越高,揀貨員需要盡可能減少揀貨距離。另外,由于同一種貨物可能出現(xiàn)在不同的貨架上,這使得擺放問題的復雜性也更高。

訂單波次生成問題,是指一個揀貨員在單個揀貨路徑上可能進行多個揀貨任務,多次生成是為了在將同一個路徑上的揀貨任務生成到一個任務單上。倉儲管理中出現(xiàn)的多個訂單,會進入訂單池,之后訂單池中的訂單會實現(xiàn)最優(yōu)的訂單合并。這個問題中,我們也會考慮時效性來保證訂單波次的可靠性,例如合作態(tài)度比較低的訂單、訂單合并效果一般但是進入訂單池很久的訂單要求及時打撈。

揀貨路徑規(guī)劃問題,不是簡單最短路徑算法就能夠解決的問題,同一個 SKU 可能會擺放在不同貨架上,因此只有確定任務單上所有 SKU 的貨架位置,才能進一步進行路徑規(guī)劃。上面所說情況比較復雜,但仍屬于傳統(tǒng)倉儲管理的范疇。

此外,我們還有無人倉調度管理方法。相比傳統(tǒng)的倉儲調度,我們的規(guī)模更大,實施性也更好。

由于我們公司的項目往往會分解成很多子項目,因此我們需要的人才是綜合能力比較強、思維比較活躍,能迅速深入理解業(yè)務的本質,并在數(shù)據(jù)挖掘、運籌方面有一定想法的人。

另外,我總結了杉數(shù)科技的一些大項目所存在的共同點

第一個是基于項目的預測引擎,這是很多項目的前置工作,我們需要識別、挖掘數(shù)據(jù)的特征,以防止過擬合,并對突發(fā)事件進行比較精準的預測等。而這些數(shù)據(jù)的維度比較高,往往存在缺失、噪音、原始信息的表達比較困難等常見問題。

第二個是全渠道的預測補貨方案,其基于庫存管理對當前的補貨進行優(yōu)化,從而提高庫存管理的準確度。

第三個是數(shù)據(jù)驅動的定價問題。我們會基于企業(yè)自有數(shù)據(jù)特有的類型和特點,結合外源數(shù)據(jù),根據(jù)不同的定價驅動因素,來自動輸入定價、利潤等關鍵指標的變動趨勢,此外還會結合不同目標靈活地調整定價策略,來解決動態(tài)定價、促銷定價、大客戶定價、捆綁定價等問題。

除此之外,對于多維度、多場景的智能配送物流運輸?shù)囊?guī)劃解決方案,在考慮多種業(yè)務的約束條件的同時,還要統(tǒng)籌規(guī)劃所有的資源,這是非常難的。此外,我們還需要在保證服務水平的前提下,盡可能減少運輸成本,并提升資源利用率,提高物流響應速度。這個過程中,需要比較強的算法來支持。而我們的車輛調度優(yōu)化算法能顯著提高運輸效率,解決裝箱問題、資源匹配不合理、城市分區(qū)等現(xiàn)實中存在的業(yè)務約束問題,從而解放手工調度的人力成本。

在基于業(yè)務場景的選址方案方面,我們前面所舉的例子商超零售商業(yè)選址是基于全局的選址方案中的一種,我們會結合機器學習、深度學習以及運籌規(guī)劃的模型,去賦予新零售、新餐飲下的企業(yè)挖掘商圈和商機的機會,讓它們迅速科學地布局店鋪。此外我們還積累了很多城市數(shù)據(jù)等外源數(shù)據(jù),這些數(shù)據(jù)可以用來刻畫區(qū)域特點和激活商圈活力。

很多制造業(yè)也有相對應地解決方案,例如基于業(yè)務的工業(yè)排程、生產(chǎn)周期排班方案以及用戶分析、風險控制、產(chǎn)品設計等等。

除了這些項目產(chǎn)品,我們從中將項目經(jīng)驗沉淀下來,轉化為杉數(shù)的無形資產(chǎn),打造杉數(shù)智慧鏈。例如:

我們第一個產(chǎn)品 PonyPlus,也叫小馬駕駕,是一個運輸優(yōu)化系統(tǒng),通過特有的車輛調度優(yōu)化算法,在考慮時間窗、門店優(yōu)先級等多種業(yè)務約束條件的同時,統(tǒng)籌規(guī)劃所有資源,確保滿足客戶的服務要求,提供配送的最優(yōu)路徑、裝卸時間窗、司機排班以及箱內裝載等等業(yè)務的智能優(yōu)化解決方案,進而減少企業(yè)的用車數(shù)量、行駛距離和配送時間,從而降低總體運輸成本。目前,小馬駕駕還支持多種提送模式,涵蓋多種車輛的限行約束政策,支持運輸途中路線的實時再優(yōu)化,實用性很廣。

第二個是 StockGo,它是一個庫存管理系統(tǒng),也是我們從項目中沉淀下來的一個比較好的產(chǎn)品??紤]全維度的數(shù)據(jù),比如流量、轉化數(shù)據(jù)、庫存數(shù)據(jù)、采購數(shù)據(jù)、訂單數(shù)據(jù)、促銷數(shù)據(jù)等等,基本會考慮到商業(yè)場景中的所有落地信息,并采取多種預測算法,比如時間序列分析、機器學習預測、循環(huán)神經(jīng)網(wǎng)絡預測等等,能夠預測企業(yè)真實的動態(tài)銷量,從而針對不同的流量渠道和復雜的業(yè)務場景來提出智能、精準的庫存決策建議。

此外,我們還有一些實時定價系統(tǒng)。

這是我們公司之前合作過以及現(xiàn)在依舊保持合作的大型企業(yè)。創(chuàng)業(yè)兩年以來,杉數(shù)已積累了來自多個國內行業(yè)的標桿企業(yè)背書。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

下面是公司對員工提供的福利:

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

下面是我們公司正在招聘的一些崗位:

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

其中算法工程師分為運籌優(yōu)化和機器學習兩個方向,今天我們分享的涉及大數(shù)據(jù)層面的基本上屬于機器學習這個方向。另外一些開發(fā)崗位,我們也有一些人才需求的缺口。

大家可以通過我們的公眾號了解更多相關信息,另外,通過郵箱 job@shanshu.ai 可投遞簡歷。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

大家有問題也可以整理好發(fā)到我的郵箱 kezhen@shanshu.ai,我都會為大家解答。

趙珂珍老師分享結束后還對同學們提出的問題進行了回答,大家可以移步社區(qū)(http://ai.yanxishe.com/page/questionDetail/9077)進行詳細了解。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網(wǎng) AI 研習社社區(qū)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

問答部分:

1. 請問招應屆生嗎?

招應屆生。雖然我們的招聘要求上寫著要求 2 年以上工作經(jīng)驗,但我們也鼓勵碩士、博士應屆生加入,我們這邊也有很多員工本科階段過來實習,最后留在公司。我們實習崗位,比正式員工要求也低一些。基于我的求職經(jīng)驗,我建議大家嘗試找一些實習,因為實習能讓你了解到這個行業(yè)大概做什么內容,并且有機會接觸到工業(yè)界的大數(shù)據(jù),這些都會對正式求職加分不少。

2. 老師在斯坦福讀的什么專業(yè)?

我讀的是環(huán)境流體力學。

3. 請問工業(yè)界積存的原始數(shù)據(jù)來源收集方法。

這個要結合工業(yè)界的具體場景來說,目前一些數(shù)據(jù)部分來自于爬蟲,所以公司也會有一個跟爬蟲相關的崗位。

4. 數(shù)據(jù)分析實習職位只會 SQL 和 Python 能申請嗎,還需要其他的技能嗎?我是純理工生,老師講的業(yè)務不太懂。

如果你會 SQL 和 Python,有很多加分,但也要求較強的 Excel 技能,因為在工作中需要將數(shù)據(jù)調到 Excel 中進行數(shù)據(jù)維度的處理。另外,業(yè)務方面的知識,對現(xiàn)在掌握多少沒有太大要求,但是你在具體工業(yè)場景中要有對業(yè)務的理解和學習能力,如果有必要的話,可以到業(yè)務一線去實習一段時間。

現(xiàn)在很多大公司都有這類崗位的培訓機制。大家掌握一些技能就可以大膽去找工作,并在工作中不斷進行業(yè)務層面的積累和沉淀。

5. 數(shù)據(jù)怎么來的?

很多工業(yè)數(shù)據(jù)都是自己建立數(shù)據(jù)庫,再進行不斷維護更新?,F(xiàn)在之所以說工業(yè)界處于擴寬的階段,就是因為很多數(shù)據(jù)不是那么完備,在維護上還有很多缺口,處理的任務會非常繁重。

而互聯(lián)網(wǎng)上的數(shù)據(jù),需要使用數(shù)據(jù)搜索能力,使用爬蟲技術來獲得外部數(shù)據(jù)源。大型互聯(lián)網(wǎng)公司相關崗位的工作,會基于內部的大數(shù)據(jù)平臺取數(shù),并基于 spark 這樣的平臺存儲數(shù)據(jù),按照具體場景取數(shù)使用。

6.CS229 是啥?

CS229 是斯坦福的一門機器學習課程,非常有名,其涵蓋了傳統(tǒng)機器學習的大多數(shù)內容。大家可以搜索一下課程課號,網(wǎng)上有詳細的介紹,公開學習平臺都有這些課程,但可能有一些刪減,大家可以參考一下我提供的資料(http://sendanywhe.re/900QEJJZ)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

杉數(shù)科技趙珂珍:大數(shù)據(jù)分析工程師的求職分享—從大廠到初創(chuàng)企業(yè)的決策之路 | AI 研習社職播間第 5 期

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說