一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng)

本文作者：陳彩嫻

2020-09-01 17:06

導(dǎo)語(yǔ)：在討論中，賈揚(yáng)清認(rèn)為：沒(méi)有算法工程師這個(gè)角色，只有兩個(gè)角色，一個(gè)是算法的研究人員，一個(gè)是應(yīng)用的工程師，而“調(diào)參俠”沒(méi)有市場(chǎng)。

算法工程師不僅需要具備牛逼的算法能力，還要精通業(yè)務(wù)、善于溝通？（小本子趕緊記下來(lái)！）

8月23日晚，知乎直播“AI時(shí)代聽(tīng)大咖聊”邀請(qǐng)到AI領(lǐng)域的兩個(gè)大神，分別是阿里云智能高級(jí)研究員賈揚(yáng)清，以及知乎CTO李大海。

在直播中，賈揚(yáng)清與李大海就國(guó)內(nèi)外AI研究區(qū)別、在校生/職場(chǎng)新人如何培養(yǎng)自己的AI才能、AI應(yīng)用落地，以及AI在未來(lái)的發(fā)展趨勢(shì)展開(kāi)討論。

在討論中，賈揚(yáng)清認(rèn)為：沒(méi)有算法工程師這個(gè)角色，只有兩個(gè)角色，一個(gè)是算法的研究人員，一個(gè)是應(yīng)用的工程師，而“調(diào)參俠”沒(méi)有市場(chǎng)。

另外，作為Caffe、PyTorch和Tensorflow曾經(jīng)的核心開(kāi)發(fā)者，他還提到，深度學(xué)習(xí)框架并不會(huì)出現(xiàn)大一統(tǒng)的局面，因?yàn)楝F(xiàn)實(shí)中需求很多，并沒(méi)有一家機(jī)器學(xué)習(xí)框架能夠囊括所有的需求。

一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng) 視頻鏈接：https://www.zhihu.com/zvideo/1280989974280634368

AI科技評(píng)論對(duì)本次分享作了不改變?cè)獾恼砼c編輯：

“專(zhuān)業(yè)”除草，沒(méi)想到賣(mài)了3億美元

Q1：能否請(qǐng)兩位聊一下國(guó)內(nèi)外做AI領(lǐng)域的研究有什么區(qū)別？

賈揚(yáng)清：首先，國(guó)內(nèi)外的工程師都很用功，而且都追求最新的技術(shù)。個(gè)人認(rèn)為國(guó)內(nèi)的工程師更關(guān)注如何把方法與業(yè)務(wù)結(jié)合起來(lái)，而國(guó)外在AI方面有一些很好玩的事情。

舉兩個(gè)例子：一個(gè)是，如今很多農(nóng)產(chǎn)品（比如黃瓜）在運(yùn)去超市前需要篩選出大小、質(zhì)量等許多方面合格的產(chǎn)品。以前都是用手分揀的，很麻煩，但自從有了深度學(xué)習(xí)的框架TensorFlow之后，有精通工程的年輕農(nóng)民就結(jié)合算法，使用機(jī)器學(xué)習(xí)自動(dòng)對(duì)黃瓜進(jìn)行分類(lèi)，實(shí)現(xiàn)了：大一點(diǎn)的黃瓜送超市，小一點(diǎn)的拿去做零售。

第二個(gè)是，我有一個(gè)研究生同學(xué)把Raspberry Pi放在后院，后院里有一個(gè)喂鳥(niǎo)的地方，松鼠經(jīng)常過(guò)來(lái)，他就拿那個(gè)Raspberry Pi識(shí)別松鼠，松鼠一來(lái)就把它趕走。這些技術(shù)看著好像沒(méi)有什么用處，但后來(lái)產(chǎn)生了非常多應(yīng)用。硅谷有一個(gè)公司叫Blue River Technology，他們做的事情是運(yùn)用技術(shù)在田間地頭找雜草、除雜草，有點(diǎn)類(lèi)似篩黃瓜、找松鼠。這個(gè)公司后來(lái)被美國(guó)最大的農(nóng)機(jī)制造商約翰迪爾公司以3億美元收購(gòu)了。他們很多時(shí)候是出于純粹的技術(shù)好奇心，但后來(lái)創(chuàng)造了一個(gè)產(chǎn)業(yè)。我覺(jué)得這是國(guó)外蠻有意思的一點(diǎn)。

一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng) 直播截圖

李大海：揚(yáng)清講的這個(gè)公司我有印象，他們通過(guò)識(shí)別雜草、然后定點(diǎn)噴灑除草劑，雜草率可以降低到原來(lái)的10%。硅谷的公司一直有這個(gè)文化。當(dāng)時(shí)我在谷歌的時(shí)候，Eric（谷歌執(zhí)行董事長(zhǎng)）曾經(jīng)講過(guò)一個(gè)很好玩的故事：當(dāng)時(shí)在谷歌有一個(gè)柜子專(zhuān)門(mén)放T恤。在谷歌，無(wú)論發(fā)生什么，他們都會(huì)把事件印在T恤上，不定期往柜子里塞，然后大家去搶。當(dāng)時(shí)柜子附近有一個(gè)攝像頭，Eric就基于攝像頭寫(xiě)了一些代碼去監(jiān)控這個(gè)柜子。一旦識(shí)別出這個(gè)柜子附近有人，攝像頭就會(huì)發(fā)出“警報(bào)”來(lái)通知Eric，然后Eric一看到有人往柜子里面塞T恤就去搶。在美國(guó)，這些工程師會(huì)自發(fā)地去做這種（技術(shù)應(yīng)用的）微創(chuàng)新。

國(guó)內(nèi)工程師在創(chuàng)新方面與國(guó)外可能有一些差別。目前國(guó)內(nèi)的AI應(yīng)用場(chǎng)景已經(jīng)很廣。比如說(shuō)，在知乎的工程團(tuán)隊(duì)里，大概1/6的人都是算法工程師。在工業(yè)界，算法確實(shí)已經(jīng)滲透到應(yīng)用場(chǎng)景的方方面面。第二點(diǎn)是，AI應(yīng)用從互聯(lián)網(wǎng)開(kāi)始逐漸推向越來(lái)越多的傳統(tǒng)企業(yè)和傳統(tǒng)行業(yè)。但在個(gè)人層面，與國(guó)外相比，國(guó)內(nèi)的工程師可能較少會(huì)自發(fā)去發(fā)現(xiàn)一些微小的創(chuàng)新機(jī)會(huì)，并實(shí)現(xiàn)它。

如何優(yōu)雅入“AI”這個(gè)坑

Q2：作為一個(gè)在校生，我要如何將學(xué)習(xí)與業(yè)務(wù)結(jié)合，如何培養(yǎng)自己的AI能力、才能進(jìn)入比較好的互聯(lián)網(wǎng)公司呢？

李大海：我們一般稱(chēng)掌握了AI知識(shí)的同學(xué)為“算法工程師”。算法工程師在本質(zhì)上首先是一個(gè)工程師，所以一個(gè)工程師所具備的能力，算法工程師也應(yīng)該具備，例如說(shuō)：1）代碼能力，能夠通過(guò)代碼實(shí)現(xiàn)自己的想法；2）數(shù)據(jù)能力，即能夠?qū)?shù)據(jù)進(jìn)行分析，并發(fā)現(xiàn)數(shù)據(jù)所包含的重點(diǎn)，同時(shí)對(duì)數(shù)據(jù)進(jìn)行處理；3）與人溝通的能力，因?yàn)樗惴üこ處煻际窃趫F(tuán)隊(duì)里面工作，不是單打獨(dú)斗，所以需要能夠與同組的其他工程師、產(chǎn)品經(jīng)理、測(cè)試和其他同事進(jìn)行溝通。

第二點(diǎn)是算法工程師需要培養(yǎng)業(yè)務(wù)能力，即對(duì)業(yè)務(wù)的理解。工程師首先要掌握業(yè)務(wù)應(yīng)用的知識(shí)。業(yè)務(wù)場(chǎng)景非常多，但每個(gè)場(chǎng)景所面臨的問(wèn)題是不一樣的，所以算法工程師一定要理解業(yè)務(wù)到底是需要解決什么問(wèn)題，具備定位問(wèn)題、發(fā)現(xiàn)問(wèn)題、拆解問(wèn)題和解決問(wèn)題的能力。

綜上，對(duì)于在校生來(lái)說(shuō)，擁有對(duì)算法的理解能力是非常重要的特質(zhì)。雖然算法工程師都喜歡自黑，稱(chēng)自己是“調(diào)參俠”，但除了調(diào)參之外，還需要知道算法背后的原理。我們現(xiàn)在處于深度學(xué)習(xí)時(shí)代，但是在“前深度學(xué)習(xí)時(shí)代”有很多淺層模型，這些模型因?yàn)闆](méi)有深度學(xué)習(xí)碾壓式的表達(dá)能力，所以在淺層模型上做了很多思考。

個(gè)人認(rèn)為：“當(dāng)年”那些模型所用到的技巧對(duì)于培養(yǎng)機(jī)器學(xué)習(xí)的能力和解決現(xiàn)實(shí)問(wèn)題是非常重要。

一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng) 直播截圖

賈揚(yáng)清：同意大海的觀點(diǎn)：分析問(wèn)題，定義問(wèn)題，然后解決問(wèn)題的整個(gè)邏輯非常重要。在校生得到的訓(xùn)練更多是：如何解決問(wèn)題的能力。但其實(shí)如果問(wèn)題定義清楚了，解決問(wèn)題的方法就會(huì)出現(xiàn)很多。

另外，從工程的角度補(bǔ)充兩點(diǎn)：第一，如何獲取最新的技術(shù)和算法？現(xiàn)在整個(gè)開(kāi)源領(lǐng)域進(jìn)展迅速。其實(shí)，不光是開(kāi)源，也有很多開(kāi)發(fā)支持平臺(tái)。所以，大家可以保持好奇心，然后多帶著玩的心態(tài)進(jìn)行嘗試。例如三年前，名為叫Neural Style Transfer的AI應(yīng)用，將拍的照片上傳之后，就可以轉(zhuǎn)換成一張類(lèi)似梵高風(fēng)格的藝術(shù)照。

一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng)

第二是，“摸透”應(yīng)用的實(shí)現(xiàn)流程。落地應(yīng)用是“曇花一現(xiàn)”，但應(yīng)用背后所涉及的工程步驟，例如把算法快速地迭代出來(lái)、如何做算法優(yōu)化、如何把算法放到手機(jī)上，如何上線(xiàn)，等等。這種實(shí)際操作的流程和只看論文和demo是不一樣的。今天，我們有GitHub這類(lèi)的開(kāi)源社區(qū)，很多實(shí)際操作都比以前更加容易。

李大海：我想補(bǔ)充一點(diǎn)。有段時(shí)間我訂閱過(guò)arXiv上面的 topic，但我發(fā)現(xiàn)這是個(gè)坑。arXiv最近在機(jī)器學(xué)習(xí)領(lǐng)域非常火熱，每天都大量的論文發(fā)布出來(lái)，其中包含很多不同領(lǐng)域的或大或小的突破，這其實(shí)會(huì)讓人眼花繚亂。所以在這種情況下，我給學(xué)生們的建議是：自己先抓住一個(gè)重點(diǎn)（領(lǐng)域），至于其他領(lǐng)域，簡(jiǎn)單了解那些技術(shù)和突破是什么就好。

Q3：假設(shè)一個(gè)同學(xué)已經(jīng)入職了，已經(jīng)成為算法工程師，他可能會(huì)經(jīng)歷初級(jí)、中級(jí)、高級(jí)三個(gè)階段。所以，關(guān)于初級(jí)算法工程師怎么晉升到中級(jí)算法工程師，以及中級(jí)算法工程師怎么晉升到高級(jí)算法工程師，兩位有何看法？

賈揚(yáng)清：我覺(jué)得挺重要的一點(diǎn)是學(xué)習(xí)是所謂的engineering practice（工程實(shí)踐）。很多時(shí)候，我們?cè)趯?xiě)研究代碼時(shí)，跟研究本質(zhì)是一樣的，因?yàn)檠芯渴强焖俚恍枰龉こ虒?shí)現(xiàn)。假如，今天要上線(xiàn)一個(gè)功能，不僅要保證它的整個(gè)foundation（基礎(chǔ)）是solid（堅(jiān)固）的。這時(shí)候，我們?cè)趺醋龃a的管理、協(xié)同、review（審查）、測(cè)試、CD和上線(xiàn)？怎么做 performance（性能）的benchmark（基準(zhǔn)）跟profiling ？這一系列的工程流程也挺重要。

第二點(diǎn)是保持好奇心。其實(shí)任何一個(gè)公司的平臺(tái)都是挺大的。拿阿里大數(shù)據(jù)和AI平臺(tái)來(lái)舉例子，像ODPS（Open Data Processing Service）大數(shù)據(jù)平臺(tái)是10年前開(kāi)始建造的，今天平臺(tái)非常復(fù)雜，包括上層的C語(yǔ)言庫(kù)、中間的 Query Optimization（查詢(xún)優(yōu)化）和底層的執(zhí)行調(diào)度，肯定不能完全把握。在這個(gè)時(shí)候，算法工程師就要與他人保持交流，多提問(wèn)、多討論。就像T型，對(duì)系統(tǒng)的某一點(diǎn)了解特別深，對(duì)系統(tǒng)的其他部分就觸類(lèi)旁通。逐漸成為一個(gè)高級(jí)算法工程師之后呢，成為一個(gè)架構(gòu)師所擁有的能力，其實(shí)也能使得我們?cè)诟吹酶鼘?、看得更大的同時(shí)，有一個(gè)更加全局的系統(tǒng)架構(gòu)的視野。

Q4：揚(yáng)清有沒(méi)有一些具體的建議？比如說(shuō)你在學(xué)生時(shí)代是怎么學(xué)習(xí)的？用什么途徑獲取到新的 AI資訊，遇到問(wèn)題怎么解決？

賈揚(yáng)清：在我學(xué)生時(shí)代，當(dāng)時(shí)大家了解深度學(xué)習(xí)的算法是通過(guò)看論文，看完論文后大概就知道怎么做架構(gòu)設(shè)計(jì)。在看論文的過(guò)程中會(huì)有非常多的輸入，比如我們學(xué)到，人們最開(kāi)始寫(xiě)深度學(xué)習(xí)框架的時(shí)候（Torch是2000年左右出來(lái)的，Theano是2008年出來(lái)的），它們的架構(gòu)設(shè)計(jì)怎么做神經(jīng)網(wǎng)絡(luò)、怎么做layer（層數(shù)）等等，這對(duì)我們后來(lái)設(shè)計(jì)其他的框架，像Caffe、MXNet、PyTorch等等，是非常有幫助的。再比如說(shuō)，我們?cè)趺礃幼瞿Ｐ蚦ivilization的格式化等等，這時(shí)候谷歌的ProtoBuf又是一個(gè)很好的測(cè)試框架，如G test。這些現(xiàn)有的工程實(shí)踐以及設(shè)計(jì)有現(xiàn)成的代碼、文檔和應(yīng)用，看這些其實(shí)能夠在實(shí)際中提升自己的能力。

李大海：我非常贊同揚(yáng)清的觀點(diǎn)，就是在學(xué)校的時(shí)候我們會(huì)更關(guān)注代碼的算法上是否足夠精妙，但是對(duì)架構(gòu)和工程的關(guān)注度是不夠的。我自己在早年的時(shí)候也犯過(guò)這樣的錯(cuò)誤，像我們數(shù)學(xué)系畢業(yè)的，在工程上接受到的培訓(xùn)是偏少的，但進(jìn)入公司以后，工程實(shí)踐卻變得很重要。揚(yáng)清之前在一次線(xiàn)下分享中曾提到的一句話(huà)我也很贊同，就是：AI是一個(gè)系統(tǒng)工程，90%的時(shí)間里所做的事情都跟算法無(wú)關(guān)。在現(xiàn)實(shí)中也確實(shí)是這樣。

那么，作為剛?cè)肼毜耐瑢W(xué)，其實(shí)首先我認(rèn)為入職已經(jīng)晚了，在入職前就應(yīng)該挑選一個(gè)在工程上相對(duì)規(guī)范的公司去入職。如果是一個(gè)小公司，自己又沒(méi)有工程上的 sense（意識(shí)），那么你進(jìn)入的是一個(gè)工程規(guī)范很亂的一家公司，這對(duì)于個(gè)人的職業(yè)發(fā)展和工程能力的培養(yǎng)是很有問(wèn)題的。

Q5：想請(qǐng)問(wèn)兩位 AI從業(yè)者，你們覺(jué)得跟其他AI從業(yè)者比，你們最大的優(yōu)勢(shì)是什么？

賈揚(yáng)清：在AI領(lǐng)域里，在業(yè)界做得非常成功的人或團(tuán)隊(duì)都有一個(gè)特點(diǎn)，就是業(yè)務(wù)化。他們不光懂算法，而且懂得怎么用算法。因?yàn)樵诮裉?，算法已?jīng)迅速普及，找一個(gè)研究生，兩分鐘就能搞出ResNet。

另外，AI算法的創(chuàng)新在逐漸變慢。比如說(shuō)，Bert在NLP領(lǐng)域，ResNet在CV領(lǐng)域都已經(jīng)比較成熟。雖然算法創(chuàng)新還可以稍微提升一下，但算法已經(jīng)不是一個(gè)核心的differentiate（區(qū)別點(diǎn)）。在這種情況下，怎么樣找到實(shí)際應(yīng)用場(chǎng)景，如何把算法和應(yīng)用結(jié)合起來(lái)，我覺(jué)得這是最能體現(xiàn)出價(jià)值的地方。所以，如今AI的突破可能不是在算法上，而是“算法+系統(tǒng)+應(yīng)用”，而且應(yīng)用可能會(huì)變得越來(lái)越重要。

李大海：我們還處于AI的應(yīng)用層。AI現(xiàn)在已經(jīng)是一個(gè)非常大的框，里面可以放非常多東西，領(lǐng)域也非常廣。我覺(jué)得我們更像是AI行業(yè)的從業(yè)者，是把AI當(dāng)成一個(gè)功能強(qiáng)大的工具去使用。

我們的團(tuán)隊(duì)內(nèi)部曾經(jīng)很喜歡一個(gè)國(guó)外經(jīng)濟(jì)學(xué)家寫(xiě)的一本書(shū)，叫《與運(yùn)氣競(jìng)爭(zhēng)》。

一份來(lái)自賈揚(yáng)清的AI青年修煉指南：不存在算法工程師、調(diào)參俠沒(méi)有市場(chǎng)

里面講到，當(dāng)我們手上有一把鉆子的時(shí)候，很容易想到的是我拿著鉆子可以干嘛？但其實(shí)很多時(shí)候，用戶(hù)可能只需要鉆一個(gè)孔來(lái)掛衣服。所以，如果你想的總是“如何提高鉆頭的合金程度”、“讓它變得更好看”，這可能根本就不是用戶(hù)想要的。

總的來(lái)說(shuō)，工具非常重要，我們對(duì)于 AI的理解和AI前沿技術(shù)的跟蹤也很重要，但更重要的事情是：用戶(hù)的需求到底在哪里，我們能解決什么問(wèn)題。

感知大神VS決策白癡

Q6：現(xiàn)在人工智能處于什么發(fā)展階段？它未來(lái)會(huì)給我們帶來(lái)哪些改變？它的長(zhǎng)期規(guī)劃可能是什么樣的？

李大海：如果要判斷AI目前處于什么階段，我們得先知道AI的全景是什么樣子，但這個(gè)很難預(yù)測(cè)。這時(shí)又會(huì)涉及到：人工智能最后到底能走到什么階段？它能不能達(dá)到強(qiáng)人工智能的狀態(tài)？我的觀點(diǎn)是偏悲觀的，我覺(jué)得強(qiáng)人工智能可能永遠(yuǎn)都達(dá)不到。

但說(shuō)到應(yīng)用，我們可以看到，人工智能在許多領(lǐng)域里已經(jīng)打敗人了，比如說(shuō)圖片分類(lèi)。所以在應(yīng)用層面上我是很樂(lè)觀的。人工智能的歷史始于20世紀(jì)初，后來(lái)經(jīng)歷了一些起起伏伏。

到今天，AI可能有一些泡沫，但這個(gè)泡沫其實(shí)是AI公司在商業(yè)模式上遇到的問(wèn)題。但從技術(shù)層面上講，AI這個(gè)工具越來(lái)越強(qiáng)大，數(shù)據(jù)量越來(lái)越大，這些都是毋庸置疑的事情，所以在應(yīng)用層面上我是很看好的。

賈揚(yáng)清：從歷史的角度來(lái)看，計(jì)算機(jī)誕生的目的是為了更加智能化地處理人與世界交互的問(wèn)題。在人工智能最早的時(shí)候，大家都在處理決策的問(wèn)題。等決策系統(tǒng)做了一堆工作后，我們發(fā)現(xiàn)，其實(shí)我們首先都還不知道這個(gè)世界是如何從一個(gè)像素、語(yǔ)音“導(dǎo)入”到計(jì)算機(jī)邏輯的系統(tǒng)里。所以在前面這幾年，深度學(xué)習(xí)其實(shí)是在從決策層面轉(zhuǎn)到感知層面，從而來(lái)解決感知的問(wèn)題。

從感知的角度來(lái)說(shuō)，今天已經(jīng)相對(duì)較成熟。例如2014年，圖像識(shí)別的正確率在一個(gè)限定的范圍內(nèi)已經(jīng)超過(guò)人類(lèi)。

回過(guò)頭來(lái)看決策，人工智能的決策發(fā)展還不行。比如說(shuō)，在自動(dòng)駕駛里，我能感知這里有一輛車(chē)、那里有一個(gè)人，但是知道后如何做決策？邏輯是什么？甚至在一些更復(fù)雜的場(chǎng)景，例如限速25，但前面的車(chē)都超速往前開(kāi)了，這時(shí)候我又怎么辦呢？這些事情都是要在決策層面上解決的。人工智能很有可能會(huì)先解決感知/認(rèn)知問(wèn)題，然后在感知的基礎(chǔ)上做決策。

綜上，分領(lǐng)域來(lái)看，人工智能在認(rèn)知領(lǐng)域已經(jīng)到達(dá)非常成熟的階段，但在決策領(lǐng)域可能還處于初期的探索。

AI離不開(kāi)云

Q7：有一句話(huà)叫“AI是云的內(nèi)核，云是AI的必然形態(tài)?！比绾慰碅I和云的關(guān)系，以及AI在云里面扮演的角色。

賈揚(yáng)清：為什么今天我們說(shuō)云和AI是一個(gè)強(qiáng)結(jié)合的狀態(tài)呢？我覺(jué)得原因可能有兩點(diǎn)：一是算力，二是數(shù)據(jù)。從算力的角度來(lái)說(shuō)，以前我們?cè)趯W(xué)校做實(shí)驗(yàn)或自己創(chuàng)業(yè)的時(shí)候都搭過(guò)機(jī)器。搭機(jī)器很痛苦，而且運(yùn)維機(jī)器在一定程度上不產(chǎn)生價(jià)值，然后AI又對(duì)GPU有非常強(qiáng)烈的需求。GPU又是一個(gè)很惡心的事，有時(shí)候運(yùn)行不錯(cuò)，有時(shí)候又會(huì)過(guò)熱，有時(shí)候又需要我們做資源的調(diào)度等等。任何一個(gè)實(shí)驗(yàn)室都會(huì)遇到資源調(diào)度問(wèn)題：一個(gè)是科研人員在那找GPU的時(shí)候發(fā)現(xiàn)找不著，然后系統(tǒng)工程師跑去一看，說(shuō)：“哇天?。±寐屎玫?！”一邊是starvation（饑餓），一邊是satiation（飽和）。

如今，云可以很好地解決算力問(wèn)題。30年前，所有的單位都有一個(gè)發(fā)電機(jī)，但今天沒(méi)有人用發(fā)電機(jī)了，因?yàn)榈讓拥幕A(chǔ)設(shè)施已經(jīng)非常成熟，可以低成本、大規(guī)模地給社會(huì)提供電力。在今天，云的計(jì)算力就像水電煤一般的基礎(chǔ)設(shè)施，我們不需要擔(dān)心哪天機(jī)器哪里出了問(wèn)題。比如說(shuō)，今天我突然要拉起一個(gè)大量的應(yīng)用，這個(gè)時(shí)候云可以“soo”一聲彈上來(lái)，不要了就放掉。這是算力方面。

第二個(gè)是數(shù)據(jù)。前段時(shí)間，許多人關(guān)注深度學(xué)習(xí)領(lǐng)域，如圖像、語(yǔ)音等等。但許多AI應(yīng)用其實(shí)是跟結(jié)構(gòu)化數(shù)據(jù)綁在一塊的。咱們舉個(gè)例子。比如說(shuō)像知乎有大量的用戶(hù)內(nèi)容，這涉及到兩方面：一方面是自然語(yǔ)言的處理，另一方面是用戶(hù)和內(nèi)容的匹配。這時(shí)候，其實(shí)是在一個(gè)大數(shù)據(jù)底座（像Hadoop和MaxComput）上面做結(jié)構(gòu)化數(shù)據(jù)的人工智能。

這和一個(gè)大規(guī)模分布式系統(tǒng)是分不開(kāi)的，因?yàn)槲也豢赡芙裉煺f(shuō)把這些數(shù)據(jù)放到一個(gè)GPU機(jī)器上面，拿三個(gè)SSD把它給接起來(lái)。所以這時(shí)候就需要一套比較完整的系統(tǒng)，從數(shù)據(jù)的存儲(chǔ)、處理、分析到計(jì)算，到上層去進(jìn)行任務(wù)的編排、模型的開(kāi)發(fā)、模型的上線(xiàn)，以及數(shù)據(jù)的回流。無(wú)論用戶(hù)是自己搭一個(gè)系統(tǒng)（我們叫“私有云”），還是在公有云上面進(jìn)行，云都是AI不可或缺的一個(gè)環(huán)境。

今天的AI，越來(lái)越多會(huì)關(guān)注到系統(tǒng)、云。這也標(biāo)志著AI未來(lái)發(fā)展的必然形態(tài)。目前，算法能夠“單機(jī)”開(kāi)發(fā)，但是如何運(yùn)用算法，則需要算力和數(shù)據(jù)的支持，因此也會(huì)需要云和云相關(guān)的技術(shù)。

我現(xiàn)在在做的工作是把AI和大數(shù)據(jù)進(jìn)行結(jié)合。例如，前段時(shí)間我們發(fā)現(xiàn)：深度學(xué)習(xí)的工程師會(huì)發(fā)現(xiàn)目前的大數(shù)據(jù)平臺(tái)不能滿(mǎn)足需求。因?yàn)檫^(guò)去需要數(shù)據(jù)庫(kù)管理結(jié)構(gòu)化數(shù)據(jù)，而如今需要大數(shù)據(jù)逐漸向這種深度學(xué)習(xí)的應(yīng)用領(lǐng)域進(jìn)行改變。

另一方面，對(duì)于結(jié)構(gòu)化的應(yīng)用工程師來(lái)說(shuō)，當(dāng)存在推薦系統(tǒng)的需求時(shí)，所需要的并不是把所有的代碼寫(xiě)出來(lái)，而是通過(guò)更加靈活的“拖拉拽”等方式。因此，過(guò)去是從大數(shù)據(jù)的角度進(jìn)行AI落地，而未來(lái)一到兩年內(nèi)需要從系統(tǒng)的層面，推動(dòng)非結(jié)構(gòu)化深度學(xué)習(xí)場(chǎng)景和結(jié)構(gòu)化“傳統(tǒng)經(jīng)濟(jì)學(xué)產(chǎn)品”進(jìn)步。

算法工程師的未來(lái)“兇多吉少”

Q8：AI工程師和AI算法工程師之間有何不同？各自的發(fā)展趨勢(shì)是怎樣的？?jī)烧邥?huì)不會(huì)融合？

李大海：在谷歌內(nèi)部，AI的工作是普通的工程師在進(jìn)行，只要把問(wèn)題描述清楚，然后放到“系統(tǒng)”上，系統(tǒng)就能夠給出一個(gè)大概的解決方案。在未來(lái)，隨著技術(shù)的發(fā)展，AI和AI工程的門(mén)檻會(huì)越來(lái)越低。這就意味著AI工程師的從業(yè)門(mén)檻也會(huì)越來(lái)越低。

但是有許多缺口需要AI工程師補(bǔ)充，所以，AI工程師也需要積累算法。因此，從這個(gè)角度來(lái)看，AI工程師既需要懂架構(gòu)，又需要懂算法。對(duì)于學(xué)生或者剛進(jìn)入工作的職場(chǎng)新人而言，需要好好塑造自己的方法論，快速補(bǔ)充自己，根據(jù)自己的業(yè)務(wù)需求讓自己的能力變強(qiáng)。

其實(shí)，無(wú)論是在谷歌還是在知乎，我們招聘工程師都有一個(gè)標(biāo)準(zhǔn)，即希望工程師足夠聰明，能夠快速學(xué)習(xí)，可以根據(jù)自己的業(yè)務(wù)補(bǔ)充“技能樹(shù)”。

綜上，無(wú)論是算法還是工程，其基礎(chǔ)能力和學(xué)習(xí)能力非常重要。

賈揚(yáng)清：我來(lái)討論可能相對(duì)比較有爭(zhēng)議性的話(huà)題：個(gè)人認(rèn)為沒(méi)有算法工程師這個(gè)角色，只有兩個(gè)角色，一個(gè)是算法的研究人員，一個(gè)是應(yīng)用的工程師，而“調(diào)參俠”沒(méi)有市場(chǎng)。因?yàn)?，有的調(diào)參工作只需要寫(xiě)for 循環(huán)語(yǔ)句即可。

算法的科研人員更多是攻堅(jiān)“更好的算法”，例如在計(jì)算機(jī)視覺(jué)領(lǐng)域，可能要把模型做得更大、更準(zhǔn)，在某些問(wèn)題上需要把模型做得更小。當(dāng)然，在具體量化的過(guò)程中，需要在兩者之間進(jìn)行平衡。也就是說(shuō)，科研人員更多是思考如何在一些“普遍”的場(chǎng)景下對(duì)算法進(jìn)行創(chuàng)新。

在具體的應(yīng)用過(guò)程中，調(diào)參只是一個(gè)手段。例如，在無(wú)人駕駛領(lǐng)域，其場(chǎng)景和機(jī)場(chǎng)的云點(diǎn)識(shí)別的場(chǎng)景非常類(lèi)似，但是其數(shù)據(jù)的分布不一樣，所要做的事情不一樣。應(yīng)用工程師更多的是了解其背后的業(yè)務(wù)場(chǎng)景差距和限制，例如傳統(tǒng)的約束滿(mǎn)足問(wèn)題(CSP)。所以，應(yīng)用工程師更多的是對(duì)端到端進(jìn)行整合，找到最優(yōu)的方向進(jìn)行調(diào)參，也就是說(shuō)，調(diào)參只是一個(gè)手段。綜上，調(diào)參俠沒(méi)有市場(chǎng)，現(xiàn)實(shí)中只存在算法科研人員和應(yīng)用工程師。

小板凳蹲阿里、知乎的AI展望

Q9：AI的發(fā)展情況如何？在知乎和阿里有哪些技術(shù)沉淀？未來(lái)的應(yīng)用情況、重點(diǎn)投入的AI方向是什么？

李大海：目前的AI工作和場(chǎng)景結(jié)合緊密。抽象來(lái)看，（知乎）有三大方向：一是內(nèi)容生產(chǎn)，如何利用AI讓內(nèi)容生產(chǎn)進(jìn)行更有效率，例如創(chuàng)作者匹配、激活創(chuàng)作者；二是內(nèi)容理解，建立內(nèi)容概述，對(duì)內(nèi)容質(zhì)量有初步把握，例如內(nèi)容底線(xiàn)內(nèi)容在哪里？?jī)?nèi)容是不是帶有辱罵性質(zhì)？是不是有極端（仇恨）情緒；三是內(nèi)容分發(fā)，這個(gè)方向建立在第二個(gè)方向基礎(chǔ)之上，但不再僅僅局限在內(nèi)容的理解上，還需要對(duì)用戶(hù)進(jìn)行理解。具體而言有兩種情況，一是用戶(hù)主動(dòng)搜索，將AI算法賦能到搜索引擎里；二是，被動(dòng)推薦，將高質(zhì)量?jī)?nèi)容推薦給合適用戶(hù)。

那知乎在文本方面（NLP）有哪些工作呢？主要有兩個(gè)方面，一是分詞，例如最近的一次迭代結(jié)果是：F1的值從91%上漲到93.5%。二是詞性的判斷，這類(lèi)工作包括命名實(shí)體識(shí)別、消歧等等。

賈揚(yáng)清：阿里有很多團(tuán)隊(duì)在研究AI，例如阿里的PAI團(tuán)隊(duì)致力于AI的開(kāi)發(fā)和治理的平臺(tái)，基本上阿里的所有工程師都會(huì)在上面做開(kāi)發(fā)，達(dá)摩院的同學(xué)就會(huì)在上面構(gòu)建很多應(yīng)用和落地的算法，包含圖片、語(yǔ)音等等。

具體而言，阿里在開(kāi)發(fā)和工程平臺(tái)上基本上有三方面的應(yīng)用，首先是AI和大數(shù)據(jù)的結(jié)合，目的是在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域里，如何讓?xiě)?yīng)用工程師、或者數(shù)據(jù)科學(xué)家更加容易使用數(shù)據(jù)和算法。換句話(huà)說(shuō)，更加豐富、更加成熟、更加高效的算法的結(jié)合，目的是為公司提供需要的場(chǎng)景化的解決方案。最典型的例子有兩個(gè)，一個(gè)是搜索推薦，另外一個(gè)是金融風(fēng)控。這兩個(gè)領(lǐng)域?qū)I存在強(qiáng)需求。如果存在場(chǎng)景化的解決方案，那么就能讓其更容易將領(lǐng)域數(shù)據(jù)和AI相結(jié)合。

第二是更加云原生、順暢的AI的深度學(xué)習(xí)的體驗(yàn)。以往的大數(shù)據(jù)、深度學(xué)習(xí)平臺(tái)其結(jié)構(gòu)往往比較重，使用云原生“容器化”的能力可以構(gòu)建出一個(gè)和“自己”的開(kāi)發(fā)環(huán)境相符合的“產(chǎn)品”。例如在無(wú)人駕駛場(chǎng)景中，可以實(shí)現(xiàn)非常靈活的深度學(xué)習(xí)開(kāi)發(fā)，構(gòu)建靈活的深度學(xué)習(xí)應(yīng)用。

第三是更加成熟的工程化的AI算法的部署，旨在解決模型的穩(wěn)定程度和彈性以及檢測(cè)模型的性能。再者，如果有新的模型上線(xiàn)，如何進(jìn)行A/B 測(cè)試？如何回流模型的用戶(hù)反饋？等等都是需要考慮的問(wèn)題。

在阿里我們還進(jìn)行了一些“隱形”的工程能力。例如，針對(duì)系統(tǒng)利用率低，我們做了資源調(diào)度、資源的編排管理等工作。具體而言，我們?cè)贠SDI這一會(huì)議發(fā)布了異構(gòu)相關(guān)文章，還發(fā)布了在推理的框架里如何自動(dòng)生成代碼等論文。這些工作在產(chǎn)品中顯現(xiàn)不清楚，但是確確實(shí)實(shí)能夠幫助平臺(tái)降成本，增效率。

Q10：有何展望？阿里云會(huì)不會(huì)有自己的深度學(xué)習(xí)框架？接下來(lái)有哪些新的產(chǎn)品形態(tài)？

賈揚(yáng)清：接下來(lái)在產(chǎn)品形態(tài)上會(huì)把產(chǎn)品做得更加成熟，更加模塊化。目的是讓大家根據(jù)自己的需求進(jìn)行靈活選擇，模塊化的靈活組合。

另外，也會(huì)著重強(qiáng)調(diào)穩(wěn)定性和用戶(hù)體驗(yàn)。關(guān)于深度學(xué)習(xí)框架，個(gè)人邏輯是：從需求出發(fā)。TensorFlow和Pytorch其出現(xiàn)的原因也是這個(gè)邏輯，例如TensorFlow能夠迎合“在一個(gè)大規(guī)模的彈性系統(tǒng)上面，靈活構(gòu)建高性能AI的需求”。

但是TensorFlow也有學(xué)習(xí)難度比較大的弱點(diǎn)。所以針對(duì)學(xué)習(xí)難度問(wèn)題，出現(xiàn)了Pytorch。目前，這兩者也在相互借鑒，例如TensorFlow在增強(qiáng)用戶(hù)體驗(yàn)，Pytorch在增強(qiáng)系統(tǒng)能力。所以，從需求的角度來(lái)看，這兩者在一定程度上很好的解決了用戶(hù)體驗(yàn)問(wèn)題。

設(shè)計(jì)深度學(xué)習(xí)框架切記不要 meet to product，即和TensorFlow和PyTorch在結(jié)構(gòu)上不一樣，但是所能夠滿(mǎn)足的需求，能夠做的事情是一樣的。（賈揚(yáng)清意思是：這種框架不值得）

其實(shí)，個(gè)人認(rèn)為，當(dāng)前最重要的價(jià)值是如何更好的對(duì)接軟硬件的協(xié)同設(shè)計(jì)，不光是大規(guī)模的系統(tǒng)，如何將眾多的芯片（例如平頭哥芯片、AMD芯片、蘋(píng)果芯片）和框架進(jìn)行對(duì)接，也是一個(gè)非?，F(xiàn)實(shí)的工程問(wèn)題。

所以，軟硬件系統(tǒng)的設(shè)計(jì)才是核心問(wèn)題，能否出現(xiàn)新的深度學(xué)習(xí)框架，這個(gè)框架將會(huì)解決什么問(wèn)題，也都會(huì)圍繞這個(gè)核心問(wèn)題。

精挑細(xì)選的問(wèn)答

問(wèn)答1：作為CTO，管理著上百人的技術(shù)團(tuán)隊(duì)，你們一天的工作內(nèi)容是什么？

李大海：技術(shù)體系的工作分為兩種，第一種是建體制，即從機(jī)制層面思考創(chuàng)造讓團(tuán)隊(duì)認(rèn)真工作的環(huán)境。讓大家覺(jué)得工作更愉悅，工作目標(biāo)更明確。如果這個(gè)問(wèn)題解決不好，直接會(huì)影響工程團(tuán)隊(duì)的組織能力，會(huì)影響到團(tuán)隊(duì)的文化氛圍。

第二種是對(duì)重點(diǎn)的工作領(lǐng)域進(jìn)行分類(lèi)，在幾百人的團(tuán)隊(duì)里，我們的工作覆蓋面非常廣，所以我會(huì)關(guān)注到哪些領(lǐng)域的重要程度最高，然后判斷現(xiàn)狀和重要程度之間的差距如何。雷鋒網(wǎng)

最后，我作為全局領(lǐng)導(dǎo)者，擁有的信息比較全面。也會(huì)關(guān)注擁有部分信息的員工所作出的決策，如果他出現(xiàn)錯(cuò)誤，我會(huì)進(jìn)行糾正。雷鋒網(wǎng)

賈揚(yáng)清：有四個(gè)方面，第一做事情，即如何搭建平臺(tái)，如何進(jìn)行業(yè)務(wù)，這里涉及到和阿里云的其他團(tuán)隊(duì)進(jìn)行對(duì)接，討論需求，商量決策。雷鋒網(wǎng)

第二是如何通過(guò)團(tuán)隊(duì)之間的良好溝通，確保團(tuán)隊(duì)的戰(zhàn)斗力。這需要考慮人的喜怒哀樂(lè)，需要考慮組織溫度。

第三，如何構(gòu)建機(jī)制，我們的做法是通過(guò)“戰(zhàn)役”進(jìn)行確定重點(diǎn)方向，例如針對(duì)用戶(hù)體驗(yàn)，用戰(zhàn)役的機(jī)制進(jìn)行討論、執(zhí)行，確保能夠做出用戶(hù)需要的產(chǎn)品。

第四，自我學(xué)習(xí)。在做管理的時(shí)候，感覺(jué)自身有很多不足的地方。并且，我的知識(shí)儲(chǔ)備和團(tuán)隊(duì)相比并不會(huì)雄厚。所以，需要自我學(xué)習(xí)，提升能力，從而更好的管理團(tuán)隊(duì)。

總結(jié)一下，我在阿里云做管理，涉及到的工作是：人、機(jī)制、自我學(xué)習(xí)。

問(wèn)答2：會(huì)不用有一個(gè)大一統(tǒng)深度學(xué)習(xí)框架？

賈揚(yáng)清：我覺(jué)得不會(huì)，例如可口可樂(lè)和百事可樂(lè)；安卓和ios ，mac和windows。曾經(jīng)看到過(guò)這么一個(gè)經(jīng)濟(jì)學(xué)觀點(diǎn)，我們的現(xiàn)實(shí)需求很多，并沒(méi)有一家能夠囊括所有的需求。例如在最好的語(yǔ)言評(píng)選中，數(shù)據(jù)科學(xué)家更傾向于Python，系統(tǒng)工程師會(huì)選擇C++。因此，不會(huì)有一個(gè)一統(tǒng)江湖的框架，也不會(huì)存在一成不變的框架。（編者注：賈揚(yáng)清說(shuō)的可能是政治經(jīng)濟(jì)學(xué)里面的“壟斷并不會(huì)消除競(jìng)爭(zhēng)”~）

李大海：同意賈揚(yáng)清的觀點(diǎn)，但是我想從另一個(gè)角度討論這個(gè)問(wèn)題。例如微信只有一個(gè)，但是其他產(chǎn)品可能會(huì)出現(xiàn)并存。是否形成一家獨(dú)大的判斷標(biāo)準(zhǔn)，我認(rèn)為是是否有網(wǎng)絡(luò)效益。機(jī)器學(xué)習(xí)平臺(tái)并沒(méi)有那么強(qiáng)的網(wǎng)絡(luò)效益，需求的點(diǎn)有很多，不同的需求可能存在不同的平臺(tái)。所以，Tensorflow和Pytorch這兩大主流平臺(tái)可能會(huì)長(zhǎng)期存在，而在某些垂直領(lǐng)域還可能出現(xiàn)某些“小而美”的平臺(tái)。

問(wèn)題3：有哪些好的學(xué)習(xí)方法，最近在看的書(shū)可以分享？

賈揚(yáng)清：學(xué)習(xí)方法在于好的知識(shí)輸入渠道，推薦四個(gè)：1、知乎；2、Hacker News；3、TechCrunch；4、Reddit machine learning group。關(guān)于書(shū)籍，最近在看一些管理方面的書(shū)籍，例如《公司的進(jìn)化》。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門(mén)文章