0
本文作者: 劉芳平 | 2018-04-28 20:34 | 專題:AutoML 祛魅 |
這幾年從百度出來(lái)創(chuàng)業(yè)的人工智能科學(xué)家不少,夏粉就是其中一位。去年 6 月,他創(chuàng)立智鈾科技,公司專注開發(fā)自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)(AutoML),公司產(chǎn)品名為 Ebrain,至今已獲得兩輪融資。
AutoML 的目的是實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化建模,通俗一些來(lái)說,是用 AI 創(chuàng)造 AI。當(dāng)然,往細(xì)來(lái)講它并非能將整個(gè)人工智能應(yīng)用的過程自動(dòng)化,而更多是降低這項(xiàng)技術(shù)的使用門檻,從而讓更多的人也能用上。在接受雷鋒網(wǎng)專訪的過程中,夏粉對(duì)此進(jìn)行了詳細(xì)解讀。
作為技術(shù)人創(chuàng)業(yè)者,夏粉也向雷鋒網(wǎng)表達(dá)了在向企業(yè)家身份轉(zhuǎn)變的過程中所遇到的挑戰(zhàn),他表示,
創(chuàng)業(yè)跟科學(xué)問題不一樣,科學(xué)問題是邊界很清晰、非零即一的。但公司創(chuàng)業(yè)因素很多,有的時(shí)候它不見得用科學(xué)的方法能解決,可能需要一些藝術(shù)的、模糊處理的方式。
夏粉博士,畢業(yè)于中科院自動(dòng)化所,師從機(jī)器學(xué)習(xí)泰斗王玨老師;智鈾科技公司創(chuàng)始人兼 CEO,專注于自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)產(chǎn)品。
15+年機(jī)器學(xué)習(xí)領(lǐng)域的研究和應(yīng)用經(jīng)驗(yàn),曾在百度任資深科學(xué)家,負(fù)責(zé)百度超大規(guī)模機(jī)器學(xué)習(xí)團(tuán)隊(duì)。研發(fā)超大規(guī)模離散稀疏架構(gòu)自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)(Pulsar),覆蓋公司 80 % 以上業(yè)務(wù)線,包括百度最核心的商業(yè)變現(xiàn)系統(tǒng)鳳巢、金融、糯米等。在公司內(nèi)部機(jī)器學(xué)習(xí)平臺(tái)中用戶數(shù)排名第一。
機(jī)器學(xué)習(xí)頂級(jí)會(huì)議雜志 JMLR,ICML,NIPS 等發(fā)表多篇文章。
“技術(shù)人是有情懷的,他們希望技術(shù)研發(fā)得到認(rèn)可,開發(fā)出世界一流的技術(shù),然后希望它的影響力盡可能大?!毕姆巯蚶卒h網(wǎng)這樣答道。
回顧之前讀機(jī)器學(xué)習(xí)博士專業(yè)的時(shí)候,夏粉表示當(dāng)時(shí)技術(shù)得到認(rèn)可的一個(gè)表現(xiàn)就是在頂級(jí)會(huì)議上發(fā)表論文。后來(lái)他發(fā)現(xiàn),技術(shù)還需要落地,需要影響別人,于是加入了百度,在百度最大的廣告業(yè)務(wù)線網(wǎng)盟,他發(fā)展出了一套 AutoML 技術(shù)。
但在大企業(yè)里面,每個(gè)人都是一顆螺絲釘,其工作目標(biāo)被一個(gè)框所限定。夏粉的這個(gè)框就是網(wǎng)盟的點(diǎn)擊預(yù)估系統(tǒng)的 CTR 不停地提升。但他希望有一個(gè)更大的平臺(tái),于是來(lái)到了百度研究院大數(shù)據(jù)實(shí)驗(yàn)室(BDL),站在研究院的基礎(chǔ)上,夏粉推出了業(yè)界第一個(gè)基于萬(wàn)億規(guī)模的深度學(xué)習(xí)網(wǎng)絡(luò)的商用在線學(xué)習(xí)系統(tǒng)以及全自動(dòng)機(jī)器學(xué)習(xí)平臺(tái) Pulsar。Pulsar 被公司各業(yè)務(wù)線廣泛使用,平臺(tái)覆蓋公司絕大部分業(yè)務(wù)線,包括鳳巢、網(wǎng)盟、金融和糯米等,并受到一致好評(píng)。
“在內(nèi)部平臺(tái)里面,我們得分第一,兩年時(shí)間被 30 條業(yè)務(wù)線應(yīng)用?!毕姆鄹嬖V雷鋒網(wǎng)。
在這個(gè)過程中,他發(fā)現(xiàn)自己的影響力還可以進(jìn)一步擴(kuò)大,于是想到跳出百度,將技術(shù)應(yīng)用到各行各業(yè)。
除了作為技術(shù)人的情懷,國(guó)家“大眾創(chuàng)業(yè),萬(wàn)眾創(chuàng)新”的政策也鼓舞了夏粉。而且,他告訴雷鋒網(wǎng),當(dāng)時(shí)一些資本把錢放到他眼前了,“一些資本會(huì)經(jīng)常問你要不要?jiǎng)?chuàng)業(yè),你創(chuàng)業(yè)了,我的資金放在那,等著你出來(lái)創(chuàng)業(yè)?!?/strong>
如此天時(shí)地利人和,最終促成了夏粉邁出創(chuàng)業(yè)步伐。
對(duì)于前東家,他表示非常感謝:
百度是一個(gè)對(duì)技術(shù)非常重視公司,技術(shù)人員在那邊地位不一樣。百度給我很大的場(chǎng)景,一個(gè)技術(shù)人員研究動(dòng)力技術(shù)再厲害,如果沒有給他場(chǎng)景,沒有實(shí)際的東西給他去加工,積累不了經(jīng)驗(yàn),他也沒法發(fā)現(xiàn)問題來(lái)提升自己的技術(shù)。百度能提供很多數(shù)據(jù)和算力方面的集體資源,然后具有非常大的問題規(guī)模,你可以在這里面得到很好的實(shí)踐鍛煉。
技術(shù)的進(jìn)步終究要落地到實(shí)際的經(jīng)濟(jì)生產(chǎn)中去,這也是近幾年人工智能大熱之后,AI+成為各行業(yè)乃至國(guó)家大力推動(dòng)的事情。吳恩達(dá)說人工智能是未來(lái)的水和電,意味著它需要有足夠低的門檻,讓各行各業(yè)的人都能很容易地使用。
但俗話說隔行如隔山,想要把一項(xiàng)計(jì)算機(jī)科學(xué)技術(shù)深度整合到另一個(gè)行業(yè)中去,并不是一件容易的事情。解決這個(gè)問題有幾個(gè)方向,一是培養(yǎng)更多的人工智能專家,并讓他們學(xué)習(xí)不同行業(yè)的專業(yè)知識(shí),這方面許多公司、政府和高校都在努力,包括雷鋒網(wǎng)旗下的 AI 慕課學(xué)院。
然而人工智能人才培養(yǎng)的周期很長(zhǎng),AI 人才稀缺的問題長(zhǎng)期困擾著行業(yè)。根據(jù)教育部印發(fā)的《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》,中國(guó)人工智能人才缺口超過 500 萬(wàn),如此龐大的需求,短時(shí)間內(nèi)肯定無(wú)法得到滿足。
而另一個(gè)方向是降低機(jī)器學(xué)習(xí)的門檻,這正是夏粉的創(chuàng)業(yè)團(tuán)隊(duì)在做的事情。智軸科技的產(chǎn)品 Ebrain 是一個(gè)機(jī)器學(xué)習(xí)自動(dòng)化建模平臺(tái)。其作用就是用 AI 替代機(jī)器學(xué)習(xí)建模過程中需要大量人工操作的部分,從而讓一般的企業(yè)技術(shù)人員也能輕易使用上機(jī)器學(xué)習(xí),不需要自己精通機(jī)器學(xué)習(xí)。
關(guān)于 Ebrain,雷鋒網(wǎng)針對(duì)一些關(guān)鍵問題與夏粉進(jìn)行了交流:
雷鋒網(wǎng):什么樣的市場(chǎng)痛點(diǎn)促使你選擇做 AutoML 這個(gè)方向?
夏粉:從專業(yè)的角度來(lái)說,是目睹了工程師辛苦調(diào)參的過程,特別累,我覺得一定要把工程師從這種重復(fù)勞動(dòng)中解放出來(lái)(高端人才應(yīng)該致力于前瞻性研究)。
從企業(yè)的角度來(lái)說,是提升了他的效率,節(jié)省了他的研發(fā)成本和人力成本。
對(duì)業(yè)務(wù)人員來(lái)說,是從不可能變?yōu)榱丝赡埽ㄖ铝τ谧龊霉ぞ呋?,讓非專業(yè)人士獲得AI能力)。
雷鋒網(wǎng):AutoML 的優(yōu)勢(shì)是什么,其解決的關(guān)鍵問題是什么?
夏粉:自動(dòng)化模型參數(shù)調(diào)整,節(jié)省工作量,降低門檻;
自動(dòng)化特征抽取、變形和組合,找到有效的影響結(jié)果的特征;
自動(dòng)化模型結(jié)構(gòu)設(shè)計(jì),比如神經(jīng)網(wǎng)絡(luò)多少層,每一層之間的關(guān)系。
雷鋒網(wǎng):AutoML 的局限又在哪里?
夏粉:如果做到場(chǎng)景通用化,可能會(huì)稍微多消耗一些計(jì)算資源,但總是比人便宜。
雷鋒網(wǎng):你怎么看待現(xiàn)在國(guó)內(nèi)做 AutoML 的競(jìng)爭(zhēng)?
夏粉:我們做的更像Google AutoML,但是我們可以支持企業(yè)私有化部署。國(guó)內(nèi)這個(gè)賽道上,智鈾科技是第一家。
雷鋒網(wǎng):機(jī)器學(xué)習(xí)的目標(biāo)仍然是解決具體問題,而要將它應(yīng)用到各行各業(yè)就需要對(duì)各行各業(yè)的問題有深刻的理解,一般做機(jī)器學(xué)習(xí)定制化服務(wù)的公司,都會(huì)同時(shí)配備領(lǐng)域內(nèi)的專業(yè)人士來(lái)幫助了解問題,并制定相應(yīng)的解決方案,開發(fā)相應(yīng)的ML模型進(jìn)行解決,AutoML 目前的水平有多大程度可以代替這個(gè)過程,有哪些是很難代替的?
夏粉:和業(yè)務(wù)相關(guān)的部分,很難用自動(dòng)化機(jī)器學(xué)習(xí)來(lái)取代,需要業(yè)務(wù)人員的參與,比如數(shù)字化,數(shù)據(jù)采集,界定問題,設(shè)定目標(biāo);當(dāng)然機(jī)器學(xué)習(xí)科學(xué)家是可以通過短期學(xué)習(xí)掌握這些問題。
特征抽取----建模-----優(yōu)化,這些過程是可以自動(dòng)化。
雷鋒網(wǎng):現(xiàn)階段的 AutoML 可以高效解決模型架構(gòu)設(shè)計(jì)、超參數(shù)選擇這樣的模型優(yōu)化方面的問題。商用解決方案里還有其它的需求,比如前端的數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理以及模型上線后的長(zhǎng)期維護(hù)和演進(jìn),這些需求你們有針對(duì)性技術(shù)嗎?有長(zhǎng)遠(yuǎn)規(guī)劃嗎?
夏粉:智鈾科技目前可以在 預(yù)處理、特征抽取、建模、優(yōu)化這些方面通過自動(dòng)化的方式幫助到企業(yè)。將來(lái)在ETL,在線模型演進(jìn)也要做到產(chǎn)品中去。
雷鋒網(wǎng):目前有哪些應(yīng)用案例,能否詳細(xì)介紹一個(gè),合作中,智鈾科技提供什么,企業(yè)需要做什么,最終達(dá)到了怎樣的效果?
夏粉:以內(nèi)容推薦應(yīng)用為例,醫(yī)藥公司會(huì)通過微信、郵件等方式為醫(yī)生推送一些內(nèi)容(即文章),推送后醫(yī)生會(huì)對(duì)文章有閱讀或點(diǎn)贊行為?,F(xiàn)在需要根據(jù)醫(yī)生的特征和歷史閱讀、點(diǎn)贊記錄預(yù)測(cè)其感興趣的內(nèi)容,從而進(jìn)行內(nèi)容的精準(zhǔn)推薦。
常規(guī)的做法是:對(duì)醫(yī)生和文本提取大量特征,進(jìn)行特征選擇和變換,選擇合適算法和對(duì)應(yīng)的超參數(shù),訓(xùn)練模型。通過在驗(yàn)證集上效果,挑選最優(yōu)的特征、算法和超參數(shù)。所有的選擇過程由人工完成,耗費(fèi)大量人力和計(jì)算資源。
對(duì)此,智鈾在文本結(jié)構(gòu)化處理的基礎(chǔ)上,利用云計(jì)算提供的大量計(jì)算能力,通過Ebrain在很短的時(shí)間內(nèi)自動(dòng)構(gòu)建客戶興趣模型,并提供內(nèi)容推薦核心服務(wù)能力。最終,根據(jù)醫(yī)生的興趣進(jìn)行信息推薦,按照行業(yè)標(biāo)準(zhǔn)預(yù)估客戶內(nèi)容訪問量提升50%以上。
雷鋒網(wǎng):Ebrain 對(duì)人工智能的發(fā)展意味著什么嗎?
夏粉:降低機(jī)器學(xué)習(xí)門檻;讓普通工程師,業(yè)務(wù)人員也可以方便使用機(jī)器學(xué)習(xí);人人都可以成為數(shù)據(jù)科學(xué)家。
雷鋒網(wǎng):目前大型云服務(wù)廠商都提供人工智能云服務(wù),提供很強(qiáng)的算力和軟件服務(wù),企業(yè)可以在上面構(gòu)建和訓(xùn)練模型,作為并非大型云服務(wù)商,Ebrain 在部署上是否會(huì)遇到問題,比如算力、數(shù)據(jù)、接口等方面?
夏粉:產(chǎn)品銷售模式:私有部署+云上SAAS服務(wù),大客戶有定制解決方案。都是標(biāo)準(zhǔn)的接口,不會(huì)有什么問題。
雷鋒網(wǎng):如果大型云平臺(tái)也推出 AutoML 的話,Ebrain 如何維持競(jìng)爭(zhēng)優(yōu)勢(shì)?
夏粉:我們對(duì)自己的技術(shù)、算法積累比較有信心;我們是可以做私有部署的。
我們不僅僅是機(jī)器學(xué)習(xí),而是機(jī)器學(xué)習(xí)自動(dòng)化+產(chǎn)品化,并且只有做到自動(dòng)化,機(jī)器學(xué)習(xí)才能做到產(chǎn)品化。自動(dòng)化機(jī)器學(xué)習(xí)有很高的技術(shù)門檻,難點(diǎn)是“自動(dòng)化”,在算法和實(shí)踐上需要有很深的積累。
自動(dòng)化機(jī)器學(xué)習(xí)最難的是優(yōu)化問題。給你個(gè)目標(biāo)函數(shù),我需要找到一個(gè)點(diǎn)使目標(biāo)函數(shù)最小,這就有很多研究方法,對(duì)目標(biāo)函數(shù)有很多解法,可以求解。自動(dòng)化機(jī)器學(xué)習(xí)是目標(biāo)函數(shù)不可導(dǎo),反饋機(jī)制不明確,計(jì)算復(fù)雜度高,所以要全部試一遍,成本非常高。把不可導(dǎo)變成可導(dǎo)的優(yōu)化問題出來(lái),就要求近似。報(bào)道說,人工智能打敗國(guó)際象棋大師是在上世紀(jì)80年代,通過暴力搜索,每一步都評(píng)估,選取分?jǐn)?shù)最好的一步,但是到圍棋就不行,復(fù)雜度高搜索不出來(lái),窮搜根本搜不出來(lái),所以要做近似問題,把不可解問題近似成可解的問題,找目標(biāo)函數(shù),使目標(biāo)函數(shù)以很大的概率覆蓋每個(gè)解,同時(shí)求解的復(fù)雜度降低,我們?cè)谶@一方面創(chuàng)新了很多算法。(人和機(jī)器都沒有辦法找最優(yōu)解,機(jī)器范圍大、效率高,所以效果比人好)以前象棋每步搜索2億次,現(xiàn)在只需要做3000萬(wàn)次,因?yàn)樽隽藘?yōu)化。
自動(dòng)化機(jī)器學(xué)習(xí)的突破最大的是算法設(shè)計(jì)突破,你要找到A問題近似B問題,比如谷歌 AutoML 是用強(qiáng)化學(xué)習(xí)做的,他也是窮值,窮值下面也是有一個(gè)產(chǎn)生概率在里面,我有幾個(gè)候選,這些都有可能是最優(yōu)解,我把每個(gè)最優(yōu)解都放了一些概率分布在這兒,然后根據(jù)概率分布我隨機(jī)抽一點(diǎn),抽一點(diǎn)上去試,試的話反饋過來(lái)會(huì)改變這個(gè)概率的分布形式,最終概率分布形式變了,最終最有可能是最優(yōu)解的概率覆蓋到更大的概率。
雷鋒網(wǎng):目前公司的主要工作是什么?
夏粉:打磨產(chǎn)品。
從技術(shù)人到企業(yè)家,對(duì)夏粉來(lái)說是一個(gè)巨大的轉(zhuǎn)變,也帶來(lái)很多新的挑戰(zhàn)。在他看來(lái),做學(xué)術(shù)和做企業(yè)家有很大差別,涉及到的問題要復(fù)雜得多:
第一、做學(xué)術(shù)可能只是盯著一個(gè)問題去研究,而做企業(yè)有很多問題需要去解決,每個(gè)問題又需要不同的能力和技巧。
第二、原來(lái)解決問題可能只需要管自己,而作為企業(yè)家不一樣,身后是很多人,需要對(duì)他們負(fù)責(zé)?!霸瓉?lái)是很簡(jiǎn)單,就是做科學(xué)家做一件事情,現(xiàn)在要把這些人也得處理好了?!?/p>
第三、原來(lái)就學(xué)一個(gè)點(diǎn),現(xiàn)在好多東西都要學(xué),“我也觀察了一些做的比較好的企業(yè),其實(shí)從一開始創(chuàng)業(yè),一直到企業(yè)運(yùn)營(yíng)都在不停的學(xué)習(xí)中。”
夏粉在管理過程中探索了一條類似機(jī)器學(xué)習(xí)的企業(yè)管理方法,包含輸入、輸出與中間三個(gè)部分。對(duì)于一家企業(yè)來(lái)說,輸入的是資金和人力,之后經(jīng)過中間的步驟,輸出盡可能接近目標(biāo)的結(jié)果。這里面,中間是復(fù)雜的地方。
人怎么管?錢怎么用?客戶怎么維護(hù)?發(fā)展節(jié)奏怎么樣的?中間就是調(diào)參過程。調(diào)參過程跟 AutoML 一樣,難點(diǎn)是啥?原來(lái)做機(jī)器學(xué)習(xí),導(dǎo)入很容易知道,但訓(xùn)練目標(biāo)和最終目標(biāo)之間有一個(gè)殘差,通過殘差反過來(lái)調(diào)參,AutoML 有一個(gè)問題是殘差找不到,就需要你自己定義殘差,然后再擬合。
做企業(yè)也是一樣,確立一個(gè)使命以后,下一階段怎么走?需要定一個(gè)子目標(biāo),而且這個(gè)目標(biāo)一定要量化了,達(dá)到子目標(biāo)以后,再根據(jù)目標(biāo)往后面走,然后變成新的目標(biāo)。
但在向企業(yè)家這個(gè)角色調(diào)整的過程中也不免遇到難處,“我覺得每一個(gè)創(chuàng)業(yè)的背后都是一段很辛酸的過程,即使你看到那個(gè)企業(yè)家很成功,背后可能也很多時(shí)候會(huì)偷偷地抹眼淚?!毕姆鄹嬖V雷鋒網(wǎng)。
現(xiàn)在智鈾是十幾個(gè)人的規(guī)模,很快會(huì)到二十來(lái)人,其中一半以上是技術(shù)。夏粉表示,AI 人才稀缺的問題他們也遇到了,而他的解決途徑除了努力招人,也會(huì)自己去培養(yǎng)人才。夏粉之前也是老師,在百度的時(shí)候培養(yǎng)過很多 AutoML 方向人才。
除了人才,其實(shí)還有很多,“比如說摸索方向,跟客戶談判,之前沒遇到,中間都覺得困難,好歹我們一步步的就跨過來(lái)了?!毕姆壅f。
但這也是一個(gè)成長(zhǎng)的過程,夏粉表示,創(chuàng)業(yè)是一個(gè)磨練的過程,磨練到一定程度時(shí),心態(tài)會(huì)越來(lái)越強(qiáng),在這個(gè)過程中也能看到自己的成長(zhǎng)。
而且我現(xiàn)在越來(lái)越確定了,我們的公司肯定能做成。為什么?因?yàn)槲覀兇_確實(shí)實(shí)給社會(huì)創(chuàng)造價(jià)值,就很多企業(yè)因?yàn)橛辛宋覀?,成本降低了,收益提升了。剩下就是我們?cè)趺窗咽虑樽龀鰜?lái)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章