1
本文作者: 三川 | 2017-03-28 18:32 |
國(guó)內(nèi)數(shù)據(jù)競(jìng)賽市場(chǎng),能做好的話,預(yù)測(cè)一兩年就會(huì)有繁榮景象。
——DataFountain COO 陳娟
要說(shuō)本月開發(fā)者圈子的頭等大事,毫無(wú)疑問(wèn)是 Kaggle 被谷歌云收購(gòu)。作為全世界首屈一指的數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)開發(fā)者社區(qū)和競(jìng)賽平臺(tái),Kaggle 不僅開拓了一個(gè)全新市場(chǎng)(雖然該市場(chǎng)的當(dāng)前商業(yè)價(jià)值有限),還為國(guó)內(nèi)近幾年冒出的數(shù)據(jù)競(jìng)賽平臺(tái)樹立了學(xué)習(xí)、模仿的榜樣。
李飛飛宣布谷歌云收購(gòu) Kaggle
目前看來(lái),這場(chǎng)收購(gòu)可謂是皆大歡喜。
Kaggle 得到了谷歌云的計(jì)算資源、數(shù)據(jù)資源和業(yè)界關(guān)系支持,也對(duì)投資者有了交代。谷歌得到了對(duì)該社區(qū)的直接影響力,以及一個(gè)谷歌云的業(yè)務(wù)突破口。
但作為一個(gè)細(xì)分市場(chǎng)的霸主,Kaggle 卻從未有過(guò)“霸主”的春風(fēng)得意。自 2010 年成立至今,Kaggle 耕耘數(shù)據(jù)競(jìng)賽領(lǐng)域已有七年。這時(shí)間說(shuō)長(zhǎng)不長(zhǎng),說(shuō)短不短,但足以打消風(fēng)投和部分商業(yè)觀察家“超級(jí)獨(dú)角獸”的夢(mèng)想。平臺(tái)上的競(jìng)賽數(shù)目,并沒(méi)有指數(shù)級(jí)地增長(zhǎng);其商業(yè)模式到底是不是眾包,業(yè)內(nèi)也存爭(zhēng)議;但最重要的一點(diǎn),直接指向了 Kaggle 的“七寸”:缺乏商業(yè)變現(xiàn)能力。
嫁給谷歌云,或許已經(jīng)是最好的結(jié)局。
于是我們不禁要問(wèn):一家在所處行業(yè)成為全球第一、沒(méi)有重量級(jí)競(jìng)爭(zhēng)對(duì)手、并踩在大數(shù)據(jù)風(fēng)口的創(chuàng)業(yè)公司,為何“被收購(gòu)”卻成為最佳選項(xiàng)?
(注:并不是說(shuō)被谷歌收購(gòu)不理想,而是許多人認(rèn)為 Kaggle 原本可以做得更好。)
在雷鋒網(wǎng)看來(lái),這個(gè)問(wèn)題折射出的現(xiàn)實(shí)情形,要比答案本身更有價(jià)值。相比 Kaggle 的自身經(jīng)營(yíng)狀況,我們更關(guān)心數(shù)據(jù)競(jìng)賽這個(gè)市場(chǎng)——究竟是貧瘠的鹽堿地,還是未經(jīng)充分開墾的處女地?
太平洋的另一端,在中國(guó),2014 年之后涌現(xiàn)出大大小小多家數(shù)據(jù)競(jìng)賽平臺(tái)。目前比較有名的,有阿里云旗下的天池,中科院孵化出的 DataFountain,成都電子科大教授周濤創(chuàng)立的 DataCastle,以及上海 SODA 大賽的指定運(yùn)營(yíng)方科賽網(wǎng)。各家平臺(tái)在將來(lái)的發(fā)展側(cè)重點(diǎn)各有不同,但當(dāng)下的核心業(yè)務(wù)都是線上數(shù)據(jù)競(jìng)賽。
大數(shù)據(jù)競(jìng)賽究竟有多大的市場(chǎng)空間,行業(yè)前景如何,就成了至關(guān)重要的問(wèn)題。
為此,雷鋒網(wǎng)采訪了DataCastle CEO 張琳艷, DataFountain COO 陳娟,天池高級(jí)專家王一婷,以及“中國(guó) Kaggle 第一人”、商湯科技研發(fā)總監(jiān)張偉;從 Kaggle 商業(yè)化的努力,談到國(guó)內(nèi)數(shù)據(jù)競(jìng)賽的市場(chǎng)環(huán)境,以及最重要的:如何把這個(gè)市場(chǎng)做“活”?
我們先從 Kaggle 被收購(gòu)折射出的困局談起。
Kaggle 的商業(yè)化之路十分坎坷,這在業(yè)內(nèi)廣為人知。
自 2013 年起,Kaggle 就設(shè)立了能源咨詢業(yè)務(wù)。當(dāng)時(shí)恰逢美國(guó)頁(yè)巖油、頁(yè)巖氣革命,Kaggle 希望用大數(shù)據(jù)幫助能源公司進(jìn)行石油勘探。這本將是一筆利潤(rùn)頗豐的生意。可惜隨后的全球原油價(jià)格暴跌,使得石油公司大幅減產(chǎn);新的勘探、開采計(jì)劃紛紛被推遲或取消,相關(guān)研究也被擱置。Kaggle 從能源行業(yè)入手,逐步建立跨行業(yè)數(shù)據(jù)咨詢業(yè)務(wù)的計(jì)劃就此擱淺。更何況,人們逐漸意識(shí)到,數(shù)據(jù)咨詢業(yè)務(wù)的成長(zhǎng)性實(shí)在有限,不適合風(fēng)投參股的企業(yè)。
與此同時(shí),Kaggle 在 2013 年推出了 “Kaggle Connect”咨詢平臺(tái):將社區(qū)最精英的數(shù)據(jù)科學(xué)家介紹給有需求的公司,以解決不適合以競(jìng)賽形式封裝的現(xiàn)實(shí)問(wèn)題。
Kaggle 還推出了招聘服務(wù),這倒用不著多說(shuō)。重點(diǎn)是,直到今年被谷歌收購(gòu),Kaggle 在商業(yè)變現(xiàn)上始終沒(méi)有找到一個(gè)好的突破口。
因此,對(duì)于 Kaggle 被收購(gòu),行業(yè)內(nèi)認(rèn)為理所當(dāng)然者有之,驚喜者有之,惋惜者也有。
堪稱“中國(guó) Kaggle 第一人”的張偉,自 2012 年參與 Kaggle 平臺(tái)上的比賽。當(dāng)前排名世界第十,歷史最高排名世界第六、中國(guó)第一。他認(rèn)為,Kaggle 尋求商業(yè)支持、被谷歌收購(gòu)是水到渠成的事情。
從他的角度看,Kaggle 一直在進(jìn)行商業(yè)化的嘗試,業(yè)務(wù)上也面臨較大瓶頸,競(jìng)賽的數(shù)量到現(xiàn)在也不是很多。這其中的一大問(wèn)題,是與工業(yè)界的關(guān)系不夠緊密,不足以說(shuō)服更多公司在 Kaggle 平臺(tái)上開放數(shù)據(jù)、舉辦競(jìng)賽。借助谷歌對(duì)業(yè)界的影響力十分合情合理。這將有助于更進(jìn)一步拓展平臺(tái)用戶,把市場(chǎng)做到此前難以企及的規(guī)模。另外,大量 Kaggle 參賽者使用亞馬遜 AWS,如能免費(fèi)提供谷歌云,確是一件好事。
持相似觀點(diǎn)的還有阿里云天池。天池高級(jí)專家王一婷直截了當(dāng)?shù)乇硎荆?/p>
“ Kaggle 在歷經(jīng)了六、七年的發(fā)展后始終沒(méi)有找到一個(gè)很好的商業(yè)模式,主要靠賣比賽收取服務(wù)費(fèi)賺錢。但平臺(tái)上的比賽頻率并不高,大部分獎(jiǎng)金也很少,所以收益應(yīng)該不高。雖然 Kaggle 號(hào)稱沉淀了一批數(shù)據(jù)愛好者、開源數(shù)據(jù)集和算法模型,但沒(méi)有計(jì)算能力,數(shù)據(jù)的價(jià)值就無(wú)法真正變現(xiàn)。他們一定是需要尋找突破口的,所以現(xiàn)在被谷歌云收購(gòu)是最好的歸宿?!?/p>
值得注意的是,關(guān)于谷歌之于 Kaggle 的價(jià)值,王一婷更強(qiáng)調(diào)計(jì)算資源。在她看來(lái),無(wú)論在數(shù)據(jù)、AI 還是機(jī)器學(xué)習(xí)領(lǐng)域,企業(yè)的最核心競(jìng)爭(zhēng)優(yōu)勢(shì)或者說(shuō)行業(yè)門檻,都是大數(shù)據(jù)+云計(jì)算。換句話說(shuō),只有與谷歌云的基礎(chǔ)設(shè)施結(jié)合,Kaggle 才算是完成了生態(tài)鏈的閉環(huán)。因此,Kaggle 加入谷歌是理所應(yīng)當(dāng)?shù)膽?zhàn)略布局(對(duì)谷歌亦然)。而在這一點(diǎn)上,結(jié)合了阿里云計(jì)算資源的天池,同樣擁有巨大優(yōu)勢(shì)。
同樣對(duì) Kaggle 關(guān)注已久的 DataCastle CEO 張琳艷,則十分強(qiáng)調(diào) Kaggle 的數(shù)據(jù)科學(xué)家社區(qū) DNA。她向雷鋒網(wǎng)表示:
“我的第一反應(yīng)是驚訝。一直覺得 Kaggle 是不小心闖入商業(yè)圈子的數(shù)據(jù)科學(xué)圣殿,說(shuō)是一股清流也不為過(guò)——感覺商業(yè)模式不賺錢,卻也堅(jiān)持做了這么多年而且越做越大,題目越來(lái)越豐富,必定有種堅(jiān)持在里面。一直感覺他們離商業(yè)和資本很遙遠(yuǎn),但是總體來(lái)說(shuō)很高興,因?yàn)檫@個(gè)消息給我們帶來(lái)了很大的信心?!?/p>
張琳艷十分認(rèn)同谷歌云計(jì)算資源對(duì)于 Kaggle 的價(jià)值,無(wú)論是針對(duì)數(shù)據(jù)安全,還是提供更大規(guī)模的數(shù)據(jù)集,并表示“這很有可能是 Google 對(duì) Kaggle 吸引力最大的其中一點(diǎn)”。但她同時(shí)指出,計(jì)算環(huán)境對(duì)不同語(yǔ)言、框架的支持,帶來(lái)了額外的公平性和技術(shù)問(wèn)題需要考慮。
DataFountain COO 陳娟的觀點(diǎn),又與上述三位不同。她認(rèn)為,加入谷歌固然帶來(lái)諸多優(yōu)勢(shì),但長(zhǎng)期來(lái)看,Kaggle 將專注于僅僅作為一個(gè)競(jìng)賽平臺(tái),業(yè)務(wù)單一,因而有利有弊。另一方面,她反對(duì)將計(jì)算資源看做數(shù)據(jù)競(jìng)賽行業(yè)一項(xiàng)關(guān)鍵競(jìng)爭(zhēng)力門檻的觀點(diǎn)。接入第三方計(jì)算資源并非難以做到,真正開放的平臺(tái)也應(yīng)該面向所有云計(jì)算服務(wù)。
集合上述各位的表態(tài)與 Kaggle 的現(xiàn)實(shí)情況,一條現(xiàn)實(shí)情形變得十分清晰:只做競(jìng)賽和社區(qū),在資本層面沒(méi)有多少想象空間。國(guó)內(nèi)的數(shù)據(jù)競(jìng)賽平臺(tái),除了背靠阿里云的天池(但阿里高層也希望天池做到收支平衡),均要另找出路。
路在何方?
上文提到,平臺(tái)很難通過(guò)核心的競(jìng)賽業(yè)務(wù)賺錢。對(duì)此,張琳艷的解釋十分透徹:
“競(jìng)賽是個(gè)小眾、低頻的行為,所以只是單純的競(jìng)賽業(yè)務(wù)是很難大規(guī)模商業(yè)化的,而且競(jìng)賽對(duì)于出題單位的門檻也很高,更進(jìn)一步的縮小了業(yè)務(wù)的可擴(kuò)展和復(fù)制性。所以競(jìng)賽只是形式,通過(guò)競(jìng)賽沉淀下來(lái)的方案、人才等才是真正有價(jià)值的。那么變現(xiàn)渠道就不僅僅是競(jìng)賽傭金這一種形式,解決方案眾包、人才眾包、獵頭招聘等都是它的變現(xiàn)渠道。”
雖然競(jìng)賽是立身根基,但衍生業(yè)務(wù)才是平臺(tái)活下去的手段。出于此,國(guó)內(nèi)幾家主要競(jìng)賽平臺(tái),均強(qiáng)調(diào)自身與 Kaggle 定位的不同:并沒(méi)打算像 Kaggle 那樣專注做競(jìng)賽和社區(qū),而要與其他服務(wù)對(duì)接、整合。
DataFountain 與 DataCastle 都打出了“培養(yǎng)下一代大數(shù)據(jù)人才”的口號(hào)。因而我們可以作出合理預(yù)期——培訓(xùn)、招聘業(yè)務(wù)將成為他們的重點(diǎn)。
而天池的定位則十分不同。天池最早是為阿里巴巴集團(tuán)內(nèi)部服務(wù)的團(tuán)隊(duì),它的成立從一開始就考慮到滿足阿里云的戰(zhàn)略需要。天池的許多經(jīng)典競(jìng)賽,其實(shí)是原先阿里內(nèi)部的數(shù)據(jù)課題。天池打出的口號(hào)是:
“外腦+內(nèi)腦”,利用“眾智”模式向外輸出大數(shù)據(jù)解決方案。
即把天池平臺(tái)的個(gè)人開發(fā)者,與阿里云內(nèi)部專家團(tuán)隊(duì)的智慧結(jié)合到一起,向企業(yè)客戶提供最頂尖的數(shù)據(jù)、AI 咨詢服務(wù)。而阿里 ET 人工智能系統(tǒng),便是阿里云咨詢業(yè)務(wù)的核心品牌。
可以看出,天池的定位十分重視 B 端。甚至可以說(shuō),在根本上是為有大數(shù)據(jù)解決方案需求的企業(yè)客戶創(chuàng)造價(jià)值。而早在 2015 年,《連線》雜志就引用知情人士的發(fā)言,稱競(jìng)賽的優(yōu)勝方案有時(shí)不能給主辦企業(yè)帶來(lái)價(jià)值。這就牽扯出另外一個(gè)問(wèn)題:
數(shù)據(jù)競(jìng)賽和產(chǎn)品級(jí)的解決方案之間,究竟相隔多遠(yuǎn)?
對(duì)此有一個(gè)圈內(nèi)共識(shí):Kaggle 的競(jìng)賽優(yōu)勝方案,只有很少一部分能直接應(yīng)用于企業(yè)產(chǎn)品。對(duì)此的通常解釋是,比賽隊(duì)伍為追求極限,使用了大量 ensemble。而這對(duì)于實(shí)際產(chǎn)品非常雞肋,計(jì)算資源耗費(fèi)過(guò)大。
Cloudera 的數(shù)據(jù)科學(xué)主管 Sean Owen 認(rèn)為,比賽就是單純的比賽,其應(yīng)用意義有限:
“如果有任何公司認(rèn)為,這些數(shù)據(jù)競(jìng)賽能產(chǎn)生即刻能用的機(jī)器學(xué)習(xí)模型,他們一定腦子有毛病。這些參賽團(tuán)隊(duì)把 Hadoop 輸出的點(diǎn)流數(shù)據(jù)表(clickstream table)作為比賽輸入,然后給出一連串在 Windows 上運(yùn)行的 Python 或 R 語(yǔ)言代碼——但他們壓根兒不知道用這些代碼做什么。而這也不是 Kaggle 的目標(biāo)。數(shù)據(jù)競(jìng)賽,是公司尋找技能人才,并做點(diǎn)品牌營(yíng)銷的途徑,僅此而已?!?/p>
這就牽扯到了數(shù)據(jù)競(jìng)賽的本質(zhì):到底是為競(jìng)賽主辦方、企業(yè)客戶創(chuàng)造價(jià)值,為他們提供有實(shí)際價(jià)值的解決方案?還是偏向?yàn)閰①愓咛峁﹥r(jià)值,提供最佳的展示技能和練手的機(jī)會(huì)?
當(dāng)然,這兩個(gè)方向并不矛盾,也不互相排斥。但在實(shí)際操作中,比賽的方式尤其是排名機(jī)制,往往要求在開發(fā)實(shí)用解決方案方面做出犧牲,兩者之間很難達(dá)到一個(gè)完美兼顧的平衡。而競(jìng)賽平臺(tái),則可能不得不在比賽的競(jìng)賽屬性 VS 產(chǎn)品屬性之間做出選擇。
主辦競(jìng)賽的企業(yè)客戶不足,是數(shù)據(jù)競(jìng)賽平臺(tái)發(fā)展緩慢的一大原因,國(guó)內(nèi)國(guó)外皆是如此。這也是為什么,張偉會(huì)看好與谷歌結(jié)合為 Kaggle 帶來(lái)的業(yè)界客戶關(guān)系。
張琳艷認(rèn)為,B 端薄弱是受制于時(shí)下的市場(chǎng)發(fā)展階段。無(wú)論是她、陳娟還是王一婷,均認(rèn)為當(dāng)下的大數(shù)據(jù)競(jìng)賽行業(yè)處在十分原始、不成熟的階段。企業(yè)對(duì)于數(shù)據(jù)開放、組織競(jìng)賽心有疑慮。說(shuō)白了,國(guó)內(nèi)大多數(shù)企業(yè)并不懂得如何向“數(shù)據(jù)驅(qū)動(dòng)型”組織轉(zhuǎn)型。
張琳艷列舉出三條市場(chǎng)不成熟的“癥狀”:
幾乎每個(gè)上規(guī)模的企業(yè)都有大量數(shù)據(jù),但是如何合規(guī)合法合理的使用,不清楚;
企業(yè)內(nèi)部的數(shù)據(jù)團(tuán)隊(duì)實(shí)力參差不齊,對(duì)于平常的業(yè)務(wù)也許還可以,但是整理成一份賽題,無(wú)疑要求更高。
大家對(duì)競(jìng)賽的理解,還停留在類似學(xué)校考試的層面。其實(shí)現(xiàn)在競(jìng)賽平臺(tái)上的競(jìng)賽,問(wèn)題和數(shù)據(jù)都來(lái)源于真實(shí)場(chǎng)景,而非之前的學(xué)術(shù)科研層面的理想環(huán)境,也就是比大家印象中的所謂‘競(jìng)賽’更落地。
受限于這些客觀因素,數(shù)據(jù)競(jìng)賽的 B 端客戶少之又少、增長(zhǎng)緩慢,新合作關(guān)系的拓展十分困難。各家競(jìng)賽平臺(tái)每年新舉辦的競(jìng)賽數(shù)目,多則十幾個(gè)、少則個(gè)位數(shù)。然而競(jìng)賽平臺(tái)又沒(méi)有實(shí)力和資源來(lái)改變市場(chǎng)大氣候,導(dǎo)致拓展 B 端企業(yè)客戶效率低下、十分困難。
當(dāng)下的參賽者群體,國(guó)內(nèi)國(guó)外有天壤之別。
DataFountain 透漏了一組數(shù)字:在 2016 年的 CCF 大賽,有 55% 的參賽者是在校學(xué)生。當(dāng)問(wèn)及這背后的原因,陳娟笑著說(shuō):“你看國(guó)內(nèi)哪個(gè)做 IT 的,下班后還有時(shí)間搞競(jìng)賽?”
采訪中,DataFountain 陳娟更傾向于從國(guó)內(nèi)大數(shù)據(jù)行業(yè)發(fā)展的維度看待問(wèn)題。據(jù)她觀察,其平臺(tái)的參賽者主要有三個(gè)群體:學(xué)生、公司團(tuán)體和個(gè)人。其中,學(xué)生群體在大多數(shù)比賽中占據(jù)參賽者的絕大多數(shù),而且在大多數(shù)時(shí)候表現(xiàn)非常不錯(cuò),常占據(jù)排行榜的前幾位。究其原因,陳娟認(rèn)為,在校生有空閑有興趣,肯花時(shí)間肯鉆研,加之有明師指導(dǎo),成績(jī)好實(shí)不足為奇。
第二個(gè)群體,是公司組織員工參賽。而這背后往往有明確的參賽目標(biāo)——達(dá)到某個(gè)名次,為企業(yè)技術(shù)實(shí)力宣傳造勢(shì)。業(yè)內(nèi)確實(shí)有公司在知名比賽中拔得頭籌,結(jié)果客戶絡(luò)繹不絕的例子。因此,這一參賽群體有經(jīng)驗(yàn)有壓力有動(dòng)力,加之公司安排時(shí)間專門去做這件事,往往成績(jī)也很不錯(cuò)。
第三個(gè)群體,是個(gè)人開發(fā)者。這一群體在國(guó)內(nèi)不如 Kaggle 活躍,客觀上也難以大幅增長(zhǎng)。
按照這一分類,C 端用戶唯一有增長(zhǎng)潛力的群體是學(xué)生。而這未必是一個(gè)好消息。陳娟強(qiáng)調(diào),C 端用戶的成長(zhǎng),是繁榮大數(shù)據(jù)競(jìng)賽的必要條件,靠學(xué)生群體能否將之支撐起來(lái)?
目前,國(guó)內(nèi)除天池以外,其余幾家平臺(tái)的用戶基數(shù)不多,在數(shù)千名到萬(wàn)余左右徘徊。相比號(hào)稱有 80 萬(wàn)注冊(cè)用戶的 Kaggle,只相當(dāng)于它的零頭。這里的問(wèn)題顯而易見——參賽用戶不足,社區(qū)難以活躍,好的方案也難以產(chǎn)生。如何耕耘 C 端,實(shí)是各平臺(tái)的當(dāng)務(wù)之急。
但對(duì)此也有不同聲音。張琳艷認(rèn)為,國(guó)內(nèi)競(jìng)賽剛剛起步,現(xiàn)在的用戶未必具有代表性,尚待進(jìn)一步觀察。而王一婷的觀點(diǎn)則更加樂(lè)觀,她認(rèn)為,隨著國(guó)內(nèi)市場(chǎng)逐漸成熟,國(guó)內(nèi)參賽者群體會(huì)與國(guó)外逐漸趨同。在她看來(lái),國(guó)內(nèi)用戶與 Kaggle 的最大區(qū)別在于分享習(xí)慣。Kaggle 有積累了多年的社區(qū)氛圍,用戶樂(lè)于在論壇進(jìn)行技術(shù)討論和分享。相比之下,國(guó)內(nèi)用戶的分享習(xí)慣尚未養(yǎng)成。如何把社區(qū)內(nèi)部的溝通氛圍營(yíng)造起來(lái),培養(yǎng)用戶粘性,才是最大挑戰(zhàn)。
首先需指出,各平臺(tái)現(xiàn)階段的商業(yè)模式仍在摸索,下一步的計(jì)劃也更多是“思路”,而非“戰(zhàn)略”。
天池和 DataFountain 應(yīng)對(duì)上文這些挑戰(zhàn)的方式,截然不同。
天池的計(jì)劃總結(jié)起來(lái),可概括為:“高精尖”,加速國(guó)際化,結(jié)合阿里 ET;
而 DataFountain 的思路可概括為:眾包,深耕 C 端,建立開放的全生態(tài)。
天池的目標(biāo),無(wú)論是在數(shù)據(jù)、題目設(shè)置還是最終解決方案上,都希望達(dá)到業(yè)內(nèi)頂尖水平。因此而集中精力做精品賽題,甚至是世界級(jí)難題,是謂“高精尖”思路。天池將聯(lián)合英特兒、國(guó)內(nèi)公立醫(yī)院推出的肺癌診斷競(jìng)賽,便可作為代表。天池的重點(diǎn),是向阿里云的企業(yè)客戶輸出技術(shù)。在競(jìng)賽的性質(zhì)上,也偏重于實(shí)際解決方案,務(wù)求盡可能還原真實(shí)業(yè)務(wù)場(chǎng)景。
DataFountain 同樣強(qiáng)調(diào)為 B 端企業(yè)客戶創(chuàng)造價(jià)值的必要性。陳娟認(rèn)為,這是數(shù)據(jù)競(jìng)賽平臺(tái)行業(yè)的最大門檻。長(zhǎng)期來(lái)看,擁有一支能高效與企業(yè)對(duì)接的數(shù)據(jù)專家隊(duì)伍,能進(jìn)行高水平的賽題設(shè)置,是平臺(tái)的核心競(jìng)爭(zhēng)力之一。但是,陳并不看好以數(shù)據(jù)競(jìng)賽形式解決世界級(jí)難題這樣的“大單”,而認(rèn)為真正的市場(chǎng)是“多而小”的數(shù)據(jù)任務(wù):若把數(shù)據(jù)競(jìng)賽市場(chǎng)比喻為金字塔,塔尖所代表的業(yè)務(wù)量很小,絕大部分市場(chǎng)空間都在中底部。雖然當(dāng)下的競(jìng)賽市場(chǎng)離真正的眾包還有很遠(yuǎn),但 DataFountain 更看重中小企業(yè)的數(shù)據(jù)服務(wù)需求,并希望最終能將之與參賽者進(jìn)行充分對(duì)接。
在當(dāng)下 B 端市場(chǎng)不成熟,工業(yè)界對(duì)數(shù)據(jù)競(jìng)賽認(rèn)識(shí)不足的情況下,各平臺(tái)頗有“等風(fēng)來(lái)”的意味。引用王一婷的表述:
“我覺得數(shù)據(jù)競(jìng)賽市場(chǎng)真正打開需要的是時(shí)間,讓更多的傳統(tǒng)企業(yè)能擁抱 AI 的時(shí)間。”
陳娟則樂(lè)觀得多:
國(guó)內(nèi)數(shù)據(jù)競(jìng)賽市場(chǎng),能做好的話,預(yù)測(cè)一兩年就會(huì)有繁榮景象。
這背后的原因,在于政府。陳娟認(rèn)為,我國(guó)各級(jí)政府單位近年來(lái)推動(dòng)數(shù)據(jù)公開的力度越來(lái)越大,上海市政府便是范例(比如 SODA)。這帶動(dòng)的國(guó)企、公立醫(yī)院等也開始進(jìn)行相關(guān)嘗試。開放公共數(shù)據(jù)是大勢(shì)所趨,而在一兩年內(nèi),就可能量變引發(fā)質(zhì)變,并由此帶動(dòng)民營(yíng)經(jīng)濟(jì)領(lǐng)域的數(shù)據(jù)開放。
屆時(shí),便是行業(yè)洗牌的時(shí)候。
兩家平臺(tái)的 C 端思路也完全不同。近年來(lái),阿里云在國(guó)際市場(chǎng)上動(dòng)作頻頻。去年與軟銀合作,在日本推出“SB Cloud”品牌,便是一個(gè)頗令人矚目的例子。作為阿里云的子部門,天池是國(guó)內(nèi)競(jìng)賽平臺(tái)中迄今為止,唯一有國(guó)際化大動(dòng)作的一家。王一婷表示:
“天池的國(guó)際化腳步才剛剛邁開,這是我們需要加快步伐的地方,所以今年我們成功申請(qǐng)了國(guó)際數(shù)據(jù)挖掘領(lǐng)域最頂級(jí)賽事 KDD-Cup 2017 的舉辦權(quán),以此向全世界的數(shù)據(jù)愛好者張開雙臂?!?/p>
在與雷鋒網(wǎng)的采訪中,王一婷多次提到,當(dāng)下天池平臺(tái)的用戶基本都是海內(nèi)外華人,她們有意改變這一點(diǎn)。
陳娟則認(rèn)為,如能充分挖掘國(guó)內(nèi)市場(chǎng),單是把全國(guó)計(jì)算機(jī)專業(yè)的學(xué)生動(dòng)員起來(lái),就是十分可觀的用戶基礎(chǔ)。在這方面,作為中國(guó)計(jì)算機(jī)學(xué)會(huì) CCF 官方指定平臺(tái)的 DataFountain,有著天然優(yōu)勢(shì)。陳表示,“深耕 C 端這件事必須有人去做”。如果國(guó)內(nèi)沒(méi)人做,數(shù)據(jù)競(jìng)賽市場(chǎng)很難真正做大。
最后,針對(duì)國(guó)內(nèi)市場(chǎng), DataCastle 張琳艷如此評(píng)論道:
“最經(jīng)典的就是賣鞋的例子了,沒(méi)有人穿鞋,到底是挑戰(zhàn)還是機(jī)遇呢?”
相關(guān)文章:
加入 Kaggle 大數(shù)據(jù)競(jìng)賽,總共分幾步?
TOP5%Kaggler:如何在 Kaggle 首戰(zhàn)中進(jìn)入前 10% | 干貨
谷歌收購(gòu) Kaggle 為什么會(huì)震動(dòng)三界(AI、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)界)?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。