0
本文作者: 李勤 | 2016-09-25 12:35 |
國(guó)家電網(wǎng)應(yīng)該一直為竊電操碎了心,因?yàn)樗谂で蟠髷?shù)據(jù)方案來(lái)解決這個(gè)問(wèn)題。
9月24日,在第四屆CCF大數(shù)據(jù)與計(jì)算智能大賽啟動(dòng)儀式上,國(guó)家電網(wǎng)發(fā)布了與此相關(guān)的兩道賽題。
國(guó)家電網(wǎng)公司稱(chēng),希望通過(guò)大數(shù)據(jù)分析技術(shù),科學(xué)的開(kāi)展防竊電監(jiān)測(cè)分析,以提高反竊電工作效率,降低竊電行為分析的時(shí)間及成本。同時(shí),國(guó)家電網(wǎng)公司希望通過(guò)大數(shù)據(jù)分析技術(shù),科學(xué)的開(kāi)展電力敏感客戶分析,以準(zhǔn)確地識(shí)別敏感客戶,并量化敏感程度,進(jìn)而支撐有針對(duì)性的精細(xì)化客戶服務(wù)策略。
除了國(guó)家電網(wǎng)希望借此機(jī)會(huì)解決上述難題,搜狗、螞蟻金服、AdMaster、馭勢(shì)科技、中國(guó)聯(lián)通研究院等多家公司和機(jī)構(gòu)還發(fā)布了另外9道賽題,涉及搜索廣告、O2O營(yíng)銷(xiāo)、輿情分析、監(jiān)控識(shí)別、計(jì)算廣告、無(wú)人駕駛、市場(chǎng)預(yù)測(cè)、LBS營(yíng)銷(xiāo)、氣候預(yù)測(cè)等領(lǐng)域。
雷鋒網(wǎng)了解到,這11道賽題公布的獎(jiǎng)金池累積已達(dá)到55萬(wàn)人民幣,而且按照往屆大賽的經(jīng)驗(yàn),參加大賽的不僅有廣大學(xué)生黨,還有企業(yè)及社會(huì)個(gè)人、團(tuán)體專(zhuān)門(mén)組隊(duì)參加。
據(jù)主辦方中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)及發(fā)布賽題的企業(yè)介紹,有別于同類(lèi)一些比賽提供的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的數(shù)據(jù),賽題提供的大量真實(shí)數(shù)據(jù)可能是吸引眾多參賽選手的原因之一。
國(guó)家電網(wǎng)的代表表示,他們發(fā)布的賽題來(lái)源于以下幾個(gè)方面:
第一,將提供國(guó)家電網(wǎng)供電區(qū)域的某一個(gè)區(qū)域的用戶日電量信息;第二,經(jīng)過(guò)業(yè)務(wù)研判以后的異常的用電信息,這些用電信息經(jīng)過(guò)專(zhuān)業(yè)人員分析,確實(shí)異常。
經(jīng)過(guò)異常用戶信息,參賽者可以根據(jù)這些數(shù)據(jù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶的畫(huà)像,準(zhǔn)確識(shí)別竊電用戶,對(duì)國(guó)家電網(wǎng)而言,提高竊電的監(jiān)測(cè)效率,降低竊電損失。
搜狗的代表則稱(chēng),
我們提供了一個(gè)10萬(wàn)用戶量級(jí)查詢的行為,這是10萬(wàn)用戶搜索在線下通過(guò)調(diào)研問(wèn)卷各種方式得到真實(shí)性別、年齡、學(xué)歷等數(shù)據(jù),我們希望拿出一半數(shù)據(jù)作為訓(xùn)練題,另外一半作為測(cè)試題,來(lái)搜索行為來(lái)識(shí)別一個(gè)人年齡性別和學(xué)歷。
中國(guó)聯(lián)通也表示,他們提供了3萬(wàn)個(gè)用戶的上網(wǎng)的詳單記錄,也就是3個(gè)月記錄上網(wǎng)的行為記錄和通話的話單記錄,同時(shí)有1萬(wàn)個(gè)商戶的位置數(shù)據(jù)和活動(dòng)行為數(shù)據(jù)。除了原始數(shù)據(jù),也在原始數(shù)據(jù)的基礎(chǔ)上提供了中間的過(guò)程數(shù)據(jù)。
當(dāng)然,上述賽題發(fā)布商也強(qiáng)調(diào),上述信息均經(jīng)過(guò)了脫敏處理。
這次大賽的主要目的是什么?
雷鋒網(wǎng)編輯注意到,此次啟動(dòng)儀式上,上海教育部的專(zhuān)家以及一些高校代表均站臺(tái)捧場(chǎng),不難看出,許多高校想借此機(jī)會(huì)“練兵”。
對(duì)于發(fā)布賽題的企業(yè)而言,AdMaster的代表就直言,希望通過(guò)賽題,真正解決企業(yè)的一些問(wèn)題。他稱(chēng):
舉一個(gè)我們公司的案例——怎樣識(shí)別虛假流量,這個(gè)賽題的方案如果做得好,可以直接運(yùn)用到我們公司的商業(yè)場(chǎng)景,也可以應(yīng)用在整個(gè)廣告行業(yè)。它的好處有幾點(diǎn),第一,對(duì)參賽選手而言,不管是學(xué)生還是組織,還是其他參賽人員,可以通過(guò)各種知識(shí)來(lái)把各種數(shù)據(jù)直接到應(yīng)用到行業(yè)中,我們不止是提供獎(jiǎng)金,更大的是為整個(gè)行業(yè)做出了很大的貢獻(xiàn),第二,如果是學(xué)生,還可以給他offer。
CCF專(zhuān)家委員會(huì)秘書(shū)長(zhǎng)程學(xué)旗現(xiàn)場(chǎng)以案例做起了“廣告”。他告訴雷鋒網(wǎng)編輯:
第一屆大賽一等獎(jiǎng)獲得者上海交大的團(tuán)隊(duì),后來(lái)獲獎(jiǎng)之后,沒(méi)有畢業(yè),直接去創(chuàng)業(yè)了,當(dāng)然這還是交大的校長(zhǎng)給的政策,創(chuàng)業(yè)期間可以以暫時(shí)按照休學(xué)處理,現(xiàn)在他們快拿到第二輪融資了。
第二屆,有一個(gè)團(tuán)隊(duì)參加了海量科技組織的賽題,當(dāng)時(shí)的賽題是“網(wǎng)絡(luò)熱點(diǎn)事件的快速發(fā)現(xiàn)”,那個(gè)方法做完之后,海量科技馬上用了這個(gè)成果,后來(lái)在天津事件發(fā)生時(shí),用的算法比所有其他的系統(tǒng)業(yè)務(wù)更精準(zhǔn),更及時(shí)。
1.監(jiān)控場(chǎng)景下的行人精細(xì)化識(shí)別
行人屬性精細(xì)化識(shí)別是智能監(jiān)控技術(shù)的重要組成部分。本賽題提供監(jiān)控場(chǎng)景下多張帶有標(biāo)注信息的行人圖像,要求參賽者在定位(頭部、上身、下身、腳、帽子、包)的基礎(chǔ)上研究行人精細(xì)化識(shí)別算法,自動(dòng)識(shí)別出行人圖像中行人的屬性特征。標(biāo)注的行人屬性包括性別、頭發(fā)長(zhǎng)度、上下身衣著、鞋子、包的種類(lèi)和顏色,并提供圖像中行人頭部、上身、下身、腳、帽子、包位置的標(biāo)注。
2.Human or Robot?
與傳統(tǒng)的電視廣告、戶外廣告采買(mǎi)相比,流量作弊一直以來(lái)被看作互聯(lián)網(wǎng)廣告特有的弊病。隨著網(wǎng)絡(luò)數(shù)據(jù)技術(shù)的發(fā)展進(jìn)步,流量作弊也呈現(xiàn)出規(guī)?;?、機(jī)器化、產(chǎn)業(yè)化的趨勢(shì)。方式包括通過(guò)人工、機(jī)器制造虛假流量,或者通過(guò)技術(shù)手段竊取他人流量,偷梁換柱。反作弊需要強(qiáng)大的數(shù)據(jù)支撐,包括豐富的數(shù)據(jù)存儲(chǔ),大量的項(xiàng)目積累和經(jīng)驗(yàn)積累,廣告不同環(huán)節(jié)的數(shù)據(jù)觸及等。該題目需要參賽者基于IP,cookie,設(shè)備ID,訪問(wèn)時(shí)間序列,UA信息分布等行為屬性來(lái)建立一個(gè)模型,區(qū)分正常用戶曝光記錄與作弊行為記錄,并進(jìn)行標(biāo)記。
3.基于視角的領(lǐng)域情感分析
情感分析是網(wǎng)絡(luò)輿情分析中必不可少的技術(shù),基于視角的領(lǐng)域情感分析更是情感分析應(yīng)用于特定領(lǐng)域的關(guān)鍵技術(shù)。在對(duì)句子進(jìn)行情感分析時(shí),站在不同的視角,同一個(gè)句子的情感傾向判斷結(jié)果將有所差別。本賽題意在情感分析任務(wù)中,站在數(shù)據(jù)使用者的角度進(jìn)行特定的情感分析,使數(shù)據(jù)分析的結(jié)果更具可用性。本賽題可以細(xì)分為“視角抽取”與“基于視角的情感分析”兩部分。
4.雞肋還是實(shí)惠?O2O優(yōu)惠券使用預(yù)測(cè)
以優(yōu)惠券盤(pán)活老用戶或吸引新客戶進(jìn)店消費(fèi)是O2O的一種重要營(yíng)銷(xiāo)方式。然而隨機(jī)投放的優(yōu)惠券對(duì)多數(shù)用戶造成無(wú)意義的干擾。對(duì)商家而言,濫發(fā)的優(yōu)惠券可能降低品牌聲譽(yù),同時(shí)難以估算營(yíng)銷(xiāo)成本。
個(gè)性化投放是提高優(yōu)惠券核銷(xiāo)率的重要技術(shù),它可以讓具有一定偏好的消費(fèi)者得到真正的實(shí)惠,同時(shí)賦予商家更強(qiáng)的營(yíng)銷(xiāo)能力。本次大賽為參賽選手提供了O2O場(chǎng)景相關(guān)的豐富數(shù)據(jù),希望參賽選手通過(guò)分析建模,精準(zhǔn)預(yù)測(cè)用戶是否會(huì)在規(guī)定時(shí)間內(nèi)使用相應(yīng)優(yōu)惠券。
5.大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)中搜狗用戶畫(huà)像挖掘
在現(xiàn)代廣告投放系統(tǒng)中,多層級(jí)成體系的用戶畫(huà)像構(gòu)建算法是實(shí)現(xiàn)精準(zhǔn)廣告投放的基礎(chǔ)技術(shù)之一。其中,基于人口屬性的廣告定向技術(shù)是普遍適用于品牌展示廣告和精準(zhǔn)競(jìng)價(jià)廣告的關(guān)鍵性技術(shù)。人口屬性包括自然人的性別、年齡、學(xué)歷等基本屬性。
在搜索競(jìng)價(jià)廣告系統(tǒng)中,用戶通過(guò)在搜索引擎輸入具體的查詢?cè)~來(lái)獲取相關(guān)信息。因此,用戶的歷史查詢?cè)~與用戶的基本屬性及潛在需求有密切的關(guān)系。
6.自動(dòng)駕駛場(chǎng)景中的交通標(biāo)志識(shí)別
交通標(biāo)志的檢測(cè)是一項(xiàng)非常有挑戰(zhàn)的任務(wù),精確的檢測(cè)對(duì)后續(xù)識(shí)別,輔助定位導(dǎo)航起著決定性的作用。交通標(biāo)志的種類(lèi)眾多,大小、角度不依,本身就很難做到精確檢測(cè),并且在真實(shí)的行車(chē)環(huán)境中,受到天氣、光照等因素的影響,使得交通標(biāo)志的檢測(cè)更加困難。我們將提供完全真實(shí)場(chǎng)景下的圖片數(shù)據(jù)用于競(jìng)賽訓(xùn)練和測(cè)試,使得開(kāi)發(fā)出來(lái)的算法能夠?qū)嶋H應(yīng)用在自動(dòng)駕駛中。
7.客戶用電異常行為分析
為進(jìn)一步提高社會(huì)用電的安全,保障發(fā)電企業(yè)、電網(wǎng)企業(yè)和用電客戶的正常利益,盡可能的杜絕偷竊電行為的發(fā)生。本賽題基于國(guó)家電網(wǎng)公司提供的關(guān)于用戶用電量、電能表停走、電流失流、計(jì)量們打開(kāi)燈計(jì)量異常情況、竊電行為等相關(guān)數(shù)據(jù),以及經(jīng)過(guò)現(xiàn)場(chǎng)電工人員現(xiàn)場(chǎng)確認(rèn)的竊電用戶清單,希望參賽者利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶行為畫(huà)像,準(zhǔn)確識(shí)別竊電用戶,以幫助系統(tǒng)更快速、準(zhǔn)確地識(shí)別竊電用戶,提高竊電監(jiān)測(cè)效率,降低竊電損失。
8.客戶畫(huà)像
經(jīng)過(guò)多年的發(fā)展與沉淀,目前國(guó)家電網(wǎng)積累了全網(wǎng)4億多客戶檔案數(shù)據(jù)和海量供電服務(wù)信息,以及公司營(yíng)銷(xiāo)、電網(wǎng)生產(chǎn)等數(shù)據(jù),如何從海量的用戶數(shù)據(jù)中發(fā)掘?qū)νk娛录?、供電穩(wěn)定相關(guān)事件具有敏感性的客戶群體,并對(duì)客戶停電敏感度進(jìn)行量化排名對(duì)于電網(wǎng)企業(yè)的客戶滿意度、電力服務(wù)水平、用電客戶黏性的提升以及供電搶修工作的路線優(yōu)化都有著至關(guān)重要的作用。
參賽者需要以電力用戶的95598工單數(shù)據(jù)、供電搶修服務(wù)數(shù)據(jù)、停電信息數(shù)據(jù)為基礎(chǔ),結(jié)合對(duì)受理工單文本內(nèi)容的分析挖掘,建立客戶停電敏感度模型,對(duì)客戶對(duì)于停電事件的敏感程度進(jìn)行量化分析,確定用戶對(duì)停電事件是否敏感。
9.基于多源數(shù)據(jù)的青藏高原湖泊面積
本賽題希望通過(guò)研究青藏高原湖泊面積變化的多種影響因素,構(gòu)建青藏高原湖泊面積預(yù)測(cè)模型。
如通過(guò)研究2000年-2015年期間的降水總量、溫度變化趨勢(shì)、地形起伏度、海拔、2000年、2005年和2010年青藏高原湖泊面積和分布數(shù)據(jù),分析各個(gè)因素對(duì)湖泊面積變化的影響,并對(duì)2015年的湖泊面積進(jìn)行預(yù)測(cè)。
10.農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)分析
價(jià)格預(yù)測(cè)是大數(shù)據(jù)的精華所在,通過(guò)大量的歷史數(shù)據(jù)分析,預(yù)測(cè)未來(lái)的價(jià)格走勢(shì),為決策者提供更有力的數(shù)據(jù)支持。初賽階段,參賽者只需分析提供的價(jià)格歷史數(shù)據(jù),對(duì)要求預(yù)測(cè)的農(nóng)產(chǎn)品接下來(lái)固定時(shí)間的價(jià)格進(jìn)行預(yù)測(cè)。 復(fù)賽中,要求參賽者盡可能多的使用與價(jià)格有影響的其他數(shù)據(jù)以提高預(yù)測(cè)的準(zhǔn)確率,例如:天氣數(shù)據(jù),詳情將在復(fù)賽開(kāi)始前在本網(wǎng)站公布。
11.依據(jù)用戶軌跡的商戶精準(zhǔn)營(yíng)銷(xiāo)
精準(zhǔn)營(yíng)銷(xiāo)是互聯(lián)網(wǎng)營(yíng)銷(xiāo)和廣告營(yíng)銷(xiāo)的新方向,如何利用已有的用戶畫(huà)像對(duì)用戶進(jìn)行分類(lèi),并針對(duì)不同分類(lèi)進(jìn)行業(yè)務(wù)推薦,特別是在用戶身處特定的地點(diǎn)、商戶,如何根據(jù)用戶畫(huà)像進(jìn)行商戶和用戶的匹配,并將相應(yīng)的優(yōu)惠和廣告信息通過(guò)不同渠道進(jìn)行推送。
目前的主要解決問(wèn)題能力有兩點(diǎn):一是用戶實(shí)時(shí)位置和商戶坐落位置的匹配,二是用戶畫(huà)像和商戶店鋪的匹配。
本次賽題需要參賽者根據(jù)商戶位置及分類(lèi)數(shù)據(jù)、用戶標(biāo)簽畫(huà)像數(shù)據(jù)提取用戶標(biāo)簽和商戶分類(lèi)的關(guān)聯(lián)關(guān)系,然后根據(jù)用戶在某一段時(shí)間內(nèi)的位置數(shù)據(jù),判斷用戶進(jìn)入該商戶地位范圍300米內(nèi)(經(jīng)緯度1秒越30米),則對(duì)用戶推送符合該用戶畫(huà)像的商戶位置和其他優(yōu)惠信息。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。