0
本文作者: 李勤 | 2016-09-25 12:35 |
國家電網(wǎng)應(yīng)該一直為竊電操碎了心,因?yàn)樗谂で蟠髷?shù)據(jù)方案來解決這個問題。
9月24日,在第四屆CCF大數(shù)據(jù)與計(jì)算智能大賽啟動儀式上,國家電網(wǎng)發(fā)布了與此相關(guān)的兩道賽題。
國家電網(wǎng)公司稱,希望通過大數(shù)據(jù)分析技術(shù),科學(xué)的開展防竊電監(jiān)測分析,以提高反竊電工作效率,降低竊電行為分析的時間及成本。同時,國家電網(wǎng)公司希望通過大數(shù)據(jù)分析技術(shù),科學(xué)的開展電力敏感客戶分析,以準(zhǔn)確地識別敏感客戶,并量化敏感程度,進(jìn)而支撐有針對性的精細(xì)化客戶服務(wù)策略。
除了國家電網(wǎng)希望借此機(jī)會解決上述難題,搜狗、螞蟻金服、AdMaster、馭勢科技、中國聯(lián)通研究院等多家公司和機(jī)構(gòu)還發(fā)布了另外9道賽題,涉及搜索廣告、O2O營銷、輿情分析、監(jiān)控識別、計(jì)算廣告、無人駕駛、市場預(yù)測、LBS營銷、氣候預(yù)測等領(lǐng)域。
雷鋒網(wǎng)了解到,這11道賽題公布的獎金池累積已達(dá)到55萬人民幣,而且按照往屆大賽的經(jīng)驗(yàn),參加大賽的不僅有廣大學(xué)生黨,還有企業(yè)及社會個人、團(tuán)體專門組隊(duì)參加。
據(jù)主辦方中國計(jì)算機(jī)學(xué)會(CCF)及發(fā)布賽題的企業(yè)介紹,有別于同類一些比賽提供的標(biāo)準(zhǔn)數(shù)據(jù)庫的數(shù)據(jù),賽題提供的大量真實(shí)數(shù)據(jù)可能是吸引眾多參賽選手的原因之一。
國家電網(wǎng)的代表表示,他們發(fā)布的賽題來源于以下幾個方面:
第一,將提供國家電網(wǎng)供電區(qū)域的某一個區(qū)域的用戶日電量信息;第二,經(jīng)過業(yè)務(wù)研判以后的異常的用電信息,這些用電信息經(jīng)過專業(yè)人員分析,確實(shí)異常。
經(jīng)過異常用戶信息,參賽者可以根據(jù)這些數(shù)據(jù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶的畫像,準(zhǔn)確識別竊電用戶,對國家電網(wǎng)而言,提高竊電的監(jiān)測效率,降低竊電損失。
搜狗的代表則稱,
我們提供了一個10萬用戶量級查詢的行為,這是10萬用戶搜索在線下通過調(diào)研問卷各種方式得到真實(shí)性別、年齡、學(xué)歷等數(shù)據(jù),我們希望拿出一半數(shù)據(jù)作為訓(xùn)練題,另外一半作為測試題,來搜索行為來識別一個人年齡性別和學(xué)歷。
中國聯(lián)通也表示,他們提供了3萬個用戶的上網(wǎng)的詳單記錄,也就是3個月記錄上網(wǎng)的行為記錄和通話的話單記錄,同時有1萬個商戶的位置數(shù)據(jù)和活動行為數(shù)據(jù)。除了原始數(shù)據(jù),也在原始數(shù)據(jù)的基礎(chǔ)上提供了中間的過程數(shù)據(jù)。
當(dāng)然,上述賽題發(fā)布商也強(qiáng)調(diào),上述信息均經(jīng)過了脫敏處理。
這次大賽的主要目的是什么?
雷鋒網(wǎng)編輯注意到,此次啟動儀式上,上海教育部的專家以及一些高校代表均站臺捧場,不難看出,許多高校想借此機(jī)會“練兵”。
對于發(fā)布賽題的企業(yè)而言,AdMaster的代表就直言,希望通過賽題,真正解決企業(yè)的一些問題。他稱:
舉一個我們公司的案例——怎樣識別虛假流量,這個賽題的方案如果做得好,可以直接運(yùn)用到我們公司的商業(yè)場景,也可以應(yīng)用在整個廣告行業(yè)。它的好處有幾點(diǎn),第一,對參賽選手而言,不管是學(xué)生還是組織,還是其他參賽人員,可以通過各種知識來把各種數(shù)據(jù)直接到應(yīng)用到行業(yè)中,我們不止是提供獎金,更大的是為整個行業(yè)做出了很大的貢獻(xiàn),第二,如果是學(xué)生,還可以給他offer。
CCF專家委員會秘書長程學(xué)旗現(xiàn)場以案例做起了“廣告”。他告訴雷鋒網(wǎng)編輯:
第一屆大賽一等獎獲得者上海交大的團(tuán)隊(duì),后來獲獎之后,沒有畢業(yè),直接去創(chuàng)業(yè)了,當(dāng)然這還是交大的校長給的政策,創(chuàng)業(yè)期間可以以暫時按照休學(xué)處理,現(xiàn)在他們快拿到第二輪融資了。
第二屆,有一個團(tuán)隊(duì)參加了海量科技組織的賽題,當(dāng)時的賽題是“網(wǎng)絡(luò)熱點(diǎn)事件的快速發(fā)現(xiàn)”,那個方法做完之后,海量科技馬上用了這個成果,后來在天津事件發(fā)生時,用的算法比所有其他的系統(tǒng)業(yè)務(wù)更精準(zhǔn),更及時。
1.監(jiān)控場景下的行人精細(xì)化識別
行人屬性精細(xì)化識別是智能監(jiān)控技術(shù)的重要組成部分。本賽題提供監(jiān)控場景下多張帶有標(biāo)注信息的行人圖像,要求參賽者在定位(頭部、上身、下身、腳、帽子、包)的基礎(chǔ)上研究行人精細(xì)化識別算法,自動識別出行人圖像中行人的屬性特征。標(biāo)注的行人屬性包括性別、頭發(fā)長度、上下身衣著、鞋子、包的種類和顏色,并提供圖像中行人頭部、上身、下身、腳、帽子、包位置的標(biāo)注。
2.Human or Robot?
與傳統(tǒng)的電視廣告、戶外廣告采買相比,流量作弊一直以來被看作互聯(lián)網(wǎng)廣告特有的弊病。隨著網(wǎng)絡(luò)數(shù)據(jù)技術(shù)的發(fā)展進(jìn)步,流量作弊也呈現(xiàn)出規(guī)?;C(jī)器化、產(chǎn)業(yè)化的趨勢。方式包括通過人工、機(jī)器制造虛假流量,或者通過技術(shù)手段竊取他人流量,偷梁換柱。反作弊需要強(qiáng)大的數(shù)據(jù)支撐,包括豐富的數(shù)據(jù)存儲,大量的項(xiàng)目積累和經(jīng)驗(yàn)積累,廣告不同環(huán)節(jié)的數(shù)據(jù)觸及等。該題目需要參賽者基于IP,cookie,設(shè)備ID,訪問時間序列,UA信息分布等行為屬性來建立一個模型,區(qū)分正常用戶曝光記錄與作弊行為記錄,并進(jìn)行標(biāo)記。
3.基于視角的領(lǐng)域情感分析
情感分析是網(wǎng)絡(luò)輿情分析中必不可少的技術(shù),基于視角的領(lǐng)域情感分析更是情感分析應(yīng)用于特定領(lǐng)域的關(guān)鍵技術(shù)。在對句子進(jìn)行情感分析時,站在不同的視角,同一個句子的情感傾向判斷結(jié)果將有所差別。本賽題意在情感分析任務(wù)中,站在數(shù)據(jù)使用者的角度進(jìn)行特定的情感分析,使數(shù)據(jù)分析的結(jié)果更具可用性。本賽題可以細(xì)分為“視角抽取”與“基于視角的情感分析”兩部分。
4.雞肋還是實(shí)惠?O2O優(yōu)惠券使用預(yù)測
以優(yōu)惠券盤活老用戶或吸引新客戶進(jìn)店消費(fèi)是O2O的一種重要營銷方式。然而隨機(jī)投放的優(yōu)惠券對多數(shù)用戶造成無意義的干擾。對商家而言,濫發(fā)的優(yōu)惠券可能降低品牌聲譽(yù),同時難以估算營銷成本。
個性化投放是提高優(yōu)惠券核銷率的重要技術(shù),它可以讓具有一定偏好的消費(fèi)者得到真正的實(shí)惠,同時賦予商家更強(qiáng)的營銷能力。本次大賽為參賽選手提供了O2O場景相關(guān)的豐富數(shù)據(jù),希望參賽選手通過分析建模,精準(zhǔn)預(yù)測用戶是否會在規(guī)定時間內(nèi)使用相應(yīng)優(yōu)惠券。
5.大數(shù)據(jù)精準(zhǔn)營銷中搜狗用戶畫像挖掘
在現(xiàn)代廣告投放系統(tǒng)中,多層級成體系的用戶畫像構(gòu)建算法是實(shí)現(xiàn)精準(zhǔn)廣告投放的基礎(chǔ)技術(shù)之一。其中,基于人口屬性的廣告定向技術(shù)是普遍適用于品牌展示廣告和精準(zhǔn)競價廣告的關(guān)鍵性技術(shù)。人口屬性包括自然人的性別、年齡、學(xué)歷等基本屬性。
在搜索競價廣告系統(tǒng)中,用戶通過在搜索引擎輸入具體的查詢詞來獲取相關(guān)信息。因此,用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關(guān)系。
6.自動駕駛場景中的交通標(biāo)志識別
交通標(biāo)志的檢測是一項(xiàng)非常有挑戰(zhàn)的任務(wù),精確的檢測對后續(xù)識別,輔助定位導(dǎo)航起著決定性的作用。交通標(biāo)志的種類眾多,大小、角度不依,本身就很難做到精確檢測,并且在真實(shí)的行車環(huán)境中,受到天氣、光照等因素的影響,使得交通標(biāo)志的檢測更加困難。我們將提供完全真實(shí)場景下的圖片數(shù)據(jù)用于競賽訓(xùn)練和測試,使得開發(fā)出來的算法能夠?qū)嶋H應(yīng)用在自動駕駛中。
7.客戶用電異常行為分析
為進(jìn)一步提高社會用電的安全,保障發(fā)電企業(yè)、電網(wǎng)企業(yè)和用電客戶的正常利益,盡可能的杜絕偷竊電行為的發(fā)生。本賽題基于國家電網(wǎng)公司提供的關(guān)于用戶用電量、電能表停走、電流失流、計(jì)量們打開燈計(jì)量異常情況、竊電行為等相關(guān)數(shù)據(jù),以及經(jīng)過現(xiàn)場電工人員現(xiàn)場確認(rèn)的竊電用戶清單,希望參賽者利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶的行為特征,形成竊電用戶行為畫像,準(zhǔn)確識別竊電用戶,以幫助系統(tǒng)更快速、準(zhǔn)確地識別竊電用戶,提高竊電監(jiān)測效率,降低竊電損失。
8.客戶畫像
經(jīng)過多年的發(fā)展與沉淀,目前國家電網(wǎng)積累了全網(wǎng)4億多客戶檔案數(shù)據(jù)和海量供電服務(wù)信息,以及公司營銷、電網(wǎng)生產(chǎn)等數(shù)據(jù),如何從海量的用戶數(shù)據(jù)中發(fā)掘?qū)νk娛录?、供電穩(wěn)定相關(guān)事件具有敏感性的客戶群體,并對客戶停電敏感度進(jìn)行量化排名對于電網(wǎng)企業(yè)的客戶滿意度、電力服務(wù)水平、用電客戶黏性的提升以及供電搶修工作的路線優(yōu)化都有著至關(guān)重要的作用。
參賽者需要以電力用戶的95598工單數(shù)據(jù)、供電搶修服務(wù)數(shù)據(jù)、停電信息數(shù)據(jù)為基礎(chǔ),結(jié)合對受理工單文本內(nèi)容的分析挖掘,建立客戶停電敏感度模型,對客戶對于停電事件的敏感程度進(jìn)行量化分析,確定用戶對停電事件是否敏感。
9.基于多源數(shù)據(jù)的青藏高原湖泊面積
本賽題希望通過研究青藏高原湖泊面積變化的多種影響因素,構(gòu)建青藏高原湖泊面積預(yù)測模型。
如通過研究2000年-2015年期間的降水總量、溫度變化趨勢、地形起伏度、海拔、2000年、2005年和2010年青藏高原湖泊面積和分布數(shù)據(jù),分析各個因素對湖泊面積變化的影響,并對2015年的湖泊面積進(jìn)行預(yù)測。
10.農(nóng)產(chǎn)品價格預(yù)測分析
價格預(yù)測是大數(shù)據(jù)的精華所在,通過大量的歷史數(shù)據(jù)分析,預(yù)測未來的價格走勢,為決策者提供更有力的數(shù)據(jù)支持。初賽階段,參賽者只需分析提供的價格歷史數(shù)據(jù),對要求預(yù)測的農(nóng)產(chǎn)品接下來固定時間的價格進(jìn)行預(yù)測。 復(fù)賽中,要求參賽者盡可能多的使用與價格有影響的其他數(shù)據(jù)以提高預(yù)測的準(zhǔn)確率,例如:天氣數(shù)據(jù),詳情將在復(fù)賽開始前在本網(wǎng)站公布。
11.依據(jù)用戶軌跡的商戶精準(zhǔn)營銷
精準(zhǔn)營銷是互聯(lián)網(wǎng)營銷和廣告營銷的新方向,如何利用已有的用戶畫像對用戶進(jìn)行分類,并針對不同分類進(jìn)行業(yè)務(wù)推薦,特別是在用戶身處特定的地點(diǎn)、商戶,如何根據(jù)用戶畫像進(jìn)行商戶和用戶的匹配,并將相應(yīng)的優(yōu)惠和廣告信息通過不同渠道進(jìn)行推送。
目前的主要解決問題能力有兩點(diǎn):一是用戶實(shí)時位置和商戶坐落位置的匹配,二是用戶畫像和商戶店鋪的匹配。
本次賽題需要參賽者根據(jù)商戶位置及分類數(shù)據(jù)、用戶標(biāo)簽畫像數(shù)據(jù)提取用戶標(biāo)簽和商戶分類的關(guān)聯(lián)關(guān)系,然后根據(jù)用戶在某一段時間內(nèi)的位置數(shù)據(jù),判斷用戶進(jìn)入該商戶地位范圍300米內(nèi)(經(jīng)緯度1秒越30米),則對用戶推送符合該用戶畫像的商戶位置和其他優(yōu)惠信息。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。