丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

【ATEC2022出題人分享】解密科技助實(shí)背后的黑科技

本文作者: nebula 2023-09-22 14:13
導(dǎo)語:ATEC2022比賽背景科技促進(jìn)產(chǎn)業(yè)數(shù)字化,是數(shù)字時(shí)代經(jīng)濟(jì)發(fā)展的重要命題。本屆ATEC科技精英賽,通過考察選手對(duì)圖學(xué)習(xí)、隱私計(jì)算、多模態(tài)識(shí)別、智能推薦等核心技術(shù)

ATEC2022比賽背景

【ATEC2022出題人分享】解密科技助實(shí)背后的黑科技

科技促進(jìn)產(chǎn)業(yè)數(shù)字化,是數(shù)字時(shí)代經(jīng)濟(jì)發(fā)展的重要命題。本屆ATEC科技精英賽,通過考察選手對(duì)圖學(xué)習(xí)、隱私計(jì)算、多模態(tài)識(shí)別、智能推薦等核心技術(shù)的掌握能力,解決營銷數(shù)字化、產(chǎn)品數(shù)字化、融資數(shù)字化三大現(xiàn)實(shí)問題。幫助企業(yè)抵御安全風(fēng)險(xiǎn)、提升數(shù)字化運(yùn)營能力,幫助從一個(gè)全新的數(shù)據(jù)維度來實(shí)現(xiàn)農(nóng)作物的數(shù)字化,借助數(shù)字化技術(shù)提高農(nóng)村金融的資金匹配效率、極大地助力農(nóng)業(yè)產(chǎn)業(yè)的持續(xù)發(fā)展,做到了“科技助實(shí)”。

賽題一——營銷數(shù)字化

賽題解讀

提高中小商家的數(shù)字化經(jīng)營能力,是我國數(shù)字經(jīng)濟(jì)做強(qiáng)做優(yōu)做大的關(guān)鍵基礎(chǔ),也是推動(dòng)數(shù)字技術(shù)與實(shí)體經(jīng)濟(jì)深度融合的關(guān)鍵路徑之一。中小商家通過數(shù)字消費(fèi)券的配置與分發(fā),為店鋪帶來了許多潛在的客戶,好的數(shù)字化運(yùn)營策略可以幫助中小商家提升用戶的留存與消費(fèi)意愿,同時(shí)帶來更好的收益與經(jīng)營效率。本賽題便是圍繞營銷數(shù)字化的主題,考察選手如何從海量的用戶線上線下行為中挖掘可幫助中小商家進(jìn)行數(shù)字化營銷的有效信息,幫助其提高商品的分發(fā)能力。

本賽題會(huì)向選手提供一段時(shí)間內(nèi)消費(fèi)券向用戶展示和被用戶領(lǐng)取的數(shù)據(jù),并要求選手預(yù)測(cè)在這段時(shí)間以后不同用戶在多個(gè)中小商家的候選商品集合中,更有可能點(diǎn)擊哪些商品。除此以外,為了盡可能還原真實(shí)的工業(yè)數(shù)據(jù)環(huán)境,本賽題還會(huì)向選手提供用戶和消費(fèi)券的基礎(chǔ)特征、支付寶全域用戶行為、實(shí)體間關(guān)聯(lián)圖譜等數(shù)據(jù),同時(shí)確保這些數(shù)據(jù)的采集和構(gòu)造都是發(fā)生在待預(yù)測(cè)時(shí)間段之前。所有的數(shù)據(jù)都經(jīng)過了嚴(yán)格的脫敏,以保證用戶隱私信息的安全性。

和一般的點(diǎn)擊率預(yù)估任務(wù)不同,我們提供了十倍于私域行為(用戶在中小商戶內(nèi)的交互行為)的全域用戶行為(例如搜索、賬單、足跡等),而比賽又是僅僅只有 9 小時(shí)的個(gè)人賽,這十分考驗(yàn)選手的基本功,以及選手在如此豐富的數(shù)據(jù)類型下的模型選型與迭代思路,賽題講究快、準(zhǔn)、穩(wěn),稍有遲疑便會(huì)落后。為了讓訓(xùn)練速度不成為選手快速提分的瓶頸,我們提供了 12C92G + V100 的運(yùn)行配置。

比賽觀察

本次比賽的數(shù)據(jù)種類多,且時(shí)間緊張,選手如何快速的迭代并拿到收益決定著他是否能夠晉級(jí)并有機(jī)會(huì)拿到百萬大獎(jiǎng)。比賽屬于個(gè)人賽,這非??简?yàn)選手的基本功底,但能夠從線上賽的選拔中脫穎而出,也說明每一個(gè)選手都是有自己突出的優(yōu)點(diǎn)。

在這些因素的限制下,幾乎所有的選手都選擇了將樹模型作為自己的基線,并通過對(duì)數(shù)據(jù)的一系列特征工程為該基線注入許多新的信息,從而幫助模型更好的預(yù)估用戶的點(diǎn)擊并達(dá)到提分的效果。相比于深度學(xué)習(xí)中模型調(diào)參與擬合 label 的過程,樹模型有著更方便、快捷、開箱即用的優(yōu)點(diǎn),且無需擔(dān)心像深度學(xué)習(xí)中由于參數(shù)或網(wǎng)絡(luò)層設(shè)計(jì)不合理而導(dǎo)致的模型效果差的問題。因此,樹模型的熱度在競(jìng)賽圈也一直是名列前茅的。

在比賽中,更細(xì)致更全面的從各個(gè)角度來挖掘用戶與商品的潛在信息,也決定了該做法能帶來的增益大小。高排名的選手有著豐富的競(jìng)賽經(jīng)驗(yàn),無一例外地為比賽所提供的信息選擇了更適合處理它的策略。在實(shí)際業(yè)務(wù)中,不可避免的存在許多經(jīng)過脫敏、缺失或無意義的信息在內(nèi),因此選手的數(shù)據(jù)素養(yǎng)與特征分析能力對(duì)比賽的良性迭代會(huì)起到非常關(guān)鍵的作用,高排名選手會(huì)在數(shù)據(jù)分析后通過清洗、去噪、加權(quán)等策略幫助模型對(duì)有效信息的充分利用。此外,快速的迭代也能夠幫助選手更快的找準(zhǔn)提分的方向,并為下一階段的嘗試方向做好預(yù)估,這也是選手間能夠拉開比賽差距的重要原因。

本次比賽采用半封榜的機(jī)制,在前期每個(gè)選手僅能得知自己的排名是否處于賽道末位的四位,而在后期該信息完全不可知。選手在緊張的氛圍下承受著對(duì)自身排名不明確的雙重壓力,這也促使每個(gè)人不斷地向前。雙重壓力下,心態(tài)好的選手鎮(zhèn)定自如,即使處于淘汰邊緣也一心做題,而心態(tài)差的選手在后續(xù)比賽中頻繁失誤(不論是 bug 出現(xiàn)次數(shù),或者是迭代進(jìn)展變緩)。這也是每一個(gè)競(jìng)賽選手必須經(jīng)歷的考驗(yàn)之一,百般磨煉,終能獨(dú)擋一面。

賽題二——產(chǎn)品數(shù)字化 

(水稻 or 小麥?從遙感農(nóng)作物識(shí)別到農(nóng)業(yè)金融)

賽題解讀

2019年,農(nóng)業(yè)農(nóng)村部提出數(shù)字農(nóng)業(yè)農(nóng)村發(fā)展規(guī)劃(2019-2025),明確提出以農(nóng)業(yè)數(shù)字化為重點(diǎn)發(fā)展主線,全面提升農(nóng)業(yè)農(nóng)村生產(chǎn)智能化、經(jīng)營網(wǎng)絡(luò)化、管理高效化、服務(wù)便捷化水平,以數(shù)字化引領(lǐng)驅(qū)動(dòng)農(nóng)業(yè)農(nóng)村現(xiàn)代化,為實(shí)現(xiàn)鄉(xiāng)村全面振興提供有力支撐。這其中對(duì)核心主糧作物、經(jīng)濟(jì)作物種植區(qū)域進(jìn)行數(shù)字化建模是實(shí)現(xiàn)農(nóng)業(yè)數(shù)字化的基礎(chǔ)一環(huán)。

依托現(xiàn)代衛(wèi)星遙感技術(shù),我們可以實(shí)現(xiàn)對(duì)豐富的農(nóng)作物信息的識(shí)別與提取,例如農(nóng)田植被狀況、土壤濕度、氣候變化等。對(duì)地物目標(biāo)進(jìn)行多光譜、多時(shí)段監(jiān)測(cè),可以獲取大量信號(hào)特征,同時(shí)基于不同農(nóng)作物對(duì)不同波段光譜的特異性反射差異、生長周期特點(diǎn),可以實(shí)現(xiàn)低成本、高精度、大范圍的農(nóng)作物種類識(shí)別,為實(shí)現(xiàn)農(nóng)業(yè)數(shù)字化生產(chǎn)、高效網(wǎng)格化經(jīng)營提供基礎(chǔ)數(shù)據(jù),從而應(yīng)用于農(nóng)業(yè)信貸、農(nóng)業(yè)保險(xiǎn)理賠、宏觀農(nóng)業(yè)種植監(jiān)控等領(lǐng)域。

本次賽題的圖像數(shù)據(jù)來自開源多光譜衛(wèi)星提供的時(shí)序多光譜影像,農(nóng)作物(水稻、玉米、大豆)標(biāo)簽來自田野實(shí)地調(diào)查獲取的數(shù)據(jù)。主要目的是通過時(shí)序多光譜遙感數(shù)據(jù)序列,設(shè)計(jì)人工智能算法,識(shí)別出對(duì)應(yīng)地點(diǎn)對(duì)應(yīng)時(shí)間段的種植農(nóng)作物種類。對(duì)于遙感農(nóng)作物識(shí)別,光譜反射特性以及農(nóng)作物生長周期特性是兩大關(guān)鍵特征。此外,數(shù)據(jù)中的地表分類層(SCL)字段中還包含了粗分類的標(biāo)簽,包括云層、水體、植被,可以提供有效的先驗(yàn)信息輔助識(shí)別。為了幫助選手理解賽題,我們另外提供了基于近紅外(NIR)和紅光(R),計(jì)算植被指數(shù),這也是我們對(duì)于選手的“提示”,如何利用農(nóng)業(yè)光譜知識(shí)設(shè)計(jì)特定特征來提升模型識(shí)別效果。

比賽觀察

這是一道典型的時(shí)序預(yù)測(cè)賽題,比賽中大部分方案是基于先進(jìn)的Transformer結(jié)構(gòu)(例如BERT、RoBERTa等),訓(xùn)練多個(gè)模型,再利用LGBM進(jìn)行模型集成。另外對(duì)數(shù)據(jù)的處理上不同的選手也有不同的策略,最終結(jié)果除了單純模型因素之外,對(duì)數(shù)據(jù)和賽題的持續(xù)探索也起到了關(guān)鍵作用。

1) 時(shí)序建模:處理時(shí)序預(yù)測(cè)的基礎(chǔ)是建立一個(gè)能對(duì)時(shí)序數(shù)據(jù)進(jìn)行有效建模的模型。在前期嘗試了LSTM、MLP、樹結(jié)構(gòu)之后,大部分隊(duì)伍迅速收斂到基于Transformer的模型結(jié)構(gòu)上。Transformer是目前處理序列數(shù)據(jù)比較成熟的方案,通過將序列中的每個(gè)元素看做token,按順序送入模型中進(jìn)行self-attention和cross-attention計(jì)算,獲取有效的時(shí)序信息進(jìn)行任務(wù)學(xué)習(xí)。大部分選手選擇BERT或者RoBERTa這類比較成熟的Transformer結(jié)構(gòu)來使用。由于對(duì)模型的熟悉程度和具體實(shí)現(xiàn)的不同,效果有所差異

2) 特征構(gòu)建:遙感領(lǐng)域?qū)Υ蟛糠诌x手來說都是首次接觸,其具有一定的領(lǐng)域特性。部分選手在前期進(jìn)行了大量數(shù)據(jù)分析的工作,并得到了一些有效構(gòu)建特征的方法。例如本次農(nóng)作物識(shí)別的賽題,時(shí)間月份、云霧遮擋都會(huì)極大影響識(shí)別效果。通過對(duì)數(shù)據(jù)去云處理、構(gòu)建時(shí)間月份相關(guān)的learnable embedding都可以有效提升識(shí)別效果。此外,遙感相關(guān)的一些特征,例如ndvi指數(shù)計(jì)算等,都可以作為有效的特征使用。

3) 模型集成:模型集成的方法在比賽中一般被認(rèn)為是臟活累活,但卻是刷點(diǎn)的“神器”。利用LGBM對(duì)多個(gè)基礎(chǔ)模型結(jié)果進(jìn)行集成學(xué)習(xí),往往可以得到更好的結(jié)果。在比賽的最后3分鐘里,依然有選手在嘗試各種模型集成的組合和優(yōu)化方式,并成功在最后時(shí)刻實(shí)現(xiàn)了反超。

在螞蟻的真實(shí)場(chǎng)景中,多光譜時(shí)序數(shù)據(jù)是農(nóng)作物識(shí)別中最重要的數(shù)據(jù)源,此外我們還會(huì)使用高清影像、SAR雷達(dá)影像輔助農(nóng)作物識(shí)別。在賽題中我們也提供了一部分沒有標(biāo)注的影像數(shù)據(jù)用于無監(jiān)督預(yù)訓(xùn)練基礎(chǔ)識(shí)別模型。在實(shí)際場(chǎng)景中我們擁有海量的無標(biāo)注影像數(shù)據(jù),為預(yù)訓(xùn)練提供了廣闊空間。在經(jīng)濟(jì)作物識(shí)別場(chǎng)景,通過預(yù)訓(xùn)練可以有效降低對(duì)標(biāo)注數(shù)據(jù)的需求,并提升模型識(shí)別效果。

賽題三——融資數(shù)字化

賽題解讀

提升鄉(xiāng)村普惠金融服務(wù)覆蓋面和便利性,持續(xù)加大對(duì)“三農(nóng)”領(lǐng)域的金融支持力度,是我國全面推進(jìn)鄉(xiāng)村振興的重點(diǎn)工作之一。在農(nóng)村振興相關(guān)領(lǐng)域貸款投放方面,金融機(jī)構(gòu)發(fā)揮著重要的作用,通過向農(nóng)村產(chǎn)業(yè)鏈的經(jīng)營者發(fā)放貸款,可以滿足鄉(xiāng)村振興生產(chǎn)經(jīng)營融資需求,緩解“融資難”等問題。

然而涉農(nóng)經(jīng)營者信貸風(fēng)險(xiǎn)管理有其特殊性,需根據(jù)特定的行業(yè)風(fēng)險(xiǎn)點(diǎn),制定相應(yīng)的風(fēng)險(xiǎn)評(píng)估防范策略,提升智能化風(fēng)險(xiǎn)管理水平。本賽題將探索農(nóng)村金融中一個(gè)基礎(chǔ)問題,即如何利用數(shù)字化技術(shù)來識(shí)別農(nóng)村經(jīng)營者的經(jīng)營狀況和經(jīng)營風(fēng)險(xiǎn),其也是幫助農(nóng)村經(jīng)營者進(jìn)行融資的基礎(chǔ)能力之一。

基于這樣的背景,我們主要圍繞涉農(nóng)經(jīng)營者風(fēng)險(xiǎn)評(píng)估這一關(guān)鍵問題,考察選手如何利用涉農(nóng)經(jīng)營者特征以及非結(jié)構(gòu)化數(shù)據(jù),如用戶交互關(guān)系等,來幫助提高涉農(nóng)經(jīng)營者的風(fēng)險(xiǎn)評(píng)估模型的精度。

在本次賽題提供的數(shù)據(jù)中,不僅有部分涉農(nóng)經(jīng)營者的風(fēng)險(xiǎn)相關(guān),如信貸行為信息;還提供了用戶多源的交互關(guān)系,如涉及用戶收付款相關(guān)的序列行為、用戶交互關(guān)系等。要求選手預(yù)測(cè)農(nóng)村經(jīng)營者在未來將存在的潛在經(jīng)營風(fēng)險(xiǎn)??紤]到農(nóng)村地區(qū)數(shù)字化程度普遍偏低,其數(shù)據(jù)基礎(chǔ)較薄,特征比較稀疏,因此選手們會(huì)如何充分利用非結(jié)構(gòu)化數(shù)據(jù)做好建模以及提取到有效信息,是本賽題的一個(gè)重要考察點(diǎn)。

觀察記錄

區(qū)別于前幾道賽題,本題目有幾個(gè)重要的特點(diǎn):首先,正如實(shí)際業(yè)務(wù)中的情況,提供的特征數(shù)據(jù)內(nèi)容比較稀疏,同時(shí)測(cè)試集ID不能用來對(duì)齊訓(xùn)練和測(cè)試數(shù)據(jù)的,因此基礎(chǔ)的特征工程角度提升空間有限。其次,本賽題提供了豐富的用戶交易序列數(shù)據(jù)和交互行為數(shù)據(jù),可以使用這些非結(jié)構(gòu)化數(shù)據(jù)對(duì)用戶信息進(jìn)行傳遞,因而可以考慮使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。

實(shí)際上,一些典型的與用戶交易關(guān)系、操作行為相關(guān)的欺詐類風(fēng)險(xiǎn)檢測(cè)問題,包括和金融相關(guān)的風(fēng)險(xiǎn),都通常可以使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。圖神經(jīng)網(wǎng)絡(luò)建模,一方面可以充分關(guān)系數(shù)據(jù)構(gòu)圖,使用結(jié)構(gòu)數(shù)據(jù)刻畫用戶之間的關(guān)系與相似性,此外沿著網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)鄰居節(jié)點(diǎn)的特征進(jìn)行傳播和聚合,還可以緩解特征缺失的問題,并且高階的關(guān)系數(shù)據(jù)也是對(duì)風(fēng)險(xiǎn)預(yù)測(cè)有很重要的作用的。

從對(duì)選手實(shí)際比賽中來看,在時(shí)間緊張的情況下,對(duì)圖神經(jīng)網(wǎng)絡(luò)熟悉和結(jié)構(gòu)數(shù)據(jù)熟悉的隊(duì)伍會(huì)有比較大的優(yōu)勢(shì)。并且在實(shí)際操作過程中,幾乎所有選手都發(fā)現(xiàn)了充分利用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)圖的必要性,但在實(shí)現(xiàn)上,兩隊(duì)分別采用了不同的策略,一隊(duì)能夠快速地搭建大規(guī)模數(shù)據(jù)下圖神經(jīng)網(wǎng)絡(luò)的采樣、以及卷積的框架,另一隊(duì)則是以樹模型為主,人工聚合鄰居特征為輔的形式來替代圖神經(jīng)網(wǎng)絡(luò)的卷積過程進(jìn)行特征提取。

此外,該賽題全過程中采用封榜的機(jī)制,每隊(duì)選手僅能得知對(duì)方隊(duì)伍分?jǐn)?shù)是否有提升,并不知道自己的排名,這為雙方選手均帶來了一定的心理壓力和競(jìng)爭(zhēng)壓力。而對(duì)于采用不同策略和方法進(jìn)行圖數(shù)據(jù)建模的選手,最終誰能夠在比賽中獲得勝利,也是令人期待的。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

運(yùn)營

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說