這場百萬獎金大賽，你們不來參加？

本文作者：李梅

2023-01-04 14:37

導(dǎo)語：技術(shù)狂人改變世界，先從「進(jìn)入世界」開始。

作者 | 李梅

編輯 | 陳彩嫻

“再挖點特征出來吧。”

“看看還有沒有超車的機(jī)會。”

“終于找到隱藏BUG了。”

“提交成功了！”

在這場持續(xù) 60 小時的極限挑戰(zhàn)中，24 位程序員時而盯住屏幕扶額沉思，時而雙手在鍵盤上快速游走，與隊友互相打氣，共同利用可信 AI 技術(shù)完成了欺詐舉報定性、欺詐交易識別等任務(wù)。

這是去年 ATEC 科技精英賽的線下決賽環(huán)節(jié)。選手們的每一個或興奮或焦灼的時刻，都被真實記錄下來，形成了一檔火爆的程序員專屬真人秀節(jié)目《燃燒吧！天才程序員》。

這場百萬獎金大賽，你們不來參加？

圖注：《燃燒吧！天才程序員 2》節(jié)目畫面

今年，在中國人工智能學(xué)會指導(dǎo)下，ATEC前沿科技探索社區(qū)發(fā)起了第三屆 ATEC 大賽，清華大學(xué)、西安交通大學(xué)、浙江大學(xué)、上海交通大學(xué)、螞蟻集團(tuán)共同參與了大賽的命題和組織。大賽以“科技助實”為命題，模擬企業(yè)數(shù)字化的真實場景，設(shè)立了數(shù)字化運營和數(shù)字化安全兩大賽道。技術(shù)人將通過解決真實問題讓 AI 走出象牙塔，發(fā)揮技術(shù)向善的力量。在這場熱血競技之中，最終脫穎而出的冠軍隊伍將獲得100萬元的獎金。

——1——
技術(shù)的力量

最前沿、最具價值的技術(shù)，是 ATEC 大賽第一個耀眼的標(biāo)簽。

當(dāng)下，產(chǎn)業(yè)數(shù)字化已經(jīng)成為一股不可逆轉(zhuǎn)的浪潮，利用數(shù)字科技實現(xiàn)轉(zhuǎn)型升級成了企業(yè)面臨的重要課題。然而，科技助實畢竟是一個非常大的命題，在產(chǎn)業(yè)數(shù)字化這場大潮中，什么樣的技術(shù)才是更有力量的？

毫無疑問，隱私計算、圖智能、智能推薦等技術(shù)，已經(jīng)成為企業(yè)數(shù)字化進(jìn)程中絕對不可繞過的強(qiáng)大工具?！盁o論是對于螞蟻還是對于更多中小企業(yè)而言，它們都是很重要的技術(shù)命題，這是大家感受非常深的?！蔽浵伡瘓F(tuán)資深算法專家、圖學(xué)習(xí)技術(shù)總監(jiān)張志強(qiáng)是今年ATEC 2022科技精英賽的賽題組負(fù)責(zé)人，他這樣告訴 AI 科技評論。

因此，本屆 ATEC 科技精英賽瞄準(zhǔn)了消費券分發(fā)和風(fēng)險商戶識別兩個具體的應(yīng)用場景。

消費券或購物券的分發(fā)，是中小企業(yè)在數(shù)字化運營中提升收益率和效率的一個重要渠道。

2020 年春季，在國內(nèi)第一波疫情高峰剛剛落下之際，政府為拉動經(jīng)濟(jì)復(fù)蘇，投入了大量資金通過支付寶或其他平臺向用戶發(fā)放消費券。商家提供不同力度的產(chǎn)品折扣，支付寶平臺則通過大數(shù)據(jù)的能力對用戶的偏好進(jìn)行預(yù)測，將消費券精準(zhǔn)分發(fā)給用戶，用戶領(lǐng)取后去消費，商家便可獲利。一直到今天，螞蟻仍在運行這個項目，其中的算法也在持續(xù)地迭代。

這樣一個場景首先涉及的是流量分發(fā)的概念，所以需要使用推薦相關(guān)的技術(shù)。推薦系統(tǒng)與搜索引擎、廣告投放并列為 AI 在工業(yè)界落地規(guī)模最大的三個技術(shù)方向，在產(chǎn)業(yè)數(shù)字化中無疑具有巨大的技術(shù)力量。

同時，消費券的分發(fā)還會產(chǎn)生許多非結(jié)構(gòu)化的圖數(shù)據(jù)，比如用戶點擊領(lǐng)取或核銷一次消費券，用戶與消費券之間就構(gòu)成一種關(guān)系，這種關(guān)系可以用圖來表示。此外，用戶歷史行為的序列、用戶之間的關(guān)系等也都可以表示成圖數(shù)據(jù)。圖數(shù)據(jù)的獨特性在于樣本并非獨立同分布的，需要使用圖神經(jīng)網(wǎng)絡(luò)等圖學(xué)習(xí)滴技術(shù)去對圖數(shù)據(jù)進(jìn)行表達(dá)、理解或抽象，在此基礎(chǔ)上再去實現(xiàn)智能化建模。

所以在推薦場景中，利用圖學(xué)習(xí)的技術(shù)能夠提高消費券分發(fā)的效率和精度，最終提高中小商家的數(shù)字化經(jīng)營能力。事實上，在推薦相關(guān)的比賽中，引入圖學(xué)習(xí)技術(shù)并不常見，常規(guī)的推薦比賽涉及的特征主要包括用戶特征、消費券特征和曝光點擊特征，而這次的 ATEC 大賽還額外增加了兩個圖數(shù)據(jù)源。

“圖學(xué)習(xí)有很大的落地潛力，我們希望選手能在圖學(xué)習(xí)方面多得到一些訓(xùn)練”，這是螞蟻集團(tuán)圖學(xué)習(xí)技術(shù)部算法工程師趙前在參與出題時的一個出發(fā)點。前沿技術(shù)從產(chǎn)業(yè)中來，最終也要到產(chǎn)業(yè)中去，只有豐富多樣的應(yīng)用場景才能為圖學(xué)習(xí)打開更大的技術(shù)落地空間，這次的消費券分發(fā)賽題便是其中一個典型場景。

這場百萬獎金大賽，你們不來參加？

不僅僅是推薦，風(fēng)控也是圖學(xué)習(xí)的重要落地場景。

企業(yè)進(jìn)入數(shù)字化世界，除了提升數(shù)字化運營能力，還需要最大程度地降低安全風(fēng)險。如欺詐、黑灰產(chǎn)商家或者金融領(lǐng)域小微企業(yè)的信用與經(jīng)營風(fēng)險等，會危害整個數(shù)字生態(tài)，所以今年 ATEC科技精英賽還設(shè)置了風(fēng)險商戶識別賽道。這個賽題在螞蟻的網(wǎng)商銀行業(yè)務(wù)中同樣有著大量的實踐經(jīng)驗。

網(wǎng)商銀行為小微群體提供金融服務(wù)。舉個例子，淘寶商家發(fā)出貨品后，可能要等待長達(dá) 14 天的時間才能收到用戶的付款，小微企業(yè)很可能會因此面臨資金鏈斷裂的危險。所以網(wǎng)商銀行推出了發(fā)貨貸款，只要商家真實發(fā)貨，就會根據(jù)貨物的真實價值及時緩解商家在交易中資金流動緊張的壓力。

然而，一些不法商家會借機(jī)鉆空子，比如利用刷單、虛假發(fā)貨、偽造交易等手段去騙貸。為了維護(hù)其他正常商家的權(quán)益和整個數(shù)字生態(tài)的健康運行，我們就需要識別和剔除風(fēng)險商戶。

圖學(xué)習(xí)技術(shù)在此便有了用武之地，商家和用戶之間的交易可以用圖數(shù)據(jù)來表示，如果商家實施了不良交易，我們就可以從交易圖的模式中發(fā)現(xiàn)異常，進(jìn)而對其做處理。

在識別黑灰產(chǎn)商家的任務(wù)中，隱私計算同樣是一大技術(shù)利器。

隱私保護(hù)的背后其實是一個關(guān)于「數(shù)據(jù)」的矛盾。一方面，在 AI 研發(fā)轉(zhuǎn)向以數(shù)據(jù)為中心的當(dāng)下，人們越來越認(rèn)識到數(shù)據(jù)作為生產(chǎn)要素的巨大價值，為了最大化地釋放數(shù)據(jù)價值，數(shù)據(jù)需要被聯(lián)合起來使用。但另一方面，生產(chǎn)數(shù)據(jù)的各個主體并不希望在數(shù)據(jù)協(xié)作過程中泄露自己的數(shù)據(jù)隱私。

張志強(qiáng)向我們舉了一個風(fēng)險商戶識別的例子：很多時候，一個黑灰產(chǎn)團(tuán)伙可能涉及多個平臺，他們的數(shù)據(jù)可能包括不同類型，并分散在不同的計算節(jié)點中，我們需要對其實現(xiàn)一個高效的協(xié)作，將多方數(shù)據(jù)聯(lián)合起來，更完整地刻畫出黑灰產(chǎn)團(tuán)伙的全貌，從而最大化識別效率。在此過程中就需要利用聯(lián)邦學(xué)習(xí)技術(shù)，保護(hù)商家數(shù)據(jù)隱私的前提下，聯(lián)合多方的交易信息，提高對風(fēng)險商戶的識別精度。

本質(zhì)上，兩個賽道背后的技術(shù)圍繞的都是關(guān)于數(shù)據(jù)的能力?！皥D智能是針對某種特定數(shù)據(jù)類型進(jìn)行表征和建模，隱私計算則是解決數(shù)據(jù)孤島的問題，兩種數(shù)據(jù)能力是互補(bǔ)的”，張志強(qiáng)解釋。

所以，經(jīng)由 ATEC 這場賽事，選手所能獲得的并非只是解決兩個賽題的經(jīng)驗，更是一場對當(dāng)下工業(yè)界最前沿技術(shù)的探索。

——2——
更真實的工業(yè)場景命題

AI 技術(shù)者的實力有多強(qiáng)，只有深入工業(yè)場景的叢林實戰(zhàn)一番才能見分曉。

“如果沒有成規(guī)?；?、具有較大影響力的真實場景，其實是很難誕生重量級的技術(shù)的”，張志強(qiáng)深信，真實場景更能驅(qū)動技術(shù)人去思考怎樣的技術(shù)方向是更有價值的。所以，盡可能地還原真實工業(yè)場景，貫穿了本次 ATEC 大賽的命題始終。

在賽題組看來，這也正是許多計算機(jī)領(lǐng)域的競賽所缺少的。以圖學(xué)習(xí)為例，已有的相關(guān)比賽大多是面向?qū)W術(shù)環(huán)境，使用的是公開或構(gòu)造的數(shù)據(jù)集，比如學(xué)術(shù)文獻(xiàn)網(wǎng)所形成的龐大的圖數(shù)據(jù)，但鮮少在真實工業(yè)命題下去彰顯圖學(xué)習(xí)的技術(shù)價值。

AI 要真正走出實驗室，場景與人才，缺一不可。

這也是 ATEC 探索產(chǎn)學(xué)研融合模式的原因。每年的參賽者中有很大一部分是高校學(xué)生，他們大多缺少將研究理論付諸實踐的平臺。比如隱私計算是近年來一個新興的熱門方向，盡管很多高校都開設(shè)了相關(guān)課程，但相關(guān)的比賽還不多。公開的學(xué)術(shù)論文是他們了解這項技術(shù)的主要窗口，但論文提供的數(shù)據(jù)集及其評估方式通常與真實的技術(shù)應(yīng)用場景之間有著不小的鴻溝。

紙上得來終覺淺，剛畢業(yè)不久的流愚對這一點深有體會。他解釋，與學(xué)術(shù)環(huán)境下的公開數(shù)據(jù)集不同，工業(yè)場景中的測試集數(shù)據(jù)是完全不可見的，我們只能在訓(xùn)練集上開發(fā)模型，再將測試集的數(shù)據(jù)喂給模型、進(jìn)行評估。這種差異會導(dǎo)致學(xué)生不理解為什么測試集上的時間特征是不可用的，可能會忽略特征穿越或特征泄露等情況，錯將泄露的特征加入到模型中。但實際上，這些特征在真實場景中是不能使用的。

另外，去企業(yè)實習(xí)的門檻較高、機(jī)會也少，像隱私計算這樣的方向，其實全國范圍內(nèi)的崗位還不多。螞蟻內(nèi)部有著海量的技術(shù)應(yīng)用場景，借助這樣的資源，ATEC為大家提供了一個最接近真實場景的試煉場，并對所有懷抱技術(shù)熱情的人敞開大門，這也是過去兩年 ATEC 能夠吸引數(shù)千名技術(shù)青年參賽的原因。

在2020年第一屆ATEC科技精英賽中，賽題就設(shè)立了真實的環(huán)境保護(hù)命題。參賽者通過訓(xùn)練AI模型，對瀕危野生物種進(jìn)行智能識別，與盜獵者展開了一場數(shù)字攻防博弈。第二年的考題之一“網(wǎng)絡(luò)欺詐交易識別”，則來自支付寶的真實的業(yè)務(wù)場景，選手利用經(jīng)過模改脫敏的、關(guān)于數(shù)字貨幣的數(shù)據(jù)集，探討數(shù)據(jù)保護(hù)場景下的聯(lián)合計算分析，完成了一次隱私保護(hù)的技術(shù)實踐。

那么，今年ATEC 科技精英賽的真實都體現(xiàn)在哪里？

首先，賽題的設(shè)計呈現(xiàn)了企業(yè)在數(shù)字化過程中所面臨問題的實際面貌。

以賽道一為例，實際的消費券分發(fā)與一般的推薦任務(wù)不同，一般推薦任務(wù)大多只關(guān)心某一個整體的排序性指標(biāo)，或關(guān)心圍繞用戶的一些排序指標(biāo)。但實際的消費券發(fā)放場景涉及多方，包括平臺方、商家和用戶，商家側(cè)的一些指標(biāo)同樣要考慮在內(nèi)，一些曝光度更低、客戶量更少的長尾、弱勢小微企業(yè)，也希望用戶能使用他們的消費券購買產(chǎn)品。這就需要我們提高每個券的點擊排序預(yù)測的精度，保證無論是頭部商家還是長尾商家都能得到較好的點擊率和核銷率，讓小微企業(yè)也能乘上數(shù)字化的時代快車，實現(xiàn)降本增效。

所以，參賽者在設(shè)計推薦系統(tǒng)時，必須同時提高兩方面的指標(biāo)，既保證用戶的體驗，又能對中小商家的消費券做更精準(zhǔn)的分發(fā)，這樣才能在榜單中得到一個好的名次。

為了讓選手能更自由地發(fā)揮其技術(shù)想象力，ATEC 還在保證數(shù)據(jù)安全的前提下提供了十分貼近工業(yè)場景的底層數(shù)據(jù)環(huán)境。

如在消費券分發(fā)的場景中，在對數(shù)據(jù)進(jìn)行嚴(yán)格的脫敏、保證數(shù)據(jù)隱私的前提下，ATEC 將用戶行為、用戶間關(guān)系、消費券知識圖譜等真實數(shù)據(jù)都開放給了選手。

“如果我是選手，我會希望題目的數(shù)據(jù)源不要定得太死，最好是原始的狀態(tài)?！睆堉緩?qiáng)曾在許多比賽中拿過獎項，也是經(jīng)驗豐富的出題人，他非常理解競賽人希望比賽天花板沒有最高只有更高的心態(tài)。

所以，在符合數(shù)據(jù)安全的前提下，賽題提供了用戶和商家的一些經(jīng)過脫敏的真實交易記錄信息，而不是只給出高度抽象化的人工特征。假如專家提前在背后做好特征提取，那么選手就只需要做一些模型的組合工作，但 ATEC 希望選手能在模擬的工業(yè)環(huán)境中，花足夠多的精力去理解數(shù)據(jù)本身，做信息的提取和建模。

另外，ATEC 大賽畢竟是一場技術(shù)競技，所以賽題組在縮小比賽題目與真實工業(yè)問題之間的差距時也要考慮一個難點，即將賽題對復(fù)雜真實環(huán)境的簡化調(diào)控到合理的幅度，這也是賽題組團(tuán)隊內(nèi)部斟酌和爭論最多的一個方面。他們都身處技術(shù)應(yīng)用的第一線，很清楚目前業(yè)界有哪些強(qiáng)大的模型和基線，因此花了不少時間去測試不同的模型，在此基礎(chǔ)上設(shè)定能拉開分?jǐn)?shù)差距的賽題難度，在每一個數(shù)據(jù)源的選擇上，他們都要保證能讓選手的分?jǐn)?shù)在榜單上具有區(qū)分度。

總之，在用技術(shù)解決數(shù)字經(jīng)濟(jì)難題的這條路上，青年技術(shù)人只有親臨真實的工業(yè)場景才能理解技術(shù)背后的邏輯，提升技術(shù)能力。而在邁入實戰(zhàn)之前，ATEC無疑是一次不可多得的預(yù)演機(jī)會。

——3——
科技偶像的誕生

從 2020 年的“野生動物保護(hù)”，到2021年的“科技反詐”，一群篤信技術(shù)改變世界的年輕程序員們，在賽場上寫下一行行代碼，攻克了一個個社會熱點命題。我們也看到了這群人身上獨有的精神氣質(zhì)：對邏輯的忠誠，對效率的癡迷，對解謎的熱愛。

今年，在“科技助實”的命題下，又有一群年輕人正在奔赴技術(shù)的競技場。本屆ATEC科技精英賽分為線上賽和線下賽兩個階段。

線上賽目前已經(jīng)在進(jìn)行當(dāng)中，選手在支付寶提供的平臺上訓(xùn)練模型、評測模型效果。評分采用測試榜（A 榜）+終榜（B 榜）形式，最終每個賽道的名次與獎勵評定，都以 B 榜數(shù)據(jù)集成績?yōu)橐罁?jù)。比賽期間排行榜顯示 A 榜成績排名，每支賽隊每個自然日可提交 3 次結(jié)果。

最終，線上賽前 20% 且超過分?jǐn)?shù)線的賽隊將會均分 30 萬元的獎池。在賽后答辯中，還將選出每個賽道答辯成績前 8 名的選手瓜分 16 萬元的獎池。

線下決賽將于2023年的 3 月 3 日至 5 日舉行。在限時 48 小時里，選手將在真實場景模擬中基于多項公開及隱藏關(guān)卡展開激烈的多輪對抗，角逐冠軍團(tuán)隊，拿下百萬獎金。

值得一提的是，本屆比賽還專門設(shè)立了2名“巾幗特別獎”（1 萬元獎金），希望這個舞臺上能出現(xiàn)更多女程序員的身影。

讓技術(shù)的力量被看見，讓程序員們的聲音被聽見，是 ATEC 大賽的不變初衷。所以今年，線下賽將繼續(xù)呈現(xiàn)在真人秀節(jié)目中，向公眾展示程序員群體千姿百態(tài)的有趣靈魂。

這場百萬獎金大賽，你們不來參加？

圖注：第二屆ATEC科技精英賽冠軍隊伍

作為國內(nèi)首檔程序員真人秀綜藝，以往兩季的《燃燒吧！天才程序員》播出后成功破圈。在真實的鏡頭記錄下，我們已經(jīng)見證了許多技術(shù)“頂流”的誕生，如小刀、腹黑、郭達(dá)雅、李金膛的、曾兆陽等等，他們熱血、智慧、謙遜，感染了無數(shù)有著技術(shù)理想的人。

ATEC 已經(jīng)準(zhǔn)備好了最真實的技術(shù)考驗、極其誘人的獎金和獨一無二被“看見”的機(jī)會，只等一個擁有技術(shù)靈魂的你來開啟一段破浪之旅。（公眾號：雷峰網(wǎng)）

ATEC 比賽網(wǎng)址：https://www.atecup.cn/home

這場百萬獎金大賽，你們不來參加？

（公眾號：雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

李梅

編輯

發(fā)私信

當(dāng)月熱門文章

這場百萬獎金大賽，你們不來參加？

這場百萬獎金大賽，你們不來參加？