0
作者 | 李梅
編輯 | 陳彩嫻
“再挖點特征出來吧?!?/p>
“看看還有沒有超車的機會?!?/p>
“終于找到隱藏BUG了?!?/p>
“提交成功了!”
在這場持續(xù) 60 小時的極限挑戰(zhàn)中,24 位程序員時而盯住屏幕扶額沉思,時而雙手在鍵盤上快速游走,與隊友互相打氣,共同利用可信 AI 技術(shù)完成了欺詐舉報定性、欺詐交易識別等任務(wù)。
這是去年 ATEC 科技精英賽的線下決賽環(huán)節(jié)。選手們的每一個或興奮或焦灼的時刻,都被真實記錄下來,形成了一檔火爆的程序員專屬真人秀節(jié)目《燃燒吧!天才程序員》。
圖注:《燃燒吧!天才程序員 2》節(jié)目畫面
今年,在中國人工智能學(xué)會指導(dǎo)下,ATEC前沿科技探索社區(qū)發(fā)起了第三屆 ATEC 大賽,清華大學(xué)、西安交通大學(xué)、浙江大學(xué)、上海交通大學(xué)、螞蟻集團共同參與了大賽的命題和組織。大賽以“科技助實”為命題,模擬企業(yè)數(shù)字化的真實場景,設(shè)立了數(shù)字化運營和數(shù)字化安全兩大賽道。技術(shù)人將通過解決真實問題讓 AI 走出象牙塔,發(fā)揮技術(shù)向善的力量。在這場熱血競技之中,最終脫穎而出的冠軍隊伍將獲得100萬元的獎金。
——1——
技術(shù)的力量
最前沿、最具價值的技術(shù),是 ATEC 大賽第一個耀眼的標(biāo)簽。
當(dāng)下,產(chǎn)業(yè)數(shù)字化已經(jīng)成為一股不可逆轉(zhuǎn)的浪潮,利用數(shù)字科技實現(xiàn)轉(zhuǎn)型升級成了企業(yè)面臨的重要課題。然而,科技助實畢竟是一個非常大的命題,在產(chǎn)業(yè)數(shù)字化這場大潮中,什么樣的技術(shù)才是更有力量的?
毫無疑問,隱私計算、圖智能、智能推薦等技術(shù),已經(jīng)成為企業(yè)數(shù)字化進程中絕對不可繞過的強大工具。“無論是對于螞蟻還是對于更多中小企業(yè)而言,它們都是很重要的技術(shù)命題,這是大家感受非常深的。”螞蟻集團資深算法專家、圖學(xué)習(xí)技術(shù)總監(jiān)張志強是今年ATEC 2022科技精英賽的賽題組負(fù)責(zé)人,他這樣告訴 AI 科技評論。
因此,本屆 ATEC 科技精英賽瞄準(zhǔn)了消費券分發(fā)和風(fēng)險商戶識別兩個具體的應(yīng)用場景。
消費券或購物券的分發(fā),是中小企業(yè)在數(shù)字化運營中提升收益率和效率的一個重要渠道。
2020 年春季,在國內(nèi)第一波疫情高峰剛剛落下之際,政府為拉動經(jīng)濟復(fù)蘇,投入了大量資金通過支付寶或其他平臺向用戶發(fā)放消費券。商家提供不同力度的產(chǎn)品折扣,支付寶平臺則通過大數(shù)據(jù)的能力對用戶的偏好進行預(yù)測,將消費券精準(zhǔn)分發(fā)給用戶,用戶領(lǐng)取后去消費,商家便可獲利。一直到今天,螞蟻仍在運行這個項目,其中的算法也在持續(xù)地迭代。
這樣一個場景首先涉及的是流量分發(fā)的概念,所以需要使用推薦相關(guān)的技術(shù)。推薦系統(tǒng)與搜索引擎、廣告投放并列為 AI 在工業(yè)界落地規(guī)模最大的三個技術(shù)方向,在產(chǎn)業(yè)數(shù)字化中無疑具有巨大的技術(shù)力量。
同時,消費券的分發(fā)還會產(chǎn)生許多非結(jié)構(gòu)化的圖數(shù)據(jù),比如用戶點擊領(lǐng)取或核銷一次消費券,用戶與消費券之間就構(gòu)成一種關(guān)系,這種關(guān)系可以用圖來表示。此外,用戶歷史行為的序列、用戶之間的關(guān)系等也都可以表示成圖數(shù)據(jù)。圖數(shù)據(jù)的獨特性在于樣本并非獨立同分布的,需要使用圖神經(jīng)網(wǎng)絡(luò)等圖學(xué)習(xí)滴技術(shù)去對圖數(shù)據(jù)進行表達、理解或抽象,在此基礎(chǔ)上再去實現(xiàn)智能化建模。
所以在推薦場景中,利用圖學(xué)習(xí)的技術(shù)能夠提高消費券分發(fā)的效率和精度,最終提高中小商家的數(shù)字化經(jīng)營能力。事實上,在推薦相關(guān)的比賽中,引入圖學(xué)習(xí)技術(shù)并不常見,常規(guī)的推薦比賽涉及的特征主要包括用戶特征、消費券特征和曝光點擊特征,而這次的 ATEC 大賽還額外增加了兩個圖數(shù)據(jù)源。
“圖學(xué)習(xí)有很大的落地潛力,我們希望選手能在圖學(xué)習(xí)方面多得到一些訓(xùn)練”,這是螞蟻集團圖學(xué)習(xí)技術(shù)部算法工程師趙前在參與出題時的一個出發(fā)點。前沿技術(shù)從產(chǎn)業(yè)中來,最終也要到產(chǎn)業(yè)中去,只有豐富多樣的應(yīng)用場景才能為圖學(xué)習(xí)打開更大的技術(shù)落地空間,這次的消費券分發(fā)賽題便是其中一個典型場景。
不僅僅是推薦,風(fēng)控也是圖學(xué)習(xí)的重要落地場景。
企業(yè)進入數(shù)字化世界,除了提升數(shù)字化運營能力,還需要最大程度地降低安全風(fēng)險。如欺詐、黑灰產(chǎn)商家或者金融領(lǐng)域小微企業(yè)的信用與經(jīng)營風(fēng)險等,會危害整個數(shù)字生態(tài),所以今年 ATEC科技精英賽還設(shè)置了風(fēng)險商戶識別賽道。這個賽題在螞蟻的網(wǎng)商銀行業(yè)務(wù)中同樣有著大量的實踐經(jīng)驗。
網(wǎng)商銀行為小微群體提供金融服務(wù)。舉個例子,淘寶商家發(fā)出貨品后,可能要等待長達 14 天的時間才能收到用戶的付款,小微企業(yè)很可能會因此面臨資金鏈斷裂的危險。所以網(wǎng)商銀行推出了發(fā)貨貸款,只要商家真實發(fā)貨,就會根據(jù)貨物的真實價值及時緩解商家在交易中資金流動緊張的壓力。
然而,一些不法商家會借機鉆空子,比如利用刷單、虛假發(fā)貨、偽造交易等手段去騙貸。為了維護其他正常商家的權(quán)益和整個數(shù)字生態(tài)的健康運行,我們就需要識別和剔除風(fēng)險商戶。
圖學(xué)習(xí)技術(shù)在此便有了用武之地,商家和用戶之間的交易可以用圖數(shù)據(jù)來表示,如果商家實施了不良交易,我們就可以從交易圖的模式中發(fā)現(xiàn)異常,進而對其做處理。
在識別黑灰產(chǎn)商家的任務(wù)中,隱私計算同樣是一大技術(shù)利器。
隱私保護的背后其實是一個關(guān)于「數(shù)據(jù)」的矛盾。一方面,在 AI 研發(fā)轉(zhuǎn)向以數(shù)據(jù)為中心的當(dāng)下,人們越來越認(rèn)識到數(shù)據(jù)作為生產(chǎn)要素的巨大價值,為了最大化地釋放數(shù)據(jù)價值,數(shù)據(jù)需要被聯(lián)合起來使用。但另一方面,生產(chǎn)數(shù)據(jù)的各個主體并不希望在數(shù)據(jù)協(xié)作過程中泄露自己的數(shù)據(jù)隱私。
張志強向我們舉了一個風(fēng)險商戶識別的例子:很多時候,一個黑灰產(chǎn)團伙可能涉及多個平臺,他們的數(shù)據(jù)可能包括不同類型 ,并分散在不同的計算節(jié)點中,我們需要對其實現(xiàn)一個高效的協(xié)作,將多方數(shù)據(jù)聯(lián)合起來,更完整地刻畫出黑灰產(chǎn)團伙的全貌,從而最大化識別效率。在此過程中就需要利用聯(lián)邦學(xué)習(xí)技術(shù),保護商家數(shù)據(jù)隱私的前提下,聯(lián)合多方的交易信息,提高對風(fēng)險商戶的識別精度。
本質(zhì)上,兩個賽道背后的技術(shù)圍繞的都是關(guān)于數(shù)據(jù)的能力。“圖智能是針對某種特定數(shù)據(jù)類型進行表征和建模,隱私計算則是解決數(shù)據(jù)孤島的問題,兩種數(shù)據(jù)能力是互補的”,張志強解釋。
所以,經(jīng)由 ATEC 這場賽事,選手所能獲得的并非只是解決兩個賽題的經(jīng)驗,更是一場對當(dāng)下工業(yè)界最前沿技術(shù)的探索。
——2——
更真實的工業(yè)場景命題
AI 技術(shù)者的實力有多強,只有深入工業(yè)場景的叢林實戰(zhàn)一番才能見分曉。
“如果沒有成規(guī)?;?、具有較大影響力的真實場景,其實是很難誕生重量級的技術(shù)的”,張志強深信,真實場景更能驅(qū)動技術(shù)人去思考怎樣的技術(shù)方向是更有價值的。所以,盡可能地還原真實工業(yè)場景,貫穿了本次 ATEC 大賽的命題始終。
在賽題組看來,這也正是許多計算機領(lǐng)域的競賽所缺少的。以圖學(xué)習(xí)為例,已有的相關(guān)比賽大多是面向?qū)W術(shù)環(huán)境,使用的是公開或構(gòu)造的數(shù)據(jù)集,比如學(xué)術(shù)文獻網(wǎng)所形成的龐大的圖數(shù)據(jù),但鮮少在真實工業(yè)命題下去彰顯圖學(xué)習(xí)的技術(shù)價值。
AI 要真正走出實驗室,場景與人才,缺一不可。
這也是 ATEC 探索產(chǎn)學(xué)研融合模式的原因。每年的參賽者中有很大一部分是高校學(xué)生,他們大多缺少將研究理論付諸實踐的平臺。比如隱私計算是近年來一個新興的熱門方向,盡管很多高校都開設(shè)了相關(guān)課程,但相關(guān)的比賽還不多。公開的學(xué)術(shù)論文是他們了解這項技術(shù)的主要窗口,但論文提供的數(shù)據(jù)集及其評估方式通常與真實的技術(shù)應(yīng)用場景之間有著不小的鴻溝。
紙上得來終覺淺,剛畢業(yè)不久的流愚對這一點深有體會。他解釋,與學(xué)術(shù)環(huán)境下的公開數(shù)據(jù)集不同,工業(yè)場景中的測試集數(shù)據(jù)是完全不可見的,我們只能在訓(xùn)練集上開發(fā)模型,再將測試集的數(shù)據(jù)喂給模型、進行評估。這種差異會導(dǎo)致學(xué)生不理解為什么測試集上的時間特征是不可用的,可能會忽略特征穿越或特征泄露等情況,錯將泄露的特征加入到模型中。但實際上,這些特征在真實場景中是不能使用的。
另外,去企業(yè)實習(xí)的門檻較高、機會也少,像隱私計算這樣的方向,其實全國范圍內(nèi)的崗位還不多。螞蟻內(nèi)部有著海量的技術(shù)應(yīng)用場景,借助這樣的資源,ATEC為大家提供了一個最接近真實場景的試煉場,并對所有懷抱技術(shù)熱情的人敞開大門,這也是過去兩年 ATEC 能夠吸引數(shù)千名技術(shù)青年參賽的原因。
在2020年第一屆ATEC科技精英賽中,賽題就設(shè)立了真實的環(huán)境保護命題。參賽者通過訓(xùn)練AI模型,對瀕危野生物種進行智能識別,與盜獵者展開了一場數(shù)字攻防博弈。第二年的考題之一“網(wǎng)絡(luò)欺詐交易識別”,則來自支付寶的真實的業(yè)務(wù)場景,選手利用經(jīng)過模改脫敏的、 關(guān)于數(shù)字貨幣的數(shù)據(jù)集,探討數(shù)據(jù)保護場景下的聯(lián)合計算分析,完成了一次隱私保護的技術(shù)實踐。
那么,今年ATEC 科技精英賽的真實都體現(xiàn)在哪里?
首先,賽題的設(shè)計呈現(xiàn)了企業(yè)在數(shù)字化過程中所面臨問題的實際面貌。
以賽道一為例,實際的消費券分發(fā)與一般的推薦任務(wù)不同,一般推薦任務(wù)大多只關(guān)心某一個整體的排序性指標(biāo),或關(guān)心圍繞用戶的一些排序指標(biāo)。但實際的消費券發(fā)放場景涉及多方,包括平臺方、商家和用戶,商家側(cè)的一些指標(biāo)同樣要考慮在內(nèi),一些曝光度更低、客戶量更少的長尾、弱勢小微企業(yè),也希望用戶能使用他們的消費券購買產(chǎn)品。這就需要我們提高每個券的點擊排序預(yù)測的精度,保證無論是頭部商家還是長尾商家都能得到較好的點擊率和核銷率,讓小微企業(yè)也能乘上數(shù)字化的時代快車,實現(xiàn)降本增效。
所以,參賽者在設(shè)計推薦系統(tǒng)時,必須同時提高兩方面的指標(biāo),既保證用戶的體驗,又能對中小商家的消費券做更精準(zhǔn)的分發(fā),這樣才能在榜單中得到一個好的名次。
為了讓選手能更自由地發(fā)揮其技術(shù)想象力,ATEC 還在保證數(shù)據(jù)安全的前提下提供了十分貼近工業(yè)場景的底層數(shù)據(jù)環(huán)境。
如在消費券分發(fā)的場景中,在對數(shù)據(jù)進行嚴(yán)格的脫敏、保證數(shù)據(jù)隱私的前提下,ATEC 將用戶行為、用戶間關(guān)系、消費券知識圖譜等真實數(shù)據(jù)都開放給了選手。
“如果我是選手,我會希望題目的數(shù)據(jù)源不要定得太死,最好是原始的狀態(tài)?!睆堉緩娫谠S多比賽中拿過獎項,也是經(jīng)驗豐富的出題人,他非常理解競賽人希望比賽天花板沒有最高只有更高的心態(tài)。
所以,在符合數(shù)據(jù)安全的前提下,賽題提供了用戶和商家的一些經(jīng)過脫敏的真實交易記錄信息,而不是只給出高度抽象化的人工特征。假如專家提前在背后做好特征提取,那么選手就只需要做一些模型的組合工作,但 ATEC 希望選手能在模擬的工業(yè)環(huán)境中,花足夠多的精力去理解數(shù)據(jù)本身,做信息的提取和建模。
另外,ATEC 大賽畢竟是一場技術(shù)競技,所以賽題組在縮小比賽題目與真實工業(yè)問題之間的差距時也要考慮一個難點,即將賽題對復(fù)雜真實環(huán)境的簡化調(diào)控到合理的幅度,這也是賽題組團隊內(nèi)部斟酌和爭論最多的一個方面。他們都身處技術(shù)應(yīng)用的第一線,很清楚目前業(yè)界有哪些強大的模型和基線,因此花了不少時間去測試不同的模型,在此基礎(chǔ)上設(shè)定能拉開分?jǐn)?shù)差距的賽題難度,在每一個數(shù)據(jù)源的選擇上,他們都要保證能讓選手的分?jǐn)?shù)在榜單上具有區(qū)分度。
總之,在用技術(shù)解決數(shù)字經(jīng)濟難題的這條路上,青年技術(shù)人只有親臨真實的工業(yè)場景才能理解技術(shù)背后的邏輯,提升技術(shù)能力。而在邁入實戰(zhàn)之前,ATEC無疑是一次不可多得的預(yù)演機會。
——3——
科技偶像的誕生
從 2020 年的“野生動物保護”,到2021年的“科技反詐”,一群篤信技術(shù)改變世界的年輕程序員們,在賽場上寫下一行行代碼,攻克了一個個社會熱點命題。我們也看到了這群人身上獨有的精神氣質(zhì):對邏輯的忠誠,對效率的癡迷,對解謎的熱愛。
今年,在“科技助實”的命題下,又有一群年輕人正在奔赴技術(shù)的競技場。本屆ATEC科技精英賽分為線上賽和線下賽兩個階段。
線上賽目前已經(jīng)在進行當(dāng)中,選手在支付寶提供的平臺上訓(xùn)練模型、評測模型效果。評分采用測試榜(A 榜)+終榜(B 榜)形式,最終每個賽道的名次與獎勵評定,都以 B 榜數(shù)據(jù)集成績?yōu)橐罁?jù)。比賽期間排行榜顯示 A 榜成績排名,每支賽隊每個自然日可提交 3 次結(jié)果。
最終,線上賽前 20% 且超過分?jǐn)?shù)線的賽隊將會均分 30 萬元的獎池。在賽后答辯中,還將選出每個賽道答辯成績前 8 名的選手瓜分 16 萬元的獎池。
線下決賽將于2023年的 3 月 3 日至 5 日 舉行。在限時 48 小時里,選手將在真實場景模擬中基于多項公開及隱藏關(guān)卡展開激烈的多輪對抗,角逐冠軍團隊,拿下百萬獎金。
值得一提的是,本屆比賽還專門設(shè)立了2名“巾幗特別獎”(1 萬元獎金),希望這個舞臺上能出現(xiàn)更多女程序員的身影。
讓技術(shù)的力量被看見,讓程序員們的聲音被聽見,是 ATEC 大賽的不變初衷。所以今年,線下賽將繼續(xù)呈現(xiàn)在真人秀節(jié)目中,向公眾展示程序員群體千姿百態(tài)的有趣靈魂。
圖注:第二屆ATEC科技精英賽冠軍隊伍
作為國內(nèi)首檔程序員真人秀綜藝,以往兩季的《燃燒吧!天才程序員》播出后成功破圈。在真實的鏡頭記錄下,我們已經(jīng)見證了許多技術(shù)“頂流”的誕生,如小刀、腹黑、郭達雅、李金膛的、曾兆陽等等,他們熱血、智慧、謙遜,感染了無數(shù)有著技術(shù)理想的人。
ATEC 已經(jīng)準(zhǔn)備好了最真實的技術(shù)考驗、極其誘人的獎金和獨一無二被“看見”的機會,只等一個擁有技術(shù)靈魂的你來開啟一段破浪之旅。(公眾號:雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
ATEC 比賽網(wǎng)址:https://www.atecup.cn/home
(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。