0
作者 | 青暮
編輯 | 岑峰
何謂洗錢?其實(shí)就是讓手里非法來源的金錢,經(jīng)過多重轉(zhuǎn)手,最后回到自己手上,并且最后一筆交易的性質(zhì)是合法的。
我們把參與其中的人都看作一個(gè)點(diǎn),每一筆交易都會(huì)通過一條邊連接兩個(gè)人,整個(gè)洗錢過程,就形成了一個(gè)閉環(huán)。
要在一群人的交易記錄中認(rèn)出這樣的閉環(huán),需要耗費(fèi)多少資源?
我們假設(shè)監(jiān)測對象的交易都記錄在一張表格上,事實(shí)上,給你一臺計(jì)算機(jī),加上一個(gè)表格數(shù)據(jù)處理系統(tǒng),也不一定能夠解決這個(gè)問題。
為什么?
1
局限:表格的低維性
互聯(lián)網(wǎng)時(shí)代的支付行為,早已不再局限于一個(gè)幾十萬人口的小小城鎮(zhèn),,而是跨越了城市、省份、國家,形成了擁有億級節(jié)點(diǎn)的巨大網(wǎng)絡(luò)。很多黑產(chǎn)和犯罪行為,就隱蔽在復(fù)雜的支付鏈條背后。
為了在這張網(wǎng)絡(luò)上找到涉嫌洗錢行為的閉環(huán),我們需要把它進(jìn)行切割,在大量服務(wù)器組成的集群里分別存儲(chǔ),并高效地進(jìn)行計(jì)算。為此我們需要大數(shù)據(jù)技術(shù)的支持,也就是將大量廉價(jià)計(jì)算機(jī)連接起來同時(shí)運(yùn)行的能力。
但僅有這些還不夠,根源在于數(shù)據(jù)的表示形式——表格。
表格數(shù)據(jù)是一種關(guān)系型數(shù)據(jù),其數(shù)據(jù)往往是同質(zhì)的,一張雇員表記錄的就是所有雇員的信息,一張?jiān)O(shè)備表記錄的就是所有設(shè)備表的信息。
這種數(shù)據(jù)形式的每一項(xiàng)數(shù)據(jù)如果都是獨(dú)立的,就能很好地存儲(chǔ)和表示。但如果涉及了數(shù)據(jù)項(xiàng)之間的相互作用,就會(huì)變得復(fù)雜。
比如在表格數(shù)據(jù)中,對于A的鄰居和A的鄰居的鄰居的查詢,就很可能需要非常不同的代碼來實(shí)現(xiàn),因?yàn)檫@里面涉及到的鄰居、鄰居的鄰居等關(guān)系的表示,在表格形式上的呈現(xiàn)是非常不同的。同時(shí)隨著鄰居的增加,訪問數(shù)據(jù)量是指數(shù)增加的,其性能也指數(shù)級降低。
所以,在人員跨度很大的洗錢行為中,因?yàn)榻灰讛?shù)量的劇增,表格計(jì)算很可能永遠(yuǎn)檢測不出來。
其實(shí)在我們的思維中,從一個(gè)節(jié)點(diǎn)連續(xù)跳到其它節(jié)點(diǎn)時(shí),每一步都是相同的過程。很自然地,我們也希望能有一種新的數(shù)據(jù)形式可以很直觀地表示這種過程。
圖,就是我們剛好需要的數(shù)據(jù)形式。
圖不是圖像,而是由頂點(diǎn)和邊構(gòu)成的數(shù)學(xué)對象。
針對圖的數(shù)學(xué)即圖論。圖論起源于18世紀(jì)歐拉對哥尼斯堡七橋問題的研究,當(dāng)時(shí)歐拉在這些橋上散步的時(shí)候想到了一個(gè)數(shù)學(xué)問題:如何不重復(fù)地走過七座橋。
這個(gè)問題抽象出來,就成了下圖中的一筆畫問題。
此外,著名的四色問題其實(shí)也是一個(gè)圖論問題。
圖論經(jīng)歷了兩百多年的發(fā)展,經(jīng)由眾多數(shù)學(xué)家乃至計(jì)算機(jī)科學(xué)家不遺余力的發(fā)展,成為了我們解決很多實(shí)際問題的強(qiáng)力武器。諸如計(jì)算機(jī)芯片設(shè)計(jì)、語言數(shù)據(jù)庫、分子計(jì)算、社交網(wǎng)絡(luò)謠言傳播等問題,都可以建模為一個(gè)圖論問題。
反洗錢問題也不例外,正如前文所述,這些交易行為形成的網(wǎng)絡(luò),就是一個(gè)圖。
圖數(shù)據(jù)是一種非關(guān)系型數(shù)據(jù),也就是說,其存儲(chǔ)對象也就是頂點(diǎn)可以是非同質(zhì)的。對于反洗錢問題,我們不僅可以記錄人的信息,還可以記錄企業(yè)的信息,以及人與人、企業(yè)與企業(yè)、人與企業(yè)之間的關(guān)交易信息。
相對于表格數(shù)據(jù)而言,圖數(shù)據(jù)的每個(gè)頂點(diǎn)包含的信息通常維度高得多。
從根本上來說,圖數(shù)據(jù)是對表格數(shù)據(jù)的升維。
在圖數(shù)據(jù)中,只需要用查詢A的鄰居的代碼,再迭代一次,就可以查詢A的鄰居的鄰居。
這是一個(gè)典型的圖計(jì)算過程,圖計(jì)算是以圖作為數(shù)據(jù)模型來表達(dá)問題并予以解決的這一過程。以高效解決圖計(jì)算問題為目標(biāo)的系統(tǒng)軟件稱為圖計(jì)算系統(tǒng)。
在數(shù)學(xué)形式上,圖計(jì)算也帶來了非常直觀簡潔的理解。由于圖和矩陣天然的對偶關(guān)系,因此線性代數(shù)自然地成為了圖計(jì)算的數(shù)學(xué)語言。
云計(jì)算提供了分布式、大規(guī)模的計(jì)算機(jī)集群能力,圖計(jì)算是在大數(shù)據(jù)上再提升了一層,處理的不再是二維的表格數(shù)據(jù),而是一個(gè)復(fù)雜的圖。
就像深度學(xué)習(xí)可以直接處理圖像數(shù)據(jù)一樣,圖計(jì)算正在引領(lǐng)一種新的計(jì)算范式,甚至是新的數(shù)學(xué)、邏輯范式,其飛躍性不亞于在多媒體時(shí)代,我們的交流從序列化語言到二維圖像的轉(zhuǎn)變。
自18世紀(jì)的哥尼斯堡七橋問題以來,圖計(jì)算一直局限于純?nèi)斯さ膶W(xué)術(shù)、理論研究,或在單機(jī)上的工程研究。
事實(shí)上,如果是簡單的反洗錢問題,確實(shí)可以用一臺計(jì)算機(jī)和一個(gè)表格數(shù)據(jù)處理系統(tǒng)來解決。
直到互聯(lián)網(wǎng)時(shí)代和大數(shù)據(jù)時(shí)代。
這里有一個(gè)重要的節(jié)點(diǎn),也就是谷歌在2003、2004年相繼發(fā)表了GFS、MapReduce論文。
通過這兩篇論文,人們知道了我們在處理大規(guī)模計(jì)算任務(wù)時(shí),不是必須依靠單個(gè)昂貴的服務(wù)器的技術(shù)升級,還可以用多個(gè)廉價(jià)的服務(wù)器搭建出具有非常強(qiáng)大計(jì)算能力的分布式計(jì)算系統(tǒng),進(jìn)而用于處理海量數(shù)據(jù)。
這不僅支持了谷歌的核心業(yè)務(wù)即搜索引擎的發(fā)展,后來基于這兩篇論文,人們還開發(fā)出了Hadoop開源數(shù)據(jù)庫系統(tǒng)。
如今,幾乎每一個(gè)互聯(lián)網(wǎng)企業(yè),乃至許多開始大數(shù)據(jù)轉(zhuǎn)型的傳統(tǒng)企業(yè),都用Hadoop支撐著他們的大數(shù)據(jù)處理系統(tǒng)。
同樣,在大型集群的支撐下,圖計(jì)算也成為了一個(gè)極其龐大的系統(tǒng),涉及的每一個(gè)領(lǐng)域:圖存儲(chǔ)、圖數(shù)據(jù)庫、圖計(jì)算、圖深度學(xué)習(xí)等等,都是一門大學(xué)問。
2
發(fā)現(xiàn)閉環(huán):從圖存儲(chǔ)到圖計(jì)算
從被存放到計(jì)算機(jī),到被檢測出洗錢閉環(huán),一個(gè)支付圖網(wǎng)絡(luò)經(jīng)歷了什么過程?
總體而言,一個(gè)圖要先通過圖存儲(chǔ)引擎寫入存儲(chǔ)在圖數(shù)據(jù)庫中,然后被在圖計(jì)算引擎中通過圖算法模型讀取、計(jì)算,最后輸出計(jì)算結(jié)果。而這個(gè)圖算法模型可能是人工編程的,也可能是通過數(shù)據(jù)訓(xùn)練得到的圖深度學(xué)習(xí)模型。
我們以一個(gè)圖計(jì)算全棧系統(tǒng)GeaGraph來展開。螞蟻集團(tuán)計(jì)算存儲(chǔ)首席架構(gòu)師何昌華介紹道, “GeaGraph包含了7個(gè)組件,基本都由螞蟻集團(tuán)自主研發(fā),包括圖存儲(chǔ)引擎PhStore、圖數(shù)據(jù)庫GeaBase、圖計(jì)算引擎GeaFlow、圖深度學(xué)習(xí)系統(tǒng)GeaLearning,它們可以串聯(lián)起一個(gè)完整的技術(shù)鏈路。此外還有單機(jī)版本的圖數(shù)據(jù)庫GeaBase Lite,可以在單臺計(jì)算機(jī)上運(yùn)行,用于離線圖計(jì)算的GeaComputing系統(tǒng),以及圖研發(fā)平臺GeaMaker?!?/span>
當(dāng)然,分布式+圖計(jì)算并不能一勞永逸地解決反洗錢問題。由于問題本身的大規(guī)模和動(dòng)態(tài)屬性,我們將面臨幾個(gè)主要的難題。
事務(wù)性:金錢守恒
大規(guī)模問題必須采用分布式計(jì)算求解,而分布式存儲(chǔ)會(huì)導(dǎo)致事務(wù)性問題。
在一個(gè)圖里面,某個(gè)人新增了一筆交易,會(huì)影響圖里面的好多條邊。這種情況下,需要保證數(shù)據(jù)一致,包括如何保證數(shù)據(jù)的事務(wù)性。
所謂事務(wù)性是指,比如一個(gè)銀行賬戶里本來有100元,不應(yīng)該出現(xiàn)兩個(gè)人各來取走100元的情況,否則就違反了事務(wù)性。而取錢的兩個(gè)人的賬戶信息可能分布在不同的服務(wù)器上,這就涉及到服務(wù)器的通訊。
在將圖數(shù)據(jù)進(jìn)行了大規(guī)模的分布式化以后,如何高效地進(jìn)行圖數(shù)據(jù)的存儲(chǔ)和通訊,這是圖數(shù)據(jù)庫領(lǐng)域的一個(gè)普遍性難題。
具體來說,我們需要將一個(gè)大規(guī)模的圖分割成多段,也就是多個(gè)子圖,然后放到多臺計(jì)算機(jī)上,每臺計(jì)算機(jī)單獨(dú)只能對子圖進(jìn)行計(jì)算,當(dāng)要計(jì)算全圖的某些性質(zhì)的時(shí)候,比如反洗錢分析,可能不止涉及一臺計(jì)算機(jī)上的子圖,這些子圖之間是需要通訊的。如果不能保證事務(wù)性,那么計(jì)算結(jié)果出錯(cuò)就在所難免。
“盡管還沒有完全上線,但我們基本上算是解決了這個(gè)問題,這個(gè)在業(yè)內(nèi)我們是唯一的?!焙尾A說道。
這得益于GeaBase的數(shù)據(jù)強(qiáng)一致性和分布式事務(wù)能力。GeaBase是一個(gè)金融級分布式圖數(shù)據(jù)庫,能夠?qū)崿F(xiàn)對超大規(guī)模關(guān)系網(wǎng)絡(luò)毫秒級的復(fù)雜查詢及變更,具有金融級高可用性。
GeaBase單集群能支撐萬億邊規(guī)模的圖數(shù)據(jù),寫入和查詢吞吐量超過每秒百萬次,99.9%查詢和寫入延時(shí)小于20ms。
GeaBase Lite則是GeaBase的單機(jī)版本,是一個(gè)支持事務(wù)處理和強(qiáng)隔離性的單機(jī)圖數(shù)據(jù)庫,可以單機(jī)支持百億邊的圖數(shù)據(jù),而且集成了全圖迭代分析能力,可以同時(shí)滿足用戶對圖的復(fù)雜分析、快速查詢和可視化的需求。
PhStore是GeaBase背后的存儲(chǔ)引擎。它基于完美哈希(Perfect Hashing)技術(shù),屬于業(yè)界首創(chuàng),在圖的讀取性能上可以達(dá)到常數(shù)時(shí)間復(fù)雜度。單個(gè)集群可存儲(chǔ)PB級別的數(shù)據(jù),比業(yè)界通用的HBase 吞吐率提高5倍以上。
演變:分布式欺詐
反洗錢是一個(gè)博弈問題,道高一尺、魔高一丈,問題本身也是動(dòng)態(tài)的,在不斷演變。
如果一個(gè)人的欺詐行為容易被發(fā)現(xiàn),人們就會(huì)想到用團(tuán)伙欺詐去提高隱蔽性和監(jiān)測難度。
除了讓閉環(huán)的跨越性變大,甚至這些圖的頂點(diǎn)背后,有可能是正常用戶,從而極大提高了頂點(diǎn)的潛在數(shù)量。
“有很多洗錢團(tuán)伙通過跑分平臺,租借一些合法賬戶,使得很多正常賬戶被動(dòng)參與到這種黑灰產(chǎn)交易中。在這種情況下,反洗錢的難度更大?!?/span>
欺詐,也成了一種分布式行為,這種行為具有分散賬戶和長鏈條的特點(diǎn)。
團(tuán)伙欺詐的特點(diǎn)不僅在于規(guī)模,它還會(huì)不停變化,針對這種問題的圖計(jì)算被稱為持續(xù)圖計(jì)算。
如果能把握演變規(guī)律,也能帶來好處。在觀察團(tuán)伙演變的過程中,可以識別出團(tuán)伙中的不變元素,也即是關(guān)鍵角色,從而可以快速精準(zhǔn)地定位團(tuán)伙核心,實(shí)現(xiàn)更有效的防范。
博弈永不停息,反洗錢問題在未來或許會(huì)經(jīng)歷更大的演變。對于變化無窮的數(shù)據(jù),數(shù)據(jù)學(xué)習(xí)的方式自然更合適。何昌華說,針對反洗錢問題的圖深度學(xué)習(xí)已有探索。支持圖深度學(xué)習(xí)的系統(tǒng)是GeaLearning。
GeaLearning是以圖為核心的超大規(guī)模分布式深度學(xué)習(xí)系統(tǒng)。其主要特點(diǎn)包括:支持多種靈活圖模型訓(xùn)練方法(不限于global-batch和mini-batch),不限制圖神經(jīng)網(wǎng)絡(luò)層數(shù)和節(jié)點(diǎn)鄰居個(gè)數(shù),以模型并行為核心的混合并行執(zhí)行方式等。
深度:六度爆炸
分布式的欺詐行為,或者說分散賬戶和長鏈條的資金分散、聚集行為,使得洗錢行為涉及的頂點(diǎn)數(shù)大幅增加,為了檢測出不斷擴(kuò)大的閉環(huán),就勢必要增加圖計(jì)算的深度。
這個(gè)深度要如何理解呢?
六度空間是一個(gè)很知名的概念,也就是你可以通過平均六個(gè)人的聯(lián)系鏈條認(rèn)識世界上任何一個(gè)人。
在這個(gè)問題中,可以估算一下,每增加一個(gè)度,可聯(lián)系的人會(huì)增長多少倍。當(dāng)度為1的時(shí)候,這個(gè)數(shù)量范圍大概為從人類的鄧巴數(shù)(一個(gè)人維持緊密聯(lián)系的上限)即150,到社交APP朋友數(shù)量即數(shù)千人。而只需增加到6度,這個(gè)人數(shù)就變成了78億(當(dāng)前世界總?cè)丝冢?。因此,這個(gè)過程必然至少是指數(shù)級增長的。
“過去不基于圖來進(jìn)行反欺詐、反洗錢的時(shí)候,挖掘的關(guān)系深度非常有限,計(jì)算也很低效?!?/span>
另外,有些團(tuán)伙會(huì)在自己的大量正常交易中混入部分洗錢行為,比如藝術(shù)品拍賣等等。這些人可能有多重身份(大量賬號),同時(shí)違法交易也很低頻,交易路徑復(fù)雜?!罢涎鄯ā焙拖∈栊赃M(jìn)一步增加了監(jiān)測的難度。
“要實(shí)現(xiàn)這樣的檢測,需要非常深層的圖計(jì)算能力,傳統(tǒng)方法很難做到,或者策略過于復(fù)雜導(dǎo)致難以推廣?!?/span>
在GeaGraph上,部分圖計(jì)算問題能夠達(dá)到10度以上的深度,比如反洗錢問題?!叭欢绻捎脠D深度學(xué)習(xí)方法,就會(huì)變得非常困難。目前幾乎所有的圖深度學(xué)習(xí)所探索的圖深度只達(dá)到了2度,能夠探索到3度的技術(shù)非常稀有?!焙尾A說,螞蟻集團(tuán)的圖技術(shù)目前已經(jīng)可以做到10度下探,目標(biāo)是無限制下探。
為了支持這樣的探索,螞蟻集團(tuán)研發(fā)了GeaMaker平臺。GeaMaker是一站式圖計(jì)算研發(fā)探索平臺,融合了GeaGraph的底層系統(tǒng)的能力,為用戶提供了具備探索、仿真、性能評估等功能,集在線查詢,近線計(jì)算,離線分析和圖學(xué)習(xí)于一體。
實(shí)時(shí):微積分思想
監(jiān)測洗錢行為是為了防范,為了能夠及時(shí)遏制這類事件的發(fā)展,必須及時(shí)發(fā)現(xiàn)。因此,圖計(jì)算系統(tǒng)的實(shí)時(shí)性是不可或缺的。
但在大規(guī)模的圖計(jì)算場景中,延時(shí)問題是非常嚴(yán)苛的考驗(yàn)?!巴粋€(gè)人如果要在短時(shí)間里做兩筆交易,第一筆交易就必須非??斓赝瓿?,通常得是數(shù)十毫秒級別的響應(yīng)水平?!?/span>
另外,如果優(yōu)化做的不夠好,檢測到一個(gè)洗錢閉環(huán)通常需要一天的時(shí)間?!暗诶硐肭闆r下,我們希望能夠?qū)崿F(xiàn)秒級檢測?!?/span>
舉個(gè)更加簡單的例子,你在社交應(yīng)用上做的一個(gè)簡單的交互行為,就涉及到了跨越服務(wù)器的實(shí)時(shí)通訊?!氨热缭谖浵伾种校占伺笥训哪芰亢?,對方立刻就能實(shí)時(shí)看到,這對時(shí)效性以及數(shù)據(jù)一致性的要求非常高,但這兩個(gè)人的節(jié)點(diǎn)信息原本很可能存儲(chǔ)在不同的服務(wù)器上?!?/span>
要滿足這種實(shí)時(shí)性,流式計(jì)算是非常有效的方法,其基本思想和微積分相似。
在微積分中,y(x+Δx)-y(x)其實(shí)是一個(gè)無窮級數(shù),但我們可以只保留第一個(gè)項(xiàng),來近似地通過已知的y(x)的值,來計(jì)算y(x+Δx),即y(x+Δx)=y(x)+AΔx。
流式圖計(jì)算分為兩步,即流計(jì)算和增量圖計(jì)算。
流計(jì)算就是事件檢測,增量圖計(jì)算就是性質(zhì)檢測?!氨热缭谶M(jìn)行欺詐檢測的時(shí)候,我們不會(huì)對每一筆交易都做一次圖計(jì)算,這會(huì)造成極大浪費(fèi)。而是會(huì)先檢測交易中的額度,當(dāng)交易額超過一定范圍的時(shí)候,系統(tǒng)判斷存在可疑行為,就會(huì)引入欺詐檢測的圖計(jì)算模型,來看看涉及大交易額的幾個(gè)賬戶是否真的涉嫌欺詐行為。這需要將流計(jì)算和圖計(jì)算深度地融合才能做到?!?/span>
要使得流式圖計(jì)算能夠?qū)崟r(shí)進(jìn)行,還需要將全圖計(jì)算轉(zhuǎn)換成增量圖計(jì)算。也就是說,增量圖的計(jì)算結(jié)果對于全圖計(jì)算的改變也只是一個(gè)微小的增量。
支持流式圖計(jì)算的是GeaFlow,GeaFlow是螞蟻集團(tuán)自研的流式圖計(jì)算引擎,支持秒級6度以上的流式子圖匹配和秒級全圖時(shí)序增量圖計(jì)算。
全圖計(jì)算需要較長時(shí)間,可以離線完成,增量計(jì)算因?yàn)樯婕白訄D的規(guī)模小很多,從而能夠?qū)崟r(shí)進(jìn)行。
這就要依賴于離線圖計(jì)算系統(tǒng)GeaComputing,GeaComputing是由螞蟻集團(tuán)在清華大學(xué)研制的Gemini和ShenTu離線圖計(jì)算系統(tǒng)上進(jìn)一步優(yōu)化的分布式圖計(jì)算平臺,支持萬億級圖數(shù)據(jù),能夠?yàn)橛脩籼峁└咝У膹?fù)雜圖分析能力。
GeaComputing通過使用塊式劃分策略,流式消息處理等手段降低內(nèi)存需求。其性能優(yōu)于業(yè)界通用的GraphX系統(tǒng)百倍以上,內(nèi)存占用僅為其十分之一。
要使得流式計(jì)算能夠?qū)崟r(shí)進(jìn)行,還需要將全圖計(jì)算轉(zhuǎn)換成增量子圖計(jì)算。也就是說,增量的計(jì)算結(jié)果對于全圖計(jì)算的改變也只是一個(gè)微小的增量。而全圖計(jì)算需要較長時(shí)間,可以離線完成,增量計(jì)算因?yàn)樯婕白訄D的規(guī)模小很多,也能夠?qū)崟r(shí)進(jìn)行。
然而,數(shù)據(jù)更新亦可能“牽一發(fā)而動(dòng)全身”,從而引發(fā)類似蝴蝶效應(yīng)的現(xiàn)象。
蝴蝶效應(yīng)是指在一個(gè)動(dòng)態(tài)系統(tǒng)中,初始條件的微小變化,將能帶動(dòng)整個(gè)系統(tǒng)長期且巨大的鏈?zhǔn)椒磻?yīng),是一種混沌的現(xiàn)象。
增量的影響本身也是非常難以把握的事情,可控性難以保證?!耙粋€(gè)數(shù)據(jù)更新后,可能影響到圖里的很多個(gè)頂點(diǎn);或者多個(gè)數(shù)據(jù)同時(shí)更新時(shí),還會(huì)互相影響,這時(shí)候在多個(gè)服務(wù)器上如何保證數(shù)據(jù)一致是個(gè)難題,有時(shí)候我們甚至?xí)詳?shù)據(jù)不一致作為妥協(xié)手段?!?/span>
從2018年開始,螞蟻集團(tuán)在基于資金網(wǎng)絡(luò)、中介網(wǎng)絡(luò)上的典型欺詐檢測上已經(jīng)能做到百萬吞吐量下的毫秒級響應(yīng),“相比之下,傳統(tǒng)方法可能需要幾個(gè)小時(shí)或一天才能輸出結(jié)果?!?/span>
到2019年,螞蟻集團(tuán)在實(shí)現(xiàn)個(gè)體挖掘的基礎(chǔ)上,延伸到了欺詐團(tuán)伙的檢測,而且是實(shí)時(shí)的。
權(quán)衡:成本是永恒主題
最后是權(quán)衡問題。
性能和速度的權(quán)衡是技術(shù)優(yōu)化的一個(gè)永恒主題,不同的權(quán)衡適應(yīng)了不同的應(yīng)用場景,背后是成本的考慮。偏向性能的一般是專用技術(shù),偏向速度的一般是通用技術(shù)。
圖計(jì)算偏重于內(nèi)存和外存的權(quán)衡。
盡管內(nèi)存加載的圖計(jì)算很快,但大規(guī)模的圖數(shù)據(jù)難以全部加載到昂貴的內(nèi)存資源上,因此將圖數(shù)據(jù)加載到便宜的外存(比如SSD)上,就成了非常重要的探索方向?!爱?dāng)然,這也會(huì)帶來數(shù)據(jù)訪問上的速度限制問題(也就是吞吐量),以及圖計(jì)算邏輯的修改和優(yōu)化方面的額外工作。”
另外一個(gè)權(quán)衡是適配性方面,典型的就是計(jì)算和通訊的權(quán)衡。如果圖的關(guān)聯(lián)比較強(qiáng)和密集,就不太適合做太細(xì)的分割,反之亦然。另外,如果需要更加靈活的可擴(kuò)展性,則必須偏重通訊方面。
比如在反洗錢過程中,我們可以將全量數(shù)據(jù)存放在SSD上,只將頻繁訪問的數(shù)據(jù)存儲(chǔ)在內(nèi)存里,從而達(dá)到成本和性能的平衡;另外,對于內(nèi)存需求量不大的圖算法,我們就將它運(yùn)行在單機(jī)上以提高效率,只有單機(jī)無法運(yùn)行的算法才使用分布式,這樣就達(dá)到規(guī)模和性能的平衡。
通過克服上述困難,螞蟻集團(tuán)保證了反洗錢過程中的數(shù)據(jù)事務(wù)性和一致性,能夠識別團(tuán)伙洗錢,并且不受深度問題帶來的計(jì)算量爆炸困擾,得以實(shí)時(shí)監(jiān)測和防范洗錢行為。
2020年起,GeaStack應(yīng)用于螞蟻集團(tuán)支付業(yè)務(wù),在已有策略模型的基礎(chǔ)上,通過引入圖模型,反欺詐稽核資金額增加了6%。
2021年,GeaStack應(yīng)用于螞蟻集團(tuán)反洗錢分析,覆蓋支付寶全部資金交易,每天計(jì)算8億客戶過去180天大約200億左右邊關(guān)系,將客戶資金流向和關(guān)系可視化,對疑似團(tuán)伙類犯罪風(fēng)險(xiǎn)識別能力提高94倍多,風(fēng)險(xiǎn)審理分析效率提升90%。
通過不同的權(quán)衡和多樣的算法,螞蟻集團(tuán)也得以適應(yīng)不同類型的圖計(jì)算難題。
3
GeaGraph:百煉成金
支付涉及到了每個(gè)人,以及人與人之間的關(guān)系,這些事件能很自然地構(gòu)成一張張圖。螞蟻集團(tuán)的核心業(yè)務(wù)是大數(shù)據(jù)金融,天然和圖計(jì)算有著密切聯(lián)系。
螞蟻集團(tuán)從2015年初開始組建圖數(shù)據(jù)庫團(tuán)隊(duì),2016年初發(fā)布第一個(gè)圖數(shù)據(jù)庫版本GeaBase。
2016年6月,新版支付寶上線,GeaBase迎來了第一筆流量。
接下來幾年,從支付寶大改版到新春紅包再到雙11,GeaBase迎來了業(yè)務(wù)的綻放期,到2019年雙11,GeaBase雙11主鏈路上單集群規(guī)模突破萬億邊,點(diǎn)邊查詢突破800萬QPS,平均時(shí)延小于10毫秒,成為支付寶核心鏈路上非常重要的一環(huán)。
“在GeaBase的基礎(chǔ)上,通過全棧技術(shù)系統(tǒng)GeaGraph,螞蟻集團(tuán)解決了圖數(shù)據(jù)分析面臨的大數(shù)據(jù)量、高吞吐率和低延遲等重大挑戰(zhàn)?!?/span>
GeaGraph支撐了螞蟻集團(tuán)的支付、數(shù)金等眾多關(guān)鍵應(yīng)用場景,單集群達(dá)到百億個(gè)節(jié)點(diǎn)、萬億條邊的海量數(shù)據(jù)規(guī)模,為螞蟻集團(tuán)的風(fēng)險(xiǎn)控制、反洗錢、反套現(xiàn)、金融案件審理、信用分?jǐn)?shù)等業(yè)務(wù)提供穩(wěn)定的決策能力。
搜索推薦涉及社交網(wǎng)絡(luò)的購買行為的關(guān)聯(lián),比如可以根據(jù)你的朋友的購買喜好,推測出你的購買喜好,這類問題也有非常強(qiáng)的圖屬性,非常適合應(yīng)用圖計(jì)算技術(shù)。
但螞蟻集團(tuán)并沒有在這個(gè)領(lǐng)域布局。為何要深耕金融,而不是先在搜索推薦等應(yīng)用上大規(guī)模落地?
何昌華表示:“這類問題通常涉及的深度不大,一般是1-2度。而在金融風(fēng)控、電網(wǎng)規(guī)劃中,經(jīng)常能遇到對深度要求非常高的問題。這對于我們的技術(shù)錘煉是非常好的場景。同時(shí),在這些“煉獄”場景錘煉出來的技術(shù),也能很容易地應(yīng)用到簡單的場景里去?!?/span>
如此高難度業(yè)務(wù)場景的考驗(yàn),正是螞蟻集團(tuán)的圖計(jì)算擁有大數(shù)據(jù)量、高吞吐率、低延時(shí)的計(jì)算能力的秘密。其中在低延遲方面,GeaGraph一般能支持5、6度深度的毫秒級計(jì)算。
得益于這種攻關(guān)精神,螞蟻集團(tuán)還在圖數(shù)據(jù)庫性能測試的LDBC基準(zhǔn)上,以及斯坦福圖深度學(xué)習(xí)推理基準(zhǔn)(OGB)上拿到了世界第一。
“到目前為止,可以說,無論在圖計(jì)算規(guī)模、圖數(shù)據(jù)庫規(guī)模,以及涉及的圖計(jì)算問題的復(fù)雜度,和在這之上支撐的業(yè)務(wù)量,GeaGraph都是世界第一水平的?!?/span>
在剛剛結(jié)束的2021世界互聯(lián)網(wǎng)大會(huì)上,螞蟻集團(tuán)大規(guī)模圖計(jì)算系統(tǒng)GeaGraph獲得世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)。這個(gè)獎(jiǎng)項(xiàng)代表著世界范圍內(nèi)最新科技的最高水平。
4
螞蟻集團(tuán):從點(diǎn)到圖
從點(diǎn)到圖,布局圖計(jì)算的企業(yè)也形成了一張圖網(wǎng)絡(luò),已有百家爭鳴之勢,建立標(biāo)準(zhǔn)自然勢在必行。
工信部、國家標(biāo)準(zhǔn)化管理委員會(huì)通過全國標(biāo)準(zhǔn)信息公共服務(wù)平臺公布,《信息技術(shù)圖數(shù)據(jù)庫系統(tǒng)技術(shù)要求》的國家標(biāo)準(zhǔn)正式立項(xiàng),這也是國內(nèi)首個(gè)圖數(shù)據(jù)庫方面的國家標(biāo)準(zhǔn)立項(xiàng)。
此國家標(biāo)準(zhǔn)由TC28(全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì))歸口,由螞蟻集團(tuán)牽頭制定。
基于螞蟻集團(tuán)的標(biāo)準(zhǔn)貢獻(xiàn),在近日召開的全國信標(biāo)委大數(shù)據(jù)標(biāo)準(zhǔn)工作組會(huì)議上,螞蟻集團(tuán)當(dāng)選為2019年優(yōu)秀成員單位。
據(jù)了解,全國信標(biāo)委大數(shù)據(jù)標(biāo)準(zhǔn)工作組由中國科學(xué)院院士梅宏擔(dān)任組長,負(fù)責(zé)全國大數(shù)據(jù)方面的國家標(biāo)準(zhǔn)制定。
除了本次立項(xiàng)的圖數(shù)據(jù)庫國家標(biāo)準(zhǔn),基于自身在圖智能領(lǐng)域的產(chǎn)業(yè)實(shí)踐經(jīng)驗(yàn),螞蟻還在浙江互聯(lián)網(wǎng)金融聯(lián)合會(huì)牽頭制定和發(fā)布了《互聯(lián)網(wǎng)金融分布式架構(gòu)技術(shù)應(yīng)用指南》的團(tuán)體標(biāo)準(zhǔn);在全國金融標(biāo)準(zhǔn)化技術(shù)委員會(huì)牽頭立項(xiàng)了《金融IT基礎(chǔ)設(shè)施 存儲(chǔ)應(yīng)用實(shí)施指南》的行業(yè)標(biāo)準(zhǔn);在CCSA TC601,參與信通院牽頭的《圖數(shù)據(jù)庫白皮書》和《大數(shù)據(jù)圖數(shù)據(jù)庫技術(shù)要求與測試方法》團(tuán)體標(biāo)準(zhǔn);在ISO/IEC JTC1 SC32參與《ISO/IEC 39075 : Graph Query Language》的國際標(biāo)準(zhǔn)。
螞蟻集團(tuán)與LDBC也正在合作,將其認(rèn)證范圍從社交網(wǎng)絡(luò)領(lǐng)域擴(kuò)展到金融領(lǐng)域。
何昌華介紹,“在中國,圖數(shù)據(jù)庫是一個(gè)正在蓬勃興起的非常熱門的領(lǐng)域,國家也已經(jīng)開始制定各種各樣的技術(shù)標(biāo)準(zhǔn),希望在統(tǒng)一的標(biāo)準(zhǔn)之下,促進(jìn)技術(shù)交流和全面發(fā)展。”
谷歌用兩篇論文將分布式計(jì)算技術(shù)普及全世界,螞蟻集團(tuán)也在通過企業(yè)合作,讓技術(shù)賦能社會(huì)?!拔覀兏鷩W(wǎng)全球能源互聯(lián)網(wǎng)研究院合作進(jìn)行電網(wǎng)拓?fù)浞治?,來解決他們在電力規(guī)劃中碰到的技術(shù)問題,取得了比較好的效果?!?/span>
在當(dāng)今的社會(huì)生活中,能源是必須品,穩(wěn)定、持續(xù)、充沛的能源,是工作生活的保障。當(dāng)遭遇設(shè)備檢修、更換時(shí),一定會(huì)采用波及方案。
國家電網(wǎng)的目標(biāo)就是最大力度保障供能的穩(wěn)定,但原有系統(tǒng)的分析效率很難快速分析出數(shù)億節(jié)點(diǎn)中任意單個(gè)或多個(gè)節(jié)點(diǎn)調(diào)整,對整體系統(tǒng)所帶來的影響。因此,每次哪怕微小的設(shè)備檢修,都需要提前充足準(zhǔn)備,影響工作效率。
后來,通過和螞蟻集團(tuán)團(tuán)隊(duì)合作,他們用圖計(jì)算技術(shù)來管理數(shù)億設(shè)備節(jié)點(diǎn),將每個(gè)供電設(shè)備節(jié)點(diǎn)作為一個(gè)"頂點(diǎn)"繪制設(shè)備關(guān)系圖,可以很容易的在圖上找到需要調(diào)整的設(shè)備,并分析其節(jié)點(diǎn)關(guān)閉帶來的影響,從圖數(shù)據(jù)庫中預(yù)演,即可合理規(guī)劃設(shè)備調(diào)整并提前預(yù)警,最大限度保持穩(wěn)定持續(xù)的電力輸出,保障民生。
何昌華介紹,“目前。螞蟻集團(tuán)圖計(jì)算技術(shù)已經(jīng)規(guī)模應(yīng)用于反欺詐、反洗錢等領(lǐng)域,保護(hù)金融安全。同時(shí),也在能源、電信行業(yè)有廣泛應(yīng)用前景。從螞蟻集團(tuán)的角度,在支持好內(nèi)部業(yè)務(wù),不斷錘煉技術(shù)的前提下,我們也會(huì)積極地把圖計(jì)算的技術(shù)開放出來,用到更加廣泛的領(lǐng)域中,尤其是對國計(jì)民生更有用的領(lǐng)域。這也是我們開放技術(shù)背后的思考?!?/span>
5
圖:下一代數(shù)據(jù)建模
從結(jié)繩記事、象形文字,到現(xiàn)代語言,經(jīng)歷數(shù)千年的演變,人類的交流符號中包含的信息越來越豐富,維度也越來越高。
從數(shù)字、表格,到圖數(shù)據(jù)、圖像,機(jī)器的交流符號也在經(jīng)歷著類似的演變過程。
這不禁令人懷疑,機(jī)器會(huì)不會(huì)比人類更早實(shí)現(xiàn)用感知數(shù)據(jù)直接交流?這或許激發(fā)了人類的好奇或嫉妒,成為急著尋找深度學(xué)習(xí)和圖深度學(xué)習(xí)可解釋性的心理動(dòng)因之一。
一圖勝千言。任何數(shù)據(jù)都不是對真實(shí)世界的完整呈現(xiàn),所以不可避免會(huì)出現(xiàn)天然的缺陷,使其不能很方便地呈現(xiàn)我們在現(xiàn)實(shí)世界中很自然的交互。
如今的時(shí)代注重?cái)?shù)據(jù)的兩個(gè)方面,即數(shù)據(jù)量和數(shù)據(jù)維度。傳統(tǒng)方法適合低維、稀疏數(shù)據(jù),大數(shù)據(jù)方法適合低維、稠密數(shù)據(jù),深度學(xué)習(xí)方法適合高維、稠密數(shù)據(jù),而圖深度學(xué)習(xí)、圖計(jì)算方法則非常適合高維、稀疏數(shù)據(jù)。因此,圖很可能是下一代的大數(shù)據(jù)。
圖數(shù)據(jù)相對于表格數(shù)據(jù)實(shí)現(xiàn)了一次世界表征的飛躍,圖像數(shù)據(jù)也從另一個(gè)層面借助深度學(xué)習(xí)在進(jìn)行著一場革命。
數(shù)據(jù)不再只是一張表格,要處理圖這樣的數(shù)據(jù),很多底層的邏輯都要推倒重來,包括思維模式。
何昌華介紹,“過去30年的關(guān)系型數(shù)據(jù)庫給大家構(gòu)建了這樣的思維模式,也就是表格思維。與外部進(jìn)行協(xié)同推進(jìn)圖計(jì)算技術(shù)的時(shí)候,如何進(jìn)行思維上的“急轉(zhuǎn)彎”,也將是我們長期面臨的一大難題。”
理性質(zhì)疑之外,技術(shù)革新亦不可避免帶來變革前夕的迷茫和擔(dān)憂,人們最先會(huì)從個(gè)人角度出發(fā),質(zhì)問用戶隱私問題。
螞蟻集團(tuán)作為如此龐大的應(yīng)用,必然涉及非常多的用戶個(gè)人信息,在技術(shù)應(yīng)用的過程中,團(tuán)隊(duì)如何避免個(gè)人信息的泄露呢?
何昌華回應(yīng)道,“我們所有數(shù)據(jù)經(jīng)過了用戶授權(quán),和數(shù)據(jù)脫敏,比如數(shù)據(jù)傳輸、計(jì)算過程中需要保障數(shù)據(jù)是加密的。同時(shí),螞蟻集團(tuán)的圖計(jì)算是建立在隱私保護(hù)基礎(chǔ)之上,有一套很前沿的隱私計(jì)算技術(shù)在底層做基礎(chǔ)?!?/span>
硬核技術(shù)讓變革一往無前,安全保障也讓團(tuán)隊(duì)無需瞻前顧后,持續(xù)瞄準(zhǔn)下一個(gè)難關(guān)。今年,螞蟻集團(tuán)已不再滿足于被動(dòng)的識別,而開始探索主動(dòng)的做法,也就是預(yù)測——在一個(gè)欺詐行為實(shí)行之前檢測出來。
從觀察世界、理解世界開始,GeaGraph的下一步,是模擬世界。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。