0
本文作者: 李詩(shī) | 2018-11-06 11:24 |
“人工智能,有多少人工就有多少智能”,這是伴隨人工智能發(fā)展的一句老話(huà)了,近來(lái)格外引人關(guān)注。
一周前,微信公眾號(hào)“GQ報(bào)道”的一篇記述文“通往未來(lái)之路 | 那些給人工智能打工的人”在朋友圈火了。文章揭示出,在AI企業(yè)估值屢屢超過(guò)幾十億的時(shí)候,背后是中國(guó)七八線(xiàn)小縣城里無(wú)數(shù)猶如“富士康”一樣的AI數(shù)據(jù)標(biāo)注公司。這些公司里的人與高大上的AI沒(méi)有一丁點(diǎn)兒關(guān)系,無(wú)從接觸也無(wú)從理解AI,他們大多是初中高中文憑,每天對(duì)著電腦進(jìn)行著機(jī)械而重復(fù)的標(biāo)注工作,比如,在一張圖片里把“梯子”、“茶幾”、“地毯”、“沙發(fā)”都圈出來(lái)。通過(guò)他們打上的成千上萬(wàn)的標(biāo)簽,AI公司能夠讓它們的AI系統(tǒng)在看見(jiàn)這些物體時(shí),直接識(shí)別出來(lái)。
目前,廣泛應(yīng)用在AI圖像識(shí)別、語(yǔ)音識(shí)別中的有監(jiān)督機(jī)器學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)支持,深度學(xué)習(xí)為機(jī)器學(xué)習(xí)帶來(lái)巨大進(jìn)步,卻也需要更多、更完善的標(biāo)注數(shù)據(jù),才能達(dá)到好的訓(xùn)練結(jié)果。人們發(fā)展AI的愿景一直是希望AI能將人們從大量的重復(fù)性和機(jī)械性工作中解放出來(lái),而目前AI卻還依賴(lài)著“AI數(shù)據(jù)標(biāo)注”這樣的重復(fù)性人類(lèi)勞動(dòng),成為不少人詬病AI的一點(diǎn)。
但是據(jù)雷鋒網(wǎng)了解,并不是所有AI應(yīng)用領(lǐng)域都能提供大量標(biāo)注數(shù)據(jù),且標(biāo)注數(shù)據(jù)在不同領(lǐng)域也不是都一樣好使。比如,在安全領(lǐng)域的反欺詐中,不需要依靠標(biāo)記數(shù)據(jù)的無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在很多時(shí)候都比有監(jiān)督機(jī)器學(xué)習(xí)表現(xiàn)更好。
DataVisor創(chuàng)始人兼CEO謝映蓮告訴雷鋒網(wǎng),安全領(lǐng)域的反欺詐不滿(mǎn)足有監(jiān)督的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)這個(gè)前提。欺詐者通常處在活躍變化的狀態(tài)下,他們使用的欺詐手段變化十分迅速,而且他們?yōu)榱舜_保自己不被反欺詐技術(shù)檢測(cè)到,在發(fā)起大規(guī)模攻擊之前都會(huì)先進(jìn)行測(cè)試。
欺詐的手段日新月異,很難拿到完善的標(biāo)簽數(shù)據(jù);而且在你拿到任何標(biāo)簽之前,其實(shí)意味著損失已經(jīng)產(chǎn)生了;等根據(jù)標(biāo)簽數(shù)據(jù)訓(xùn)練好模型,欺詐者或許已經(jīng)拋棄了這套方法。這三點(diǎn)問(wèn)題制約著傳統(tǒng)的欺詐檢測(cè)以及新興的有監(jiān)督機(jī)器學(xué)習(xí)方法。
傳統(tǒng)的欺詐檢測(cè)方法,如規(guī)則引擎、設(shè)備指紋以及有監(jiān)督機(jī)器學(xué)習(xí)、半監(jiān)督機(jī)器學(xué)習(xí),都有一個(gè)共同的局限性,需要在攻擊發(fā)生后,根據(jù)已知攻擊模式和樣本,檢測(cè)未來(lái)的攻擊。無(wú)監(jiān)督學(xué)習(xí)系統(tǒng)則可以在沒(méi)有標(biāo)簽的情況下,提前阻止未知欺詐。
有監(jiān)督機(jī)器學(xué)習(xí)和深度學(xué)習(xí)十分火熱,不過(guò),從反欺詐這個(gè)領(lǐng)域來(lái)看,我們發(fā)現(xiàn)不是所有的AI技術(shù)在所有的場(chǎng)景下起到同樣的作用。那么,我們?nèi)绾螌⒑线m的技術(shù)與場(chǎng)景相結(jié)合,真正去解決行業(yè)中的痛點(diǎn)問(wèn)題呢?
DataVisor的系統(tǒng)包括四個(gè)重要組成部分:無(wú)監(jiān)督機(jī)器學(xué)習(xí)引擎、有監(jiān)督機(jī)器學(xué)習(xí)、自動(dòng)規(guī)則引擎和全球智能信譽(yù)庫(kù)。無(wú)監(jiān)督機(jī)器學(xué)習(xí)引擎可同時(shí)分析數(shù)十億賬戶(hù)與事件,無(wú)需標(biāo)簽和訓(xùn)練數(shù)據(jù)即可自動(dòng)發(fā)掘惡意賬戶(hù)間的可疑關(guān)聯(lián)和相似度,并即刻檢測(cè)捕獲整個(gè)欺詐團(tuán)伙;有監(jiān)督機(jī)器學(xué)習(xí)引擎可以利用無(wú)監(jiān)督學(xué)習(xí)引擎生成的數(shù)據(jù)做訓(xùn)練集,不斷訓(xùn)練出有效的學(xué)習(xí)模型來(lái)彌補(bǔ)并增強(qiáng)規(guī)則引擎無(wú)法覆蓋的復(fù)雜欺詐行為;自動(dòng)規(guī)則引擎將機(jī)器學(xué)習(xí)模型的能力與規(guī)則引擎的可解釋性進(jìn)行結(jié)合,并及時(shí)更新與淘汰現(xiàn)有規(guī)則;而全球智能信譽(yù)庫(kù)利用深度學(xué)習(xí)實(shí)時(shí)計(jì)算,并為客戶(hù)提供行業(yè)各類(lèi)智能信譽(yù)和數(shù)字指紋,如IP地址、地址位置、電子郵件網(wǎng)絡(luò)域名、移動(dòng)設(shè)備類(lèi)型、操作系統(tǒng)等。
基于以上幾種技術(shù),DataVisor開(kāi)發(fā)了用戶(hù)分析平臺(tái)。由于該平臺(tái)本身就具有通用和可延展性,所以能夠與不同的數(shù)據(jù)、不同的使用場(chǎng)景掛鉤對(duì)接,也就出現(xiàn)了八大應(yīng)用場(chǎng)景。
謝映蓮畢業(yè)于卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系并取得博士學(xué)位,有超過(guò)十年的安全領(lǐng)域行業(yè)經(jīng)驗(yàn),一直致力于打擊大規(guī)模網(wǎng)絡(luò)線(xiàn)上攻擊,此前任職微軟硅谷研究院。2013年謝映蓮在美國(guó)創(chuàng)辦DataVisor,當(dāng)時(shí)機(jī)器學(xué)習(xí)方興未艾,還不像現(xiàn)在這樣火爆。
2013年,是企業(yè)全面轉(zhuǎn)型互聯(lián)網(wǎng)的時(shí)代,反欺詐領(lǐng)域也面臨著全新的機(jī)遇:反欺詐的場(chǎng)景從分散的線(xiàn)下場(chǎng)景轉(zhuǎn)變?yōu)楦叨日系木€(xiàn)上場(chǎng)景。此前,在金融領(lǐng)域,辦理信用卡需要去銀行專(zhuān)柜,辦理保險(xiǎn)也需要聯(lián)系特定的代理人員,而現(xiàn)在,辦卡、借貸、買(mǎi)保險(xiǎn)都可以在線(xiàn)上進(jìn)行,且都可以關(guān)聯(lián)到個(gè)人的社交賬號(hào),數(shù)據(jù)互通。另一個(gè)趨勢(shì)是,現(xiàn)在一些公司越來(lái)越多地跨界,例如互聯(lián)網(wǎng)公司開(kāi)始涉足金融、保險(xiǎn)、信貸等領(lǐng)域。
線(xiàn)上反欺詐成為一個(gè)新興的龐大市場(chǎng),有著全新的機(jī)遇,且這個(gè)領(lǐng)域還沒(méi)有誕生出大玩家。
反欺詐行業(yè)不斷融合,領(lǐng)域不斷擴(kuò)大,反欺詐的技術(shù)需要具備很強(qiáng)的通用性,而這正是無(wú)監(jiān)督機(jī)器學(xué)習(xí)的另一優(yōu)點(diǎn)。有監(jiān)督的機(jī)器學(xué)習(xí)幾乎是需要一個(gè)場(chǎng)景就要一個(gè)模型,甚至需要一份數(shù)據(jù)就要一份模型,而無(wú)監(jiān)督的算法有它的自動(dòng)發(fā)覺(jué)性,它可以自動(dòng)地去尋找未知的場(chǎng)景,在模型的調(diào)優(yōu)方面,它對(duì)數(shù)據(jù)多變性的容忍度更高。
雖然目前DataVisor只是專(zhuān)注于反欺詐這一個(gè)領(lǐng)域,但是在成立之初,謝映蓮就看到了無(wú)監(jiān)督機(jī)器學(xué)習(xí)在其他領(lǐng)域的可能性,DataVisor可以成長(zhǎng)為平臺(tái)型公司。
目前,DataVisor的服務(wù)對(duì)象主要有三種,社區(qū)和交易平臺(tái);銀行和互聯(lián)網(wǎng)金融機(jī)構(gòu);以及游戲、工具類(lèi)應(yīng)用。
在社交應(yīng)用中,欺詐團(tuán)隊(duì)通常會(huì)大規(guī)模盜號(hào),冒充用戶(hù)進(jìn)行欺詐;
在電商應(yīng)用中,惡意的虛假評(píng)論會(huì)給商家?guī)?lái)嚴(yán)重的損失,薅羊毛黨仿冒大量新注冊(cè)用戶(hù)將平臺(tái)優(yōu)惠都圈走,會(huì)造成大量資金損失;
在金融領(lǐng)域,虛假賬戶(hù)、盜刷、套現(xiàn)、洗錢(qián)各種欺詐手法層出不窮。
在美國(guó),DataVisor的用戶(hù)包括游戲公司IGG、美食點(diǎn)評(píng)網(wǎng)站Yelp、圖片社交軟件Pinterest;而在中國(guó),則有京東、大眾點(diǎn)評(píng)、餓了么、陌陌、Blued等,共同利用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)抵御多維度線(xiàn)上攻擊欺詐,如大規(guī)模虛假注冊(cè)、虛假申請(qǐng)、垃圾內(nèi)容、薅羊毛、虛假安裝等,幫助其保護(hù)平臺(tái)用戶(hù)安全,提升平臺(tái)用戶(hù)體驗(yàn),提高用戶(hù)滿(mǎn)意度和留存率。
謝映蓮告訴雷鋒網(wǎng),無(wú)監(jiān)督機(jī)器學(xué)習(xí)還有很多的潛在應(yīng)用場(chǎng)景有待開(kāi)拓,例如將其應(yīng)用在基于用戶(hù)的興趣分析用戶(hù)的轉(zhuǎn)化率,用戶(hù)流失的原因等。
在雷鋒網(wǎng)看來(lái),相較于圖像識(shí)別、語(yǔ)音識(shí)別、零售、醫(yī)療等領(lǐng)域,安全領(lǐng)域較早地積累起數(shù)據(jù),也較早地將機(jī)器學(xué)習(xí)應(yīng)用到實(shí)踐,為無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)提供了很好的數(shù)據(jù)基礎(chǔ)。很多行業(yè)目前還處在前期的數(shù)據(jù)收集的過(guò)程,也依賴(lài)于大量的數(shù)據(jù)標(biāo)注。另外,安全領(lǐng)域是一個(gè)高速變化的行業(yè),需要無(wú)監(jiān)督機(jī)器學(xué)習(xí)來(lái)快速識(shí)別新型欺詐攻擊。
AI的愿景一直是希望AI能將人們從大量的重復(fù)性和機(jī)械性工作中解放出來(lái),在這一方面,無(wú)需標(biāo)注數(shù)據(jù)的無(wú)監(jiān)督機(jī)器學(xué)習(xí)將是未來(lái)趨勢(shì)。當(dāng)然,谷歌的AutoML也在致力于使得AI更加自主化、平民化,不過(guò)他們解決的是模型設(shè)計(jì)部分。無(wú)監(jiān)督機(jī)器學(xué)習(xí)在數(shù)據(jù)清洗、模型優(yōu)化方面也仍然需要行業(yè)背景和資深的AI從業(yè)者參與。理解用戶(hù)場(chǎng)景和需求,進(jìn)行數(shù)據(jù)清洗、模型設(shè)計(jì)和調(diào)優(yōu),正是DataVisor的壁壘和優(yōu)勢(shì)所在。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)有著很強(qiáng)的通用性,在未來(lái),我們或許能看到無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在更多領(lǐng)域落地。
相關(guān)文章:
針對(duì)游戲行業(yè)的欺詐難題,DataVisor 的無(wú)監(jiān)督算法可以做什么
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。