0
本文作者: 木子 | 2021-12-16 14:29 |
12月10日,由國際人工智能頂會NeurIPS 與 Facebook AI聯(lián)合舉辦的圖像相似匹配競賽ISC2021落下帷幕。本次比賽共有1635支參賽隊伍參加,是今年NeurIPS會議上最具影響力的比賽之一。來自螞蟻集團(tuán)的TitanShield Team(titanshield2)以超越第二名10個百分點的成績斬獲圖像表征賽道冠軍。據(jù)悉,此次奪冠團(tuán)隊采用的技術(shù)方案是由螞蟻集團(tuán)獨立自研的、“基于特征兼容自監(jiān)督學(xué)習(xí)框架”的預(yù)訓(xùn)練模型,能夠針對性地解決內(nèi)容安全風(fēng)控領(lǐng)域常見的敏感信息更迭速度快、風(fēng)控模型訓(xùn)練不及時等問題。作為可信AI技術(shù)研究及應(yīng)用中的一環(huán),該技術(shù)上線后可降低80%的圖像對抗風(fēng)險,將有助于極大地提升在內(nèi)容安全等相關(guān)應(yīng)用領(lǐng)域中的AI魯棒性(Robustness)。
ISC2021圖像表征賽道成績排行榜
作為人工智能下一階段快速發(fā)展的瓶頸所在,安全和可信性決定了人工智能未來三十年的發(fā)展速度和應(yīng)用深度;而AI的魯棒性,即抗打擊能力及穩(wěn)定性,則成為了人工智能的第一場大考。以圖片識別領(lǐng)域為例,無人駕駛車輛上加載的圖像識別模型可能因為圖像識別錯誤,而釀成車禍;版權(quán)保護(hù)場景下,盜版商通過圖片的變形,試圖繞開反盜版模型的審查;內(nèi)容安全場景中,將涉毒涉黃信息隱匿在看似合法的圖片中,更是黑產(chǎn)團(tuán)伙獲利的慣用伎倆?!叭绻謸醪蛔」?,識別結(jié)果不可信,那么AI模型不僅失去了它存在的意義,還會成為另一個風(fēng)險敞口”,螞蟻集團(tuán)資深技術(shù)專家博山在采訪中強調(diào)。
一直以來,敏感信息復(fù)雜多變,模型訓(xùn)練樣本不足,是各家企業(yè)內(nèi)容安全風(fēng)控的核心痛點。例如,新增的劣跡藝人、潮流商品的版權(quán)圖片,AI不僅無法預(yù)判其出現(xiàn)的趨勢,還需要在其出現(xiàn)后快速做出風(fēng)控響應(yīng);而在兒童軟色情等問題場景下,由于模型訓(xùn)練樣本不足,如何讓AI實現(xiàn)有效風(fēng)控成為難題。不僅如此,在全行業(yè)分工協(xié)作程度不斷加深的今天,各類企業(yè)、商戶組成了龐大的生態(tài)服務(wù)鏈。任一薄弱環(huán)節(jié),都可能成為黑產(chǎn)的突破口,對企業(yè)自身及關(guān)聯(lián)企業(yè)帶來巨大的負(fù)面影響。但由于訓(xùn)練樣本的敏感性等,如何實現(xiàn)聯(lián)合風(fēng)控,成為行業(yè)共同面臨的困境。
而此次比賽中,奪冠團(tuán)隊所采用的“基于特征兼容自監(jiān)督學(xué)習(xí)框架”的預(yù)訓(xùn)練模型,在圖像識別領(lǐng)域,極大地緩解和應(yīng)對了上述問題。首先,該技術(shù)能夠基于公開數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,幫助AI提前完成同類風(fēng)險預(yù)演。其次,在傳統(tǒng)的AI識別中,模型識別依賴人工投喂標(biāo)注了“特征”的樣本;例如,模型在識別熊貓圖片前,需要先“學(xué)習(xí)”熊貓的特征——“眼部有黑色毛發(fā)”、“常與竹子一同出現(xiàn)”等等。而借助“自監(jiān)督學(xué)習(xí)”技術(shù),該模型可以通過自主學(xué)習(xí)抓取“特征”,降低70%標(biāo)注量,訓(xùn)練時間也從原本的一周縮短至3天。同時,創(chuàng)新的“特征兼容”方案,能夠?qū)崿F(xiàn)在兩個業(yè)務(wù)場景或兩家企業(yè)間,借助“特征”信息的兼容共享,實現(xiàn)風(fēng)險聯(lián)防。
據(jù)悉,該模型及相關(guān)技術(shù)作為螞蟻集團(tuán)內(nèi)容安全風(fēng)控決策引擎的重要組成部分,目前已在支付寶內(nèi)容安全場景中全面上線,可整體降低80%的圖像對抗風(fēng)險。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。