我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

本文作者：李勤

2019-01-20 11:48

導(dǎo)語：貴坡還有這么不符合我們社會主義核心價值觀的地方？

這是一個真實的故事。前幾天，我和一群小伙伴在新加坡參加了一場神秘的黑客大會，具體是什么大會，以后再說。我先說說你們感興趣的“尋找紅燈區(qū)事件”。

我們本來純潔地打算尋找吃榴蓮的圣地，不料女導(dǎo)游神秘兮兮地介紹，新加坡有個地區(qū)叫芽籠，是個開展合法羞羞服務(wù)的區(qū)域，就在你們吃榴蓮的地方附近哦。

蛤？貴坡還有這么不符合我們社會主義核心價值觀的地方？

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

車上的小伙伴頓時來了興致，強烈要求司機載著我們在芽籠區(qū)域晃蕩一圈。而且，一位男同學(xué)提出了一個相當(dāng)正經(jīng)的問題：聽說提供這些服務(wù)的場所就隱藏在大街小巷里，我們怎么區(qū)別什么樣的場所是紅燈區(qū)？迷路怎么辦？

女導(dǎo)游羞澀地朝著一個方向指過去：你們看，新加坡的這些街巷分成了單雙號，在這個區(qū)域，單號街道都是正經(jīng)吃喝的地方，一般紅燈區(qū)隱藏在雙號街道里哦。

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

【圖片來源：新加坡眼所有者：新加坡眼】

為了再一次教我們辨別什么是提供特殊服務(wù)的小店，導(dǎo)游指出，一般在這些場所外面，會掛上兩個紅燈籠，這些燈籠會在夜晚點亮。

可是，這輛大巴轉(zhuǎn)了許久，我們還是沒有看到紅燈籠，不禁失望至極，導(dǎo)游安慰我們：對了，有些場所不掛燈籠，但有 bling bling 的霓虹燈，你們?nèi)绻谶@個區(qū)域的雙號街巷看到閃爍的五顏六色，那就八九不離十了！

我之所以想起尋找紅燈區(qū)事件，是因為1月16日，我參加了阿里安全部的一次年度媒體溝通會，AI 鑒黃被作為一個典型的安全 AI 應(yīng)用案例推出。我才發(fā)現(xiàn)，相較于肉身尋找紅燈區(qū)，AI 早就在鑒定黃賭毒上一路狂奔了。

但是，厲害如 AI 唐馬儒，竟然也面臨著安全風(fēng)險。

本文作者：雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者，李勤，微信：qinqin0511

攻擊者 VS AI老司機

我們來看看，發(fā)生了什么。

阿里目前有三大戰(zhàn)略領(lǐng)域：傳統(tǒng)電商、數(shù)字化娛樂和新零售，這三個領(lǐng)域都涉及到網(wǎng)絡(luò)安全，比如，原創(chuàng)內(nèi)容保護、內(nèi)容治理和網(wǎng)絡(luò)黑灰產(chǎn)對抗。

以內(nèi)容治理為例，由于淘寶體量巨大以及內(nèi)容生態(tài)越來越繁榮，淘寶的短視頻每天的觀看量差不多能達到 20 億次，這就衍生了一個問題：如何讓內(nèi)容合法合規(guī)？

阿里安全部圖靈實驗室高級算法專家威視（花名）告訴我，在過去一年網(wǎng)信辦接到的各種違規(guī)信息舉報中，超過 70% 的舉報涉及色情低俗，這意味著，色情低俗風(fēng)險確實是各種內(nèi)容面臨的合規(guī)風(fēng)險中占比最大的一種，所以，在巨大的信息中，運用 AI 尋找黃色內(nèi)容，規(guī)避內(nèi)容風(fēng)險成了一個強需求。

現(xiàn)在出現(xiàn)了一類不正經(jīng)的算法工程師，他們被稱為“調(diào)包俠”，雖然他們可能并不理解 AI 技術(shù)底層如何實現(xiàn)，但特別擅長調(diào)包——調(diào)用別人的開源代碼，將一些非法信息灌進去，訓(xùn)練出一個特殊模型。這導(dǎo)致了另一個問題——安全研究員辛辛苦苦訓(xùn)練出的 AI 唐馬儒竟然可能叛變，就像被人塞了小紅包，對黃色內(nèi)容睜一眼閉一眼。

【圖片來源：pconline 所有者：pconline 】

更讓人擔(dān)憂的是，還有更多安全對抗在發(fā)生。

第一回合：沒用上 AI 技術(shù)，違規(guī)信息對抗在不同媒體間轉(zhuǎn)移。

以商品信息為例，一開始，色情低俗信息，直接寫在商品標(biāo)題里面，比如：“看爽片XXX”，立馬能找到不可描述的東東。

安全技術(shù)專家像打地鼠一樣，敲掉了標(biāo)題里的色情低俗?，F(xiàn)在一搜“看爽片”“爽片”，出來的分別是這樣的商品：

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

【雷鋒網(wǎng)注：僅為搜索結(jié)果示例】

攻擊者馬上把違規(guī)信息轉(zhuǎn)移到了商品的主圖、副圖中。由于色情圖片具有較強的視覺可分性，圖片的鑒黃比較容易開展，攻擊者發(fā)現(xiàn)自己被攔住之后，開始做拼接圖，把違規(guī)信息拼在一個正常背景中，或者通過翻拍逃避檢測。

甚至，當(dāng)他們發(fā)現(xiàn)，算法對彩色圖片的識別效果好，攻擊者就用黑白圖片，后來，整張圖片容易被識別，就變成局部暴露，比如，衣服裹得嚴(yán)嚴(yán)實實的，只漏出關(guān)鍵的一點點。

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

或者，用美圖工具把常規(guī)照片轉(zhuǎn)換成鉛筆畫、蠟筆風(fēng)格，甚至素描，當(dāng)安全技術(shù)專家把這些問題解決了，攻擊者又想了一個新辦法——在圖片里寫字，開始時，違規(guī)文字是正常的印刷體，被識別后，壞人開始用斜體、花體字；又被識別出來后，攻擊者干脆用手寫，還故意寫得很潦草，不斷考驗識別算法和人類的想象力。

當(dāng)圖片的鑒黃做得差不多時，違規(guī)信息轉(zhuǎn)戰(zhàn)到了視頻、直播里，用音頻來做。當(dāng)違規(guī)音頻也被干掉時，攻擊者更狡猾了，他們把信息拆解開，在圖片、文本、語音中分散放置，變成一個典型的多模態(tài)問題，這時需要綜合各方信息進行判斷。

第二回合：高端對抗，壞人掌握了AI 技術(shù)。

這種攻擊者不僅是調(diào)包俠，還懂得了AI技術(shù)底層的一些特點。他能進行什么騷操作？

曾有一篇經(jīng)典論文指出，本來模型識別一張圖片，正常的輸出結(jié)果是一只大熊貓，但是壞人經(jīng)過一些簡單運算，比如像素級別的操作，得到一張新圖片，人眼看上去還是一只大熊貓，但是欺騙了識別模型，被模型判斷為一只長臂猿。

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

壞人是如何做到的？

第一種情況，攻擊者知道鑒黃的算法、模型和網(wǎng)絡(luò)結(jié)構(gòu)。

威視將這種情況稱為“白盒攻擊”，這種攻擊并不復(fù)雜和困難，只要花的時間足夠長，耐心嘗試密碼，攻擊者總可以打開盒子。

第二種情況，算法使用的模型是不公開的。

在這種黑盒攻擊下，攻擊者不斷用不同圖片調(diào)用公開的算法接口，分析返回的結(jié)果，不斷嘗試驗證哪些方法可以讓AI唐馬儒輸出的結(jié)果含糊不清，直到嘗試出來某一種修改能夠攻破威視等人建立的模型。

威視說，黑盒攻擊比白盒攻擊成本高很多，這就是閉源模型好處。事實上，沒有什么模型是不可被攻破的，只是攻擊成本的高低。安全技術(shù)專家要做的，就是不斷提高攻擊門檻。

除了面對攻擊者的威脅，AI 鑒定內(nèi)容風(fēng)險時還面臨天然阻礙：

一是大海撈針，違規(guī)信息可能占比不到千分之一，違規(guī)樣本和正常樣本數(shù)量呈現(xiàn)出極度的不均衡的態(tài)勢。

一是新增風(fēng)險，安全場景面臨的新風(fēng)險往往“臨時爆發(fā)”，誰能想到，直播主進行吃播時也可能涉黃。。。emmm，比如吃香蕉、喝酸奶等。

新風(fēng)險下的新方法

對AI 唐馬儒而言，深度學(xué)習(xí)算法強依賴高質(zhì)量的樣本，樣本的質(zhì)量越高，數(shù)量越多，鑒定效果就越好。

威視介紹，為此，他們提出了“小樣本學(xué)習(xí)（few-shot learning）”這樣的技術(shù)。這個方法主要解決兩個問題：第一，訓(xùn)練中出現(xiàn)從來沒有見過的新類別，每個類別又只有很少的樣本；第二，訓(xùn)練新樣本后，不能遺忘以前的知識，不能改變已有的模型。

針對上述問題，很多人想到用finetune（微調(diào)）的方式解決，也就是在已有模型基礎(chǔ)上，用新類別的樣本做微調(diào)訓(xùn)練。但是，已有的模型依賴很大的樣本量訓(xùn)練，比如，需要1000萬個訓(xùn)練樣本。這時用幾十個、一百個樣本訓(xùn)練新類別，基本改變不了網(wǎng)絡(luò)。而且，這種訓(xùn)練還會遺忘以前的知識。

威視告訴我：“發(fā)現(xiàn)這條走不通后，我們考察了很多新方法，比如，度量學(xué)習(xí)（metric learning），學(xué)習(xí)類和類之間的度量，把不同的類間的距離盡可能地拉大，縮小同類之間的距離，用模式識別的話，就是增大了類間的方差，減少了類內(nèi)的方差?！?/p>

基于度量學(xué)習(xí)的思路，他們嘗試了很多方法，比如，孿生網(wǎng)絡(luò) （Siamese Neural Networks）、匹配網(wǎng)絡(luò) （matching networks）、原型網(wǎng)絡(luò) （Prototypical Networks）等。

這些方法的核心思想是，把樣本看作一個點，再來度量不同樣本在空間中的分布，利用算法合適地調(diào)整分布，讓新的類別在原來的樣本空間里找到合適的位置，區(qū)別原有的類別。

后來，他們還發(fā)現(xiàn)了基于圖網(wǎng)絡(luò)（graph neural network）的方法，這種放在在度量學(xué)習(xí)的基礎(chǔ)上展開，圖網(wǎng)絡(luò)把樣本不僅看成一個點，它認(rèn)為，樣本和樣本之間是有關(guān)系的，用點和點之間的邊來表達，有點有邊就構(gòu)成一張圖。度量學(xué)習(xí)只學(xué)習(xí)了點的信息，圖網(wǎng)絡(luò)既學(xué)習(xí)了點的信息，也學(xué)習(xí)了邊的信息，這樣就構(gòu)成了網(wǎng)絡(luò)的學(xué)習(xí)，實際效果優(yōu)于度量學(xué)習(xí)。

還有一種“元學(xué)習(xí)meta learning”方法，利用以往的知識經(jīng)驗指導(dǎo)新任務(wù)的學(xué)習(xí)。AI算法不是從0開始構(gòu)建自己的知識體系，而是在已有的知識體系之上，快速學(xué)習(xí)新技能。

威視等人設(shè)計了一種新方法，元學(xué)習(xí)中融合了度量學(xué)習(xí)的方法，用構(gòu)成每個類的標(biāo)簽樣本的的原型來表征類，進而通過相似度分類（KNN Classification）進行識別。他們在多個數(shù)據(jù)集上做了驗證，結(jié)果表明，該方法比基線有不錯的提升。

這種新方法被應(yīng)用在阿里云內(nèi)容安全的產(chǎn)品中，阿里安全部提供了一個已有模型及訓(xùn)練方法，第一線的運營人員發(fā)現(xiàn)可定義的新風(fēng)險時，他們用幾十個或者上百個樣本，在頁面上點鼠標(biāo)，上傳并標(biāo)注樣本，這個模型就可以進行一次學(xué)習(xí)。學(xué)習(xí)之后，模型對沒有學(xué)習(xí)過樣本提出結(jié)論，這時運營人員需要標(biāo)注算法的結(jié)果，判斷哪個做對了，哪個做錯了。大概重復(fù)兩到三輪，模型基本可用了。

這種方法可以讓AI應(yīng)對大部分新增的風(fēng)險，而且降低了對樣本的依賴性，縮短了響應(yīng)的時間。以前，安全人員需要收集信息，打標(biāo)，訓(xùn)練模型進行測試，周期比較長的?，F(xiàn)在，這些事情都交給了第一線的業(yè)務(wù)人員，他們可以自主進行幾輪迭代和部署，模型可能在幾個小時內(nèi)就能上線，防范新增的風(fēng)險。

安全 AI 的想象

AI 唐馬儒要想比真的唐馬儒更厲害，還需要發(fā)揮一些想象力。

在阿里安全圖靈實驗室的實踐中，安全人員發(fā)現(xiàn)，AI 模型擅長在一些“老司機心知肚明的情況下”處理視覺可分性的任務(wù)，比如出現(xiàn)某種明顯標(biāo)志，或者出現(xiàn)了某種動作和場景，但在業(yè)務(wù)的審核標(biāo)準(zhǔn)里，很多時候連人都需要“腦補”，AI 就面臨更艱巨的任務(wù)了，比如，在色情低俗的場景下，照片里并沒有呈現(xiàn)完整的違規(guī)場景，AI表示無能為力，但人卻可以想象畫面之外發(fā)生了什么。

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼

【滑雪勝地，圖片來源：百家號所有者：Strange咖】

即使 AI 唐馬儒成了業(yè)務(wù)相當(dāng)熟練的老司機，他可能也會忙到吐血，因為新風(fēng)險實在太多了！

面對不同風(fēng)險點，難道要每一種都做出來一個模型嗎？威視希望，設(shè)計多任務(wù)網(wǎng)絡(luò)，模型不僅可以判斷色情低俗風(fēng)險，同時可以判斷廣告，還可以找人臉，多任務(wù)合并到一個網(wǎng)絡(luò)中。對于計算成本，現(xiàn)在有一種趨勢是，業(yè)界開始做專門的AI芯片，大幅度提升計算效率，降低成本。

當(dāng)然，這些僅僅只是一類案例。說了這么多，到底什么是“安全AI”？為什么在大家都提AI、AI安全時，阿里安全要“別出心裁”地來這么一出，并告訴大家，阿里安全要“ALL IN 安全AI”？

阿里安全研究員陸全稱：“我們阿里安全有這樣一個場景，把 AI 在安全場合進行打磨。其實我們通過 AI 應(yīng)用在安全去保護AI，通過這樣一個不斷迭代的過程，把這兩個東西形成一個整體。這個整體叫做‘安全AI’，它可以自我進化?！?/p>

進化的結(jié)果是，他們想培養(yǎng)出一種“人”，“他”是天生就是很好的拳擊手，具備高靈活性，非常強壯，還要有高對抗性，最后反哺通用的AI，對整個AI領(lǐng)域提供幫助，促進人工智能的發(fā)展。

雖然結(jié)尾如此有雄心壯志，機智如你，可能想知道一個問題：你們到底有沒有找到紅燈區(qū)？

A.找什么找，吃貓山王才是正經(jīng)事。

B.晚上一波人在一個地方偶遇，啊呸，你們在想什么？

C.人不如 AI 老司機，唐馬儒別哭，起來再戰(zhàn)。

我在新加坡尋找“紅燈區(qū)”，AI 老司機翻了個白眼