丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
政企安全 正文
發(fā)私信給靈火K
發(fā)送

0

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察

本文作者: 靈火K 2019-12-04 17:36
導(dǎo)語(yǔ):如何打破內(nèi)容風(fēng)控的瓶頸?我們來聽聽這位大佬的誠(chéng)意解答。

“道路千萬條,安全第一條,行車不規(guī)范,親人兩行淚”——這句話,出自科幻電影《流浪地球》,卻也恰巧概括出內(nèi)容平臺(tái)的“辛酸經(jīng)歷”。

從文字到圖片,從直播到短視頻,多年來行駛在內(nèi)容創(chuàng)作這條康莊大道上的“車輛”可謂形形色色。這其中,有一類“老司機(jī)”最讓人頭疼:

這些人,以打色情擦邊球?yàn)榧喝?;在露與不露之間摩拳擦掌;為黃而不宣的內(nèi)容“奮斗”終生。

他們,可能是你平臺(tái)上的一個(gè)寫手,一個(gè)主播甚至一個(gè)配音師。這些老司機(jī)們?cè)诤A績(jī)?nèi)容池中茁壯成長(zhǎng),你找不到、管不了也清不走。對(duì)平臺(tái)來講,這種感覺像極了一句話:

 色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察

直到在風(fēng)和日麗的某一天,平臺(tái)被有關(guān)部門點(diǎn)名關(guān)懷乃至關(guān)停整改,才發(fā)現(xiàn)兩行淚也難掩此時(shí)的悲壯之感。

2018年,全國(guó)各地網(wǎng)信辦平均每月收到網(wǎng)民舉報(bào)的淫穢色情、詐騙信息、垃圾(有害)信息等高達(dá)304.6萬次,且不斷攀升,這都是內(nèi)容風(fēng)控所面臨的也是迫切需要解決的問題。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察

內(nèi)容風(fēng)控要做到準(zhǔn)確、實(shí)時(shí)、批量的確不是件易事,隨著內(nèi)容上云,AI技術(shù)的廣泛應(yīng)用,內(nèi)容風(fēng)控的新技術(shù)如何打破上述瓶頸?對(duì)于中小型企業(yè)和大型企業(yè)來說,怎樣的云上內(nèi)容管控方案才算適用?

帶著問題,雷鋒網(wǎng)邀請(qǐng)了騰訊安全內(nèi)容風(fēng)控專家 Lucas 進(jìn)行一場(chǎng)關(guān)于內(nèi)容安全的誠(chéng)意問答。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察

1、對(duì)平臺(tái)來說,內(nèi)容風(fēng)控為何如此重要?

Lucas:原因有三:

1.如果平臺(tái)沒有做好有害的內(nèi)容識(shí)別,是需要負(fù)法律責(zé)任的:近期《關(guān)于辦理非法利用信息網(wǎng)絡(luò)、幫助信息網(wǎng)絡(luò)犯罪等刑事案件適用法律若干問題的解釋》出臺(tái),進(jìn)一步明確規(guī)定了平臺(tái)和產(chǎn)品在內(nèi)容方面的義務(wù)與法律責(zé)任。

2.平臺(tái)中泛濫的有害內(nèi)容會(huì)嚴(yán)重影響用戶的身心健康。

3.平臺(tái)如果放任有害內(nèi)容的產(chǎn)生和傳播,必將導(dǎo)致劣質(zhì)內(nèi)容驅(qū)逐優(yōu)質(zhì)內(nèi)容,降低平臺(tái)整體品質(zhì),從而導(dǎo)致用戶流失。

2、色情文本內(nèi)容和互聯(lián)網(wǎng)一樣古老,風(fēng)控平臺(tái)是如何準(zhǔn)確識(shí)別出哪些文字內(nèi)容在“開車”的?針對(duì)一些諧音、拼音之類的擦邊球文字如何準(zhǔn)確識(shí)別?對(duì)于“嗯,嗯,嗯”“啊,啊,啊”這樣的擬聲字如何識(shí)別?

Lucas:文本是網(wǎng)絡(luò)中最大的信息載體,所有互聯(lián)網(wǎng)平臺(tái)都面臨文本安全風(fēng)控的問題。色情文本中存在一些明顯特點(diǎn),比如變異字干擾、形近字拆字干擾、同音字干擾。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲垃圾文本通過變異干擾躲避傳統(tǒng)的有害文本風(fēng)控模型

針對(duì)這類文本的特點(diǎn),單靠抗干擾能力弱、策略更新滯后的文本策略無法滿足對(duì)抗的需求,需要通過文本策略+算法模型相結(jié)合的方式來提升整體識(shí)別的召回率和準(zhǔn)確率。

文本分類算法選擇與模型訓(xùn)練

對(duì)比典型的TextCNN、RNN、FastText等文本分類算法,其中TextCNN的模型復(fù)雜度低、推理速度快、抗干擾性強(qiáng)且對(duì)詞順序不敏感等特點(diǎn),適合于短文本高對(duì)抗的場(chǎng)景;在模型訓(xùn)練中通過以下手段來進(jìn)一步提升模型的識(shí)別效果:

1. 基于字符、拼音的Word2Vec來豐富詞的語(yǔ)義信息,可以有效解決同音字問題;

2. 數(shù)據(jù)增強(qiáng),對(duì)訓(xùn)練樣本中的高頻詞做拆字,比如針對(duì)“加微”這個(gè)詞分別補(bǔ)充“+V”“+威”等用于訓(xùn)練來提升模型的抗干擾能力。

3. 基于靜態(tài)詞向量與動(dòng)態(tài)詞向量相結(jié)合的方法,比如在不同場(chǎng)景的大規(guī)模語(yǔ)料上分別預(yù)訓(xùn)練靜態(tài)詞向量,捕捉詞的多場(chǎng)景語(yǔ)義信息,從而降低因訓(xùn)練數(shù)據(jù)過少導(dǎo)致的過擬合風(fēng)險(xiǎn)。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲短文本類型模型與訓(xùn)練流程

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲騰訊安全天御內(nèi)容風(fēng)控文本安全的打擊效果

3、色情圖片可能是流傳最廣泛,傳播最速度的色情信息內(nèi)容了,我們知道對(duì)于機(jī)器來說,識(shí)別色情圖片門檻很高,企業(yè)應(yīng)該如何處理?

Lucas:圖片是網(wǎng)絡(luò)上僅次于文本的第二大信息形式,幾乎任何互聯(lián)網(wǎng)平臺(tái)都要面臨圖片中存在的色情、低俗等問題。

我們把色情低俗等圖片大致分為兩類過濾情況:

存在具象的有害元素:例如露點(diǎn)、性行為等,經(jīng)典的圖像分類/目標(biāo)檢測(cè)算法就適用于這類情況,此時(shí)算法的挑戰(zhàn)在于元素類型眾多、而且有害元素在畫面中的比例未必是顯著的。針對(duì)這種情況通過Attention技術(shù),可以讓模型更關(guān)注到特定元素而“忽視”無關(guān)痛癢的其他畫面元素,例圖中的輸出圖片是熱力圖,從中可以看出模型對(duì)漏溝信息的反應(yīng)最為明顯,說明模型判斷這是一張低俗圖的主要原因在于它發(fā)現(xiàn)了‘漏溝’這一概念。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察

▲通過Attention技術(shù)讓模型更關(guān)注特定元素

抽象的概念:人類判斷一張圖是否是有害是基于畫面的具體元素結(jié)合生活經(jīng)驗(yàn)的結(jié)果,與針對(duì)特定元素的識(shí)別的圖像感知相比,大量隱晦圖片(如性挑逗、性誘惑)把問題上升到了圖像認(rèn)知的層次;圖像多標(biāo)簽識(shí)別技術(shù)可以實(shí)現(xiàn)輸入一張圖片輸出一組標(biāo)簽,為圖像認(rèn)知提供基礎(chǔ)語(yǔ)義支撐,建立在多標(biāo)簽基礎(chǔ)上再構(gòu)建上層模型才有可能使機(jī)器做到類似人類“圖像認(rèn)知”的效果。這里的算法挑戰(zhàn)在于需要積累大量的訓(xùn)練數(shù)據(jù)覆蓋形形色色各類標(biāo)簽,而且真實(shí)世界分布中的標(biāo)簽的比例往往嚴(yán)重不平衡,如何既支持大量的標(biāo)簽類別又應(yīng)對(duì)標(biāo)簽不平衡問題而且還要保持最終的識(shí)別指標(biāo)是一項(xiàng)技術(shù)挑戰(zhàn);針對(duì)這種情況,騰訊安全天御內(nèi)容風(fēng)控采用標(biāo)簽級(jí)動(dòng)態(tài)采樣方式,設(shè)置ignore label抑制高頻標(biāo)簽,降Loss反向傳播權(quán)值,可以有效提升低頻標(biāo)簽召回率提升,進(jìn)而提升整體的識(shí)別效果。

4、除了文本和圖片兩大類載體之外,直播、短視頻也在高速的發(fā)展,針對(duì)視頻要求內(nèi)容風(fēng)控做出怎樣的應(yīng)對(duì)?如果一支視頻畫面正常,但播放中出現(xiàn)了“嬌喘聲”“呻吟聲”,騰訊安全可以識(shí)別到么?

Lucas:2016年直播迅速崛起,到近年短視頻飛速發(fā)展,都是以視頻的方式吸引大量網(wǎng)民的眼球,相對(duì)文本圖片靜態(tài)內(nèi)容,針對(duì)直播和短視頻的內(nèi)容風(fēng)控除了可以從視頻中抽幀做圖片有害內(nèi)容識(shí)別之外,還有更多的挑戰(zhàn):

實(shí)時(shí)性:直播作為實(shí)時(shí)流,主播在直播的同時(shí)就有數(shù)百萬甚至千萬的粉絲在觀看節(jié)目,所以對(duì)風(fēng)控的算法模型響應(yīng)速度要求特別高,一般需要在500ms以內(nèi)完成色情、低俗、是否本人等多項(xiàng)檢測(cè),并將異常的情況通知平臺(tái)進(jìn)行處理。

性能要求:以1分鐘的短視頻為例,如果按照100ms間隔抽幀,完成一個(gè)短視頻需要識(shí)別600張圖片,串行處理大概需要5分鐘,而這往往無法滿足用戶及時(shí)上傳及時(shí)分享的需求;因此需要加速視頻檢測(cè)的速度,除了通過增加機(jī)器提升并行處理速度外,可以在截圖的時(shí)候使用后幀關(guān)聯(lián)識(shí)別來做跳變抽幀的方式來減少抽幀總量但又不漏過視頻中的關(guān)鍵幀信息來減少圖片識(shí)別的總量。目前騰訊安全在視頻檢測(cè)中利用騰訊云的資源彈性伸縮,并使用跳幀識(shí)別的方式1分鐘的視頻,最快10s即可鐘完成檢測(cè)。

音頻檢測(cè):視頻中除了畫面存在有害信息之外,還有可能出現(xiàn)音圖無關(guān)現(xiàn)象,比如直播畫面正常但是音頻卻涉黃了,因此除了截圖識(shí)別外還需要提取音頻內(nèi)容做呻吟聲等識(shí)別。完整的音頻檢測(cè)流程包括a)VAD 做靜音檢測(cè),去掉靜音內(nèi)容,同時(shí)將音頻分段;b)提取音頻特征 MFCC/Fbank等;c) 在通用模型上(基于GMM 或者TDNN)提取能夠表征該段音頻內(nèi)容的特征(embedding);d)通過特定的后端分類器得到每段音頻的識(shí)別結(jié)果;e)根據(jù)每個(gè)片段的得分和時(shí)長(zhǎng),根據(jù)業(yè)務(wù)需要,匯總得到整條語(yǔ)音內(nèi)容的識(shí)別結(jié)果和置信度。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲騰訊安全-色情音頻識(shí)別效果

5、這些技術(shù),在平臺(tái)眼中都適用嗎,對(duì)于中小型企業(yè)和大型企業(yè)來說,選擇的內(nèi)容風(fēng)控方案是否一致?

Lucas:如前文所介紹的針對(duì)文本、圖片、視頻(音頻)都有不同的算法(比如TextCNN、BERT、多標(biāo)簽識(shí)別、Attention技術(shù)以及音頻中的TDNN和i-vector),不同規(guī)模的企業(yè)中選擇的技術(shù)可能大同小異,但是在風(fēng)控系統(tǒng)的設(shè)計(jì)和實(shí)踐中會(huì)出現(xiàn)較大的差異,最終產(chǎn)生的效果出現(xiàn)比較大的偏差。內(nèi)容的對(duì)抗是一個(gè)持續(xù)的過程,線上一成不變的算法模型可以解決一時(shí)的問題不能解決各種黑產(chǎn)的攻擊與繞過,因此針對(duì)線上識(shí)別系統(tǒng)之外我們還需要一套主動(dòng)收集漏過數(shù)據(jù)補(bǔ)充線上模型流程:

1. 獲取被線上模型識(shí)別為有害的內(nèi)容以及用戶舉報(bào)的有害內(nèi)容所關(guān)聯(lián)的號(hào)碼

2. 提取號(hào)碼的文本內(nèi)容做文本聚類(TF-IDF、DBSCAN、分層聚類)

3. 提取聚類特征消息平均長(zhǎng)度(號(hào)碼信息熵、IP信息熵、地址信息熵)

4. 通過XGBoost輸出異常分類并給到人工標(biāo)注來挖掘漏過樣本

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲完整的垃圾文本過濾系統(tǒng)

同理針對(duì)圖片、視頻、音頻的檢測(cè)系統(tǒng)也少不了主動(dòng)收集漏過數(shù)據(jù)的流程;除此之外的內(nèi)容風(fēng)控系統(tǒng)還必須具備彈性的處理能力來滿足業(yè)務(wù)的需求,以及針對(duì)不同的場(chǎng)景做精細(xì)化的檢測(cè)的能力。所以針對(duì)中小企業(yè)來說我們更建議選擇成熟的云上內(nèi)容風(fēng)控方案,來降低企業(yè)自身的人力、物力的持續(xù)投入而專注于內(nèi)容本身的運(yùn)營(yíng);而針對(duì)大型的企業(yè)來說由于面臨的風(fēng)險(xiǎn)也更大,除了可能自建設(shè)內(nèi)容風(fēng)控系統(tǒng)之外也可以接入云上內(nèi)容風(fēng)控能力來補(bǔ)充提升自身的不足。

6、從實(shí)際效果來看,應(yīng)用了內(nèi)容風(fēng)控解決方案能否實(shí)現(xiàn)“降本增效”,為企業(yè)降低成本?

Lucas:目前騰訊安全天御內(nèi)容風(fēng)控系統(tǒng)已經(jīng)通過騰訊云和小程序開放平臺(tái)服務(wù)數(shù)萬客戶,通過我們的內(nèi)容風(fēng)控的系統(tǒng)可以從兩個(gè)方面來實(shí)現(xiàn)“降本增效”:

降低開發(fā)成本,一鍵接入

目前騰訊安全天御的內(nèi)容風(fēng)控系統(tǒng)已經(jīng)跟騰訊云的產(chǎn)品有機(jī)的結(jié)合起來,如果企業(yè)已經(jīng)使用了云通信、點(diǎn)播、對(duì)象存儲(chǔ)(COS)、直播等產(chǎn)品,那么無需開發(fā)就可以接入到我們的內(nèi)容風(fēng)控,我們識(shí)別到有害內(nèi)容之后將主動(dòng)通知企業(yè)進(jìn)行處理。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲騰訊安全天御內(nèi)容風(fēng)控系統(tǒng)與騰訊云有機(jī)結(jié)合

降低20%~80%的成本

隨著內(nèi)容風(fēng)控系統(tǒng)不斷的提升檢測(cè)的效果,企業(yè)在對(duì)“鑒黃師”的人力投入也在持續(xù)降低,不同規(guī)模的企業(yè)能夠降低原有20%~80%的成本。大量此前曾經(jīng)需要很多人力投入才能解決的工作,現(xiàn)在可以交給系統(tǒng)來完成,企業(yè)可以將人力集中于內(nèi)容風(fēng)控系統(tǒng)檢測(cè)之后的復(fù)核以提升風(fēng)控效果,更大程度的避免有害內(nèi)容帶來的風(fēng)險(xiǎn),也可以將人力投入到其他業(yè)務(wù)的創(chuàng)新和生產(chǎn)當(dāng)中,為企業(yè)創(chuàng)造更多的價(jià)值。

色情/性感如何區(qū)分,怎樣的風(fēng)控能力能防止“平臺(tái)兩行淚”?丨產(chǎn)業(yè)安全觀察 ▲騰訊安全天御內(nèi)容風(fēng)控的效果

7、未來內(nèi)容把控的發(fā)展方向?yàn)楹危繉?duì)于VR、AR、5G等新技術(shù)的落地,企業(yè)將面臨哪些新的內(nèi)容風(fēng)控問題?

Lucas:內(nèi)容風(fēng)控的核心是識(shí)別文本、圖片、視頻、音頻中的有害內(nèi)容,現(xiàn)階段的識(shí)別還離不開“鑒黃師”的輔助,我們需要持續(xù)將識(shí)別做到精細(xì)化來滿足不同場(chǎng)景的需求,同時(shí)不斷提升召回率和準(zhǔn)確率來釋放“鑒黃師”的投入從而降低企業(yè)的成本。

目前內(nèi)容風(fēng)控對(duì)抗的主要是用戶產(chǎn)生的內(nèi)容,不管是用戶自拍還是專業(yè)拍攝,其內(nèi)容的創(chuàng)作都是有一定成本的,隨著通過生成對(duì)抗算法產(chǎn)生的文本、圖片、視頻、音頻開始傳播起來,其創(chuàng)作的成本更低廉可能更具有傳播性,那么內(nèi)容風(fēng)控所需要面對(duì)不僅僅是人產(chǎn)生的內(nèi)容,也包括機(jī)器自動(dòng)生成的各式各樣的內(nèi)容。

隨著5G等技術(shù)的落地,VR、AR可能重新火熱起來,也會(huì)帶來新的內(nèi)容形式,但是內(nèi)容風(fēng)控的本質(zhì)不會(huì)變,只要我們?cè)趦?nèi)容的生產(chǎn)、存儲(chǔ)、傳播三個(gè)環(huán)節(jié)做好內(nèi)容風(fēng)控,必將可以更優(yōu)的姿勢(shì)迎接內(nèi)容井噴式發(fā)展的到來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

資深編輯

我就是我,是顏色不一樣的焰火~
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說