0
1999年,出于對網(wǎng)易內(nèi)部產(chǎn)品安全保護的需求,網(wǎng)易成立了安全部,那時候饒曉艷還沒有加入網(wǎng)易,而網(wǎng)易易盾更是還沒“出生”。當時的她不會想到,17年后的自己將與網(wǎng)易易盾結緣。
“那會兒,人們對于網(wǎng)絡安全還沒有概念,更沒人知道什么是內(nèi)容安全。很長一段時間里,網(wǎng)易安全部僅僅是支撐和保障內(nèi)部多款億級用戶產(chǎn)品安全的?!?/p>
2016年,中國網(wǎng)民規(guī)模達6.68億,卻有55.18%的網(wǎng)民曾遭遇網(wǎng)絡詐騙;83.48%的網(wǎng)民網(wǎng)上支付行為存在安全隱患。顯然,互聯(lián)網(wǎng)時代的飛速發(fā)展越來越多的網(wǎng)絡安全問題日益突顯出來。
大背景下,眾多內(nèi)容安全問題也相繼浮出水面——包括門戶網(wǎng)站、社區(qū)論壇、社交平臺、短視頻在內(nèi)的479萬家網(wǎng)站輸出了海量UCG內(nèi)容。以2017年8月來看,全國各地網(wǎng)信辦受理網(wǎng)民舉報386萬件;廣告信息占比最高71.8%。隨著國家對于內(nèi)容安全監(jiān)管力度的持續(xù)加大,行業(yè)急需可行方案來解決這“疑難雜癥”。
2016年時,網(wǎng)易安全在互聯(lián)網(wǎng)界已是17歲“高齡”了。正值“老當益壯”的網(wǎng)易安全決定把其自身的技術沉淀和實踐云化并對外提供服務,從而推出了——“網(wǎng)易易盾”這個品牌,內(nèi)容安全是其主打的產(chǎn)品服務。
也正是在網(wǎng)易安全能力商業(yè)化的前夕,饒曉艷加入了網(wǎng)易易盾團隊。接下來的三年,饒曉艷見證了網(wǎng)易易盾品牌誕生和內(nèi)容安全成為領域弄潮者的過程,也深刻認識到20多年技術積累的重要性。
▲網(wǎng)易易盾產(chǎn)品總監(jiān)饒曉艷
追憶網(wǎng)易易盾的成長
看一個事物,人總是喜歡問這樣一個終極問題:“你是誰,你從哪里來?又要到哪里去?”如果談網(wǎng)易易盾,也繞不開這些。
易盾的內(nèi)容安全服務,實際上是源于網(wǎng)易安全部支撐內(nèi)部多個億級用戶的內(nèi)容型產(chǎn)品的技術項目,在2016年網(wǎng)易安全部正式把對內(nèi)的服務商業(yè)化,對外提供服務,品牌定為“易盾”。
經(jīng)過短短三年的發(fā)展,網(wǎng)易易盾第三代內(nèi)容安全服務提供鑒黃、涉政、暴恐、廣告等數(shù)十大類近千小類的有害內(nèi)容智能識別過濾服務,智能識別精準率超過99.8%,每天檢測信息上十億條,服務互聯(lián)網(wǎng)企業(yè)數(shù)千家。作為國內(nèi)最早把內(nèi)容安全作為一個品類單獨對外提供服務的云服務(市場初期有“信息過濾”、“敏感詞過濾”、 “反垃圾”等五花八門的稱呼,后都改為“內(nèi)容安全”),網(wǎng)易易盾其知名度和市場占有率,在行業(yè)內(nèi)領先。
想必很多人都好奇一點,原本好好對內(nèi)提供服務的安全業(yè)務,基于什么契機把它商業(yè)化?時間點上,為什么是2016年?
網(wǎng)易易盾產(chǎn)品總監(jiān)饒曉艷說,主要是四個方面,簡單來講:一個是法律法規(guī)的完善和人們對內(nèi)容安全的意識覺醒;另外個是海量的內(nèi)容遇上信息的實時傳輸和傳播,使得過去人工的審核方式適應不了時代的要求;再一個是云計算的流行和人工智能技術的逐步成熟,使得內(nèi)容安全能夠作為一個商業(yè)化項目去運作;而更重要的一點則是,內(nèi)容安全在網(wǎng)易內(nèi)部已經(jīng)很成熟了,由于服務了包括網(wǎng)易新聞、網(wǎng)易Lofter、網(wǎng)易云音樂等多款用戶過億的產(chǎn)品,“反垃圾”經(jīng)驗和數(shù)據(jù)也積累了將近20年,效果經(jīng)歷了實踐驗證。
20年里,從項目誕生到成為內(nèi)容安全行業(yè)內(nèi)的領先者,網(wǎng)易易盾的內(nèi)容安全服務一共經(jīng)歷了三次大的技術進化:
第一代內(nèi)容安全技術是建立在關鍵詞、黑白名單、過濾器和分類器上;
第二代內(nèi)容安全技術基于內(nèi)容特征識別(膚色、紋理)、貝葉斯過濾、相似度匹配和規(guī)則系統(tǒng);
第三代則升級為大數(shù)據(jù)分析(用戶行為、用戶分類)、人機識別、人工智能和機器學習(語義識別、圖像識別)。
在這次長達兩個小時的采訪中,饒曉艷——這位易盾商業(yè)化產(chǎn)品的“操盤手”和雷鋒網(wǎng)分享了,從產(chǎn)品角度易盾內(nèi)容安全服務所經(jīng)歷的四個歷史階段:
純文本垃圾階段。饒曉艷稱:“在互聯(lián)網(wǎng)不是很發(fā)達的早期,網(wǎng)易易盾的內(nèi)容安全服務只對內(nèi)服務,當時主要以篩選文本垃圾的功能為主,使用了關鍵詞、黑白名單、過濾器和分類器等實現(xiàn)垃圾文本的過濾?!?/p>
圖文垃圾階段。在移動互聯(lián)網(wǎng)開始發(fā)展前后,內(nèi)容傳播的形式更加豐富?!皥D片垃圾是內(nèi)容安全治理的‘重災區(qū)’。此外,文字垃圾也不僅僅局限在關鍵詞監(jiān)測的階段,大量的變種文本垃圾為其篩選、處理有害內(nèi)容的能力提出更高要求?!?/p>
團伙作案階段。饒曉艷表示:“在這個階段,由于多媒體方面的內(nèi)容在不斷增加,對于分發(fā)垃圾的人來說已經(jīng)不再是原來的單一個體,而是逐漸形成了有組織的黑灰產(chǎn)產(chǎn)業(yè)鏈。這種團伙作案方式會讓圖文、視頻的傳播增速,并且具備較強的目的性?!?/p>
在這樣的背景之下,內(nèi)容安全監(jiān)測不光是對有害內(nèi)容進行檢測,同時還要對用戶行為進行分析。與此同時,圖文有害信息再次升級,很多有害內(nèi)容通過P圖、旋轉(zhuǎn)、剪切、水印圖等方式企圖逃過網(wǎng)易易盾的篩選機制。
融媒體實時檢測階段。最近幾年,直播、短視頻是最流行的內(nèi)容傳播方式之一,對于一些實時性較強的有害信息的檢測顯得尤為重要。
饒曉艷稱:“而這對于內(nèi)容安全處理技術要求更高。尤其是這兩年,包括《網(wǎng)絡表演經(jīng)營活動管理辦法》、《互聯(lián)網(wǎng)直播服務管理規(guī)定》、《網(wǎng)絡短視頻內(nèi)容審核標準細則》和《網(wǎng)絡短視頻平臺管理規(guī)范》等法律法規(guī)完善,內(nèi)容安全領域?qū)τ谶`規(guī)的定義越來越細化。比如對于直播而言,加入了類似‘主播吃香蕉’這種相對抽象的低俗內(nèi)容定義,這就要求網(wǎng)易易盾將色情內(nèi)容檢測的模型拆分的更細,這個階段,網(wǎng)易易盾的內(nèi)容安全服務開始向精細化方向發(fā)展。”
AI賦能
法律法規(guī)的完善、圖文/視頻變種的層出不窮以及直播行業(yè)的興起,推動著網(wǎng)易易盾不斷結合實際場景推出新的技術解決方案。
“沒有什么是技術不能解決的?!敝档脩c幸的是,網(wǎng)易本身作為內(nèi)容擁有者,以及20多年的數(shù)據(jù)和技術沉淀,為網(wǎng)易易盾提供了一個龐大的訓練用數(shù)據(jù)庫,這也是網(wǎng)易易盾所擁有的天然優(yōu)勢。在饒曉艷看來,解決上述內(nèi)容安全的難題在于如何結合人工智能技術快速實現(xiàn)有害信息的識別與篩選。
她從三個層面進行了解釋:
首先,如何在一段短視頻或一張圖片中識別出‘主播吃香蕉’這個行為?饒曉艷分析道:“在這之前,我們并不把此類行為定義為色情,現(xiàn)在我們需要教會網(wǎng)易易盾的技術判定‘主播+香蕉=低俗’,然后讓機器在數(shù)據(jù)庫中進行大量訓練來強化這一判斷標準。”
饒曉艷告訴雷鋒網(wǎng),這樣的訓練一開始識別率是相對比較低的,好在網(wǎng)易易盾有專門的法律法規(guī)研究團隊(內(nèi)部崗位名稱叫“政策法規(guī)研究員”)、輿情分析團隊,再配合關鍵特征提取和識別訓練,之后這一細分部分的識別能力上才得到很大提升。
其次,音頻監(jiān)測傳統(tǒng)手段是采用把音頻語音轉(zhuǎn)成文本,然后再結合文本來篩選出其中的有害信息。但隨著形態(tài)的發(fā)展,開始出現(xiàn)一些帶有色情的音頻,比如短視頻的呻吟聲或者嬌喘聲,以及ASMR場景下的違規(guī)音頻。這是用傳統(tǒng)手段無法識別的,對此網(wǎng)易易盾又進行了技術迭代,使用了聲紋檢測技術,并在內(nèi)容安全類目上新增了嬌喘呻吟類。與此同時,為了更好的服務內(nèi)容平臺,易盾還提升了語種識別準確率,支持英語、泰語、印尼語等;此外,易盾也積極研究各個國家政策法規(guī),以及響應客戶各種新的需求,不斷完善自身的內(nèi)容安全標準。
最后,饒曉艷提及:“人工智能技術并非萬靈藥,面對實時性直播和短視頻,機器檢測還需要人工輔助。而為了補充此空缺,網(wǎng)易易盾在2017年研發(fā)并推出了短視頻電視墻審核方案,技術和人工共力的方式,去解決當時在直播和短視頻中出現(xiàn)的“秒露”問題。
網(wǎng)易易盾短視頻電視墻服務是針對點播視頻的高效審核服務,可廣泛應用于各類短視頻、長視頻的審核。雷鋒網(wǎng)得知,易盾的短視頻電視墻可靈活配置進審范圍、同時審核的路數(shù),可按照機器疑似度或進審時間排序等。進審視頻全視頻流展示,針對秒級或幀級出現(xiàn)的違規(guī)鏡頭,可做到風險“0”漏過。而當某個短視頻熱度突然上升,其彈幕數(shù)增加等多維數(shù)據(jù)發(fā)生異常時,該短視頻就會被納入到重點監(jiān)控名單里,進入到人工輔助審核的步驟,審核人員可準確定位疑似時間戳,快速發(fā)現(xiàn)問題視頻。
饒曉艷稱:“經(jīng)過不斷發(fā)展,現(xiàn)階段人工智能已全面賦能網(wǎng)易易盾的內(nèi)容安全產(chǎn)品處理渉政暴恐、色情低俗等數(shù)十大類近千小類的業(yè)務,實現(xiàn)了文本、圖片、音頻、視頻等品類的全覆蓋,針對直播、短視頻、政企、社交、金融、游戲和媒體等行業(yè),易盾還推出一站式安全解決方案?!痹趯嶋H應用場景中,饒曉艷表示,有客戶反饋易盾雖然不一定是最便宜的,但效果、價格以及服務及時性、業(yè)務場景的覆蓋等維度綜合起來,網(wǎng)易易盾是綜合效益最好的。
值得一提的是,在產(chǎn)品和技術不斷進化的過程中,網(wǎng)易易盾實驗室2018年還研發(fā)出了一種對多視角多模態(tài)特征信息進行有效融合的自編碼器神經(jīng)網(wǎng)絡,在準確率、NMI、Purity、ARI等各項性能指標上,較當下多項國際先進的多視角多模態(tài)信息融合技術有顯著性的領先。
這是什么技術呢?可以這么理解:傳統(tǒng)的自編碼器神經(jīng)網(wǎng)絡技術只能“摸”出美女的頭、腿、身子等部分,卻無法全面還原其出一個真實的美女。上述技術則能夠?qū)?shù)據(jù)的多視角、多模態(tài)特征進行綜合提取和有效融合,能把這個美女完整、客觀的呈現(xiàn)出來。
“第三方”這條路,不好“走”
在內(nèi)容安全服務整個商業(yè)化過程中,網(wǎng)易易盾遭遇很多挑戰(zhàn)。除了上面提及的困難外,饒曉艷后來又提及兩大塊:一個是市場培育問題,另外一個是內(nèi)容安全越來越精細化,特征提取難。
2016年,饒曉艷在安全部處在商業(yè)化階段的大背景下加入了正在孕育的網(wǎng)易易盾團隊,負責商業(yè)化產(chǎn)品的落地。她回憶,當時客戶的意識還沒覺醒,他們沒意識到還可以尋找專門的第三方服務來解決內(nèi)容安全的問題,從而擺脫人力成本上的桎梏。
而彼時,國外已經(jīng)誕生了Mollom、WebPurify、Sightengine等第三方反垃圾服務。盡管網(wǎng)易易盾在國內(nèi)推出了內(nèi)容安全服務,并成長為一個值得信賴的平臺,但客戶卻沒有這個意識——去接入第三方專業(yè)的服務。與此同時,也有些偏事業(yè)型政府企業(yè),接受不了云服務,有各種顧慮;再加上他們的決策流程也非常長,很難“啃”下來。
后來,隨著易盾不斷投入資源進行市場培育,云計算趨勢的流行、內(nèi)容安全意識的強化、法律法規(guī)的完善,以及易盾不斷提供新的解決途徑和方案,這塊問題最終得到解決。
談到第二個挑戰(zhàn)時,饒曉艷表示,現(xiàn)在客戶要求不僅高,精細度也越來越細了,細化到一個圖片、一段視頻里面的某一個動作、神態(tài),甚至有的會要求綜合性地去分析某個直播,里面的主人公是怎么樣的一個人……
“技術同事經(jīng)常對產(chǎn)品說,沒有什么是技術不能解決的?!钡垥云G指出,在產(chǎn)品落地上卻不是這樣,因為內(nèi)容安全標準的提煉存在挑戰(zhàn)。就比如說露乳溝、露大腿,到底到什么程度才算是低俗?主播舔東西到什么界限,才觸達“違規(guī)”標準……這些的這些,都需要去界定和特征提煉。
后來網(wǎng)易易盾成立了易盾實驗室,基于得天獨厚的自身內(nèi)容型數(shù)據(jù)和服務數(shù)千家客戶的積累,從輿情、策略分析、運營規(guī)則、標注以及人工智能等領域不斷深入、打磨,把標準層面的東西一點點確定出來。在這個過程中,易盾還把主播嚼冰塊、露大腿等不違規(guī),但和色情擦邊的行為提取特征,訓練模型實現(xiàn)“命中”,并在內(nèi)容系統(tǒng)后臺中提交給客戶,由客戶決定到底要不要刪除……這些是易盾實驗室整合科研資源和數(shù)據(jù)積累的力量。
也正是易盾商業(yè)化產(chǎn)品落地的經(jīng)歷和各種挑戰(zhàn),讓饒曉艷對于中小企業(yè)是否自建內(nèi)容審核系統(tǒng)上,深有洞察,也頗具發(fā)言權。
她旗幟鮮明地說,非常不建議中小企業(yè)建設內(nèi)容安全服務。對于自己的觀點,她給出了三個理由:
首先,內(nèi)容安全系統(tǒng)并不好開展,主要是因為其海量的數(shù)據(jù)往往只有BAT這類的大公司才有——尤其是和內(nèi)容型相關的數(shù)據(jù),這就導致開發(fā)出來的系統(tǒng)往往效果不好,對內(nèi)容安全問題“后知后覺”。
其次,內(nèi)容安全團隊一旦組建運作,對于中小企業(yè)來說是一個無底洞。隨著業(yè)務和形態(tài)的發(fā)展,以及黑灰產(chǎn)攻防的升級,需要不斷投入大量人力、物力。而即使其兩者都能滿足,其是否有足夠量級的模型庫用于訓練,訓練后效果能否達到預期?在數(shù)據(jù)之外,又涉及到另外一個難題——中文博大精深,雙關、同音字、多音字等都比較復雜,中文的文字結構與語義復雜性使得垃圾信息與衍生格式變化多端。饒曉艷指出,這并不是有些人口中所說的“不就是算法的問題嘛”。
最后,國內(nèi)對于色情內(nèi)容的界限相對模糊,鑒黃的難度也隨之增加。正如上面提到“美女吃香蕉”的案例,如何在有效篩選黃色內(nèi)容的同時,又不影響內(nèi)容平臺的正常運營?顯然,業(yè)務的發(fā)展和內(nèi)容審核之間的這個度很難把控,如果不在這塊下足功夫,中小企業(yè)研發(fā)或安全部門往往會落下個出力不討好的壞名聲——做的好,沒你的事;一出事故,就背鍋。
“我不建議中小企業(yè)自建內(nèi)容安全團隊,其遠沒多數(shù)公司想象的那么容易。有些事看似簡單,但做起來卻十分不容易?!边@位網(wǎng)易易盾產(chǎn)品總監(jiān)最后點評到。
雷鋒網(wǎng)得知,網(wǎng)易安全部之所以成立內(nèi)容安全團隊,起初其實也是迫于無奈。在那個連網(wǎng)絡都稱不上流行的年代,沒有一家廠商可以幫助網(wǎng)易完成有害內(nèi)容的審核。憑借20多年的技術沉淀,網(wǎng)易易盾依托其海量的云計算資源、特征庫以及創(chuàng)新技術成果,才得以在數(shù)年間就在內(nèi)容安全領域取得弄潮者地位。
尾聲
對于當下很多人提及的互聯(lián)網(wǎng)寒冬,雷鋒網(wǎng)問及是否會對易盾的業(yè)務拓展造成影響,饒曉艷表示,她不這么看,覺得反而是一個機會:“在所謂的互聯(lián)網(wǎng)寒冬悲觀預期下,有些企業(yè)會更加關注成本核算,在很多業(yè)務上會關注投入產(chǎn)出比,這會促使一部分企業(yè)在采用第三方內(nèi)容安全服務上采取積極態(tài)度,而易盾有信心也有實力去獲取這部分用戶。”
從整個行業(yè)來看,網(wǎng)易易盾開創(chuàng)了內(nèi)容安全的品類、參與內(nèi)容安全行業(yè)標準的起草,推動內(nèi)容安全行業(yè)的發(fā)展,那網(wǎng)易易盾在2018年,又完成了哪些進化?
饒曉艷總結到,如果把2016、2017兩年定義為產(chǎn)品體系和服務建立和完善的階段,那么2018年,她則認為是場景化解決方案落地和多業(yè)務融合聯(lián)動的一年?!耙锥苓€有業(yè)務安全、移動安全和網(wǎng)絡安全,我們?nèi)诤显谝黄?,提供了一站式解決方案?!彼又赋?,2018年也是易盾開始出海,走向世界舞臺的一年,易盾向東南亞地區(qū)也提供了內(nèi)容安全服務,為出海企業(yè)提供內(nèi)容安全保障。
對于未來,饒曉艷說,網(wǎng)易易盾的內(nèi)容安全服務將在戰(zhàn)略上向著場景化、精細化、智能化三個大方向不斷深化,“希望我們的努力,能夠解除一些互聯(lián)網(wǎng)產(chǎn)品深受有害內(nèi)容的困擾,維護他們的產(chǎn)品口碑,為營造風清氣正的互聯(lián)網(wǎng)環(huán)境貢獻一份力?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。