1
在你對著美麗的女主播流口水時,偶爾會看到屏幕上冒出一條不和諧的彈幕,例如:“看艾薇;加XXXXX?!?/span>
對于這種不健康的信息,你可能會感到非常憤怒,然后按照號碼加一下。。。
這樣的觀眾“福利”,對于直播平臺 CEO 來說卻是不折不扣的災難。每一個這樣的彈幕,都把他向“快播王欣”的角色推進了一步。更何況時不時出現(xiàn)的“造人”直播,恨不能導致“有關部門”直接把直播平臺干掉。
“合規(guī)性”這個并不性感的詞,在某些時刻成為了直播平臺的生死線。從這個角度看,直播反垃圾信息成為了一種剛需。雷鋒網采訪到了同盾科技的小伙伴,對于直播行業(yè)的反欺詐和反垃圾,他們有一些獨特的理解。
彈幕里這些影響社會主義和諧社會建設的詞匯,統(tǒng)稱為“敏感詞”,而這些讓人心旌動搖的信息,就是“敏感信息”。同盾科技反欺詐及基礎產品總監(jiān)祝偉根據發(fā)布人群和傳播形式的特點,給直播彈幕的敏感信息做了個分類:
涉黃涉政言論:通常是無組織,由普通直播觀眾發(fā)起。
虛假謠言:通常由水軍組織,作為“節(jié)奏”發(fā)動機,帶動一般觀眾,快速形成熱點。
垃圾廣告:通常都是黑產組織,發(fā)布廣告內容。會和直播平臺的風控系統(tǒng)形成強對抗。
祝偉說,現(xiàn)在越來越多出現(xiàn)人氣很旺的直播場景。在其中往往聚集了幾萬甚至更多人。這就像現(xiàn)實當中眾人聚集的廣場,不當的言論會起到煽動的作用。
數萬人、數十萬人在網絡上聚集狂歡,這種情況正在加速出現(xiàn)。在9月27日舉行的小米發(fā)布會,通過愛奇藝平臺對外直播。這場發(fā)布會聚集了大量的觀眾。在直播過程中,不時有“看A片加微信”的字幕從雷軍的臉上劃過,讓人有一種“碉堡了”的錯覺。
【彈幕示意圖】
對于愛奇藝這樣的平臺來說,顯然會有基本的反垃圾彈幕功能。但是“漏網之魚”數量依然龐大。這就要歸罪于反垃圾引擎的智能性了。因為從“漏網彈幕”的形式來看,大多是敏感詞的“變體”,即在敏感詞中間加入符號,用同音字、近義字代替敏感詞。
有關敏感信息的屏蔽,難度并不小。這是一個從論壇時代就困擾各大平臺的難題。祝偉舉了幾個例子:
很多情況下,各大平臺都需要屏蔽“鵬”這個人名,但是發(fā)彈幕者會用“月月鳥”嘗試代替“鵬”字。這種方法被用在很多漢字上。
而事實上還存在另外一種情況。例如在論壇里經常出現(xiàn)的“進群交流”這樣的留言,本來是正常的留言,卻很容易因為中間兩個字而被關鍵詞系統(tǒng)錯殺。。。
雷鋒網想說,漢語的博大精深真是讓人跪服得妥妥的。
在這種情況下,一個“厲害”的垃圾信息屏蔽系統(tǒng),就涉及到語義分析功能。語義分析是人工智能的一個重要的分支技術,簡單說來就是消除掉詞語的歧義,給一個確定的句子以語義理解。
語義分析這門技術其實已經被用在諸多領域,但是由于人工智能發(fā)展程度的限制,使得“通用型”的語義分析可用性不理想。不過祝偉告訴雷鋒網,
語義分析如果局限在特定的領域,就可以針對這個領域做大量的優(yōu)化,從而大大提高識別的準確性。
他的話通俗來說就是:在彈幕上發(fā)垃圾信息,是有套路的。
祝偉表示,死磕直播垃圾彈幕的場景中,一套語義模型是必要的。而模型里包含的要素,就是“樣本”“規(guī)則”“數據”。隨著時間的演進,會產生新的“黑話”,廣告的形式和語句也會發(fā)生“進化”。但是通常這種變化都是有潮流可循的。也就是說,只要把最新出現(xiàn)的垃圾彈幕不斷加入語義模型,系統(tǒng)就會自動演化出對這類彈幕的識別能力。
就是在這種不斷和垃圾彈幕作斗爭的“貓鼠游戲”中,可以達到越來越強的反擊能力。這像極了人類的抗生素和病毒的對抗過程。
如果你仔細思考:當我們反垃圾彈幕的時候,我們在反什么?
你可能會得出這樣的結論:我們在反對“不按規(guī)矩出牌”的人。
沒錯,事情的重點在于“人”。每一條違規(guī)彈幕,都會溯源到一個具體的人。祝偉告訴雷鋒網,根據實踐經驗,大多數情況下發(fā)送黃暴彈幕或廣告彈幕的人員穩(wěn)定性很高。
也就是說,有一批人,會經常出沒于不同平臺,散發(fā)垃圾彈幕。對他們來說,這是一份相對穩(wěn)定的職業(yè)。
在這種情況下,就可以把違規(guī)的行為,和背后的人建立起相對固定的聯(lián)系。從而根據人或他使用的設備的信用情況,對違規(guī)行為的可能性做出判斷。
當然,對于直播的觀眾,做到強實名認證并不現(xiàn)實。但通過大數據的方式,這個問題在很大程度上可以解決。
祝偉簡單推演了這個邏輯:
對于一個真實的人來說,他的注冊賬號、手機號、所使用的設備、網段 IP 等等信息會產生很強的關聯(lián)性。根據這種關聯(lián)性,可以對一個新賬號和信用庫中的信息進行比對,從而“揪出”那些存在“案底”的人。
可以想象一下,同一個人做到同時更換登錄設備、注冊賬號、手機號和網絡環(huán)境,還是有一定難度的。當然,對于這些“指紋”信息,各自存在一些繞過的技術,但繞過的成本并不低:
首先,很多繞過技術可以被感知,例如虛擬設備、或者 VPN 代理等。
其次,這些繞過措施存在一定的技術門檻,這些門檻乍一看表現(xiàn)在技術上,而實質都會反映在金錢成本上。
當然,行為和設備指紋的關聯(lián)只是判定規(guī)則的一部分。祝偉舉了一個同盾提供給直播商的反垃圾工具中的例子:
例如有一條規(guī)則:一個用戶設備關聯(lián)的登錄 IP 超過3個,系統(tǒng)就會向直播平臺預警風險。平臺可以根據我們的提示選擇封禁或者忽略,也可以修改規(guī)則的參數,例如把關聯(lián) IP 的限度從3改成5。
類似這種的規(guī)則還有很多,而且可以根據對抗的方向不斷修改或增刪規(guī)則??梢栽诤艽蟪潭壬媳WC阻攔掉那些“圖謀不軌”的用戶。
當然,這種技術有一個最核心的需求,就是各個平臺數據之間的共通。
在 A 平臺上的違規(guī)記錄,會影響這個用戶在 B 平臺的信用,這才能大大提高違規(guī)用戶的成本。
這就是所謂的跨平臺封禁。祝偉說。(當然他認為同盾科技就是在這方面很有競爭力的服務提供商。)
這個邏輯對于主播同樣適用。
隨著直播平臺的規(guī)范,主播進入直播平臺需要認證的信息也越來越多。以斗魚為例,目前主播想要加入直播平臺,有關身份證和銀行卡的校驗是必須的。
【斗魚直播平臺的主播認證頁面】
“但是,中國目前信息泄露非常嚴重,盜用其他人全套的個人信息很容易。”祝偉說。
在這種情況下,就需要建立更強大的主播認證體制和主播信用體制。例如,
通過人像識別技術,判斷主播的形象是否和注冊身份證一致。
建立主播的信用記錄,記錄 Ta 是否在其他平臺曾經涉嫌淫穢內容。
這些工作當然可以在很大程度上提高主播違規(guī)的成本,但是祝偉覺得這還不夠。“全網負面信息”,這個聽起來很厲害的詞正是升級方案之一。
比如說,一個主播曾經在婚戀網站商扮演過“婚托”和“酒托”的角色,或者在我們合作的幾千家論壇中發(fā)送過涉黃、廣告的帖子,那么 Ta 的信用評分就會受到很大的影響,這個評分會被直播平臺看到,從而很可能做出拒絕主播注冊的決策。
祝偉承認,對于直播行業(yè)的反垃圾,是一個長期的對抗過程。而無論是主播還是觀眾,涉及的違規(guī)多數是“道德風險”,這并不是安全的范疇。
而對于道德風險,只有一種方法,那就是不斷提高違規(guī)者作惡的成本。當成本上升到和他的收益持平的那一刻,也許就是作惡者轉身離開的瞬間。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。