1
本文作者: 三川 | 2017-02-15 20:33 |
最近,來自維基百科和谷歌的 IT 專家,公布了把 AI 用于“節(jié)制”維基百科用戶評論的成果——找出哪些用戶在搞人身攻擊,還有他們?yōu)槭裁匆诰W(wǎng)上罵街。
針對該問題,研究人員開發(fā)機器學(xué)習(xí)算法,分析維基百科在 2015 年收到的的海量評論。這一年,維基百科討論頁面共收到 6300 萬條評論。這些評論存在的本意,是討論如何改進(jìn)維基百科收錄的各條文章。
這些算法使用 10 萬條包含侮辱性言辭的評論以進(jìn)行訓(xùn)練,當(dāng)然,這樣的樣本規(guī)模只能算是偏小的。起初,十名人類員工對這些評論進(jìn)行分類,以明確用戶評論中都出現(xiàn)了哪些人身攻擊語言方式。舉個例子,該機器學(xué)習(xí)算法能區(qū)別直接人身攻擊(比如“你是個XX”),第三方人身攻擊(張三是個XX),以及間接人身攻擊(“張三說李四是XX”)
研究成果以論文形式發(fā)表出來,題目為'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大規(guī)模人身攻擊)。雷鋒網(wǎng)得到消息,該論文將在四月份澳大利亞珀斯舉行的的世界互聯(lián)網(wǎng)大會上展出。
橫坐標(biāo)軸:總發(fā)帖數(shù);豎軸:侮辱性言論比值;黑色:匿名用戶;藍(lán)色:注冊用戶
如上圖,匿名用戶發(fā)布人身攻擊言論的概率,比注冊用戶高六倍。但發(fā)表最多侮辱性言論的,卻是一小撮活躍注冊用戶。
該分析表明,維基百科 43% 的發(fā)表言論來自匿名用戶。這些人中的絕大部分并不經(jīng)常發(fā)帖,有的就只發(fā)過一次。但平均發(fā)表臟話概率比注冊用戶高六倍。但據(jù)雷鋒網(wǎng)了解,維基百科注冊用戶比匿名評論用戶多 20 倍,意味著超過半數(shù)的人身攻擊言論仍是注冊用戶發(fā)表的。
研究人員發(fā)現(xiàn),大多數(shù)情況下用戶言論是得體的。80% 的人身攻擊來自于 9000 多名用戶,而這一群體發(fā)侮辱性帖子的平均次數(shù)少于五次。意味著大多數(shù)人只在被激怒后,才開始在網(wǎng)上罵街。
但是,有一個包含 34 名活躍用戶的小群體。研究人員對該群體的打分是“危害指數(shù)超過 20”。這 34 個人竟然貢獻(xiàn)了維基百科全部侮辱性言論的近十分之一,準(zhǔn)確來說,是 9%。
很明顯,這些人就是網(wǎng)絡(luò)世界里所謂的“罵街黨”——那些喜歡上網(wǎng)和人罵戰(zhàn),把人身攻擊作為日常宣泄、娛樂活動的人?,F(xiàn)在的好消息是,新的機器學(xué)習(xí)算法使得維基百科在用戶群中找出這些人變得更加容易,然后只需要把這幾個人的賬戶封掉,就能一下子減少論壇上 9% 的惡意言論。太劃算了,是不是?這意味著偶爾發(fā)表人身攻擊言論的普通用戶不必被封號——大多數(shù)只在和人吵起來之后才開罵。這還意味著,維基百科不需要像拉網(wǎng)一樣把全部評論篩一遍,用機器學(xué)習(xí)檢測侮辱性言辭,而只需把精力放在管理這些極少數(shù)的罵街黨上。
網(wǎng)上罵戰(zhàn),有時像野火一樣被瞬時點著。正因如此,相比能自動決定該屏蔽哪個論壇用戶的計算機程序,有時候人類管理員更有用。
論文作者們在結(jié)論中說道:
“這些結(jié)果說明,圍繞著人身攻擊行為的一系列問題并不好解決。但我們的研究證實,目前只有不到五分之一的人身攻擊行為,會觸發(fā)維基百科違規(guī)程序。”
未來,AI 大概會在網(wǎng)站評論管理中起到越來越大的作用。研究人員指出,能自動篩選評論的系統(tǒng)可發(fā)揮極大的輔助作用——人類管理員能更清晰地把握用戶談話的健康狀況,并可以更快得發(fā)現(xiàn)“有毒”評論內(nèi)容,在引發(fā)更多用戶反感之前采取措施。
via ibtimes雷鋒網(wǎng)
相關(guān)文章:
維基百科的 AI 小編上崗,用于檢測惡意破壞或虛假編輯等行為
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。