0
本文作者: 靈火K | 2018-12-06 10:21 |
昨天是各位老司機(jī)、福利姬的末日,因?yàn)槊绹?guó)著名博客網(wǎng)站Tumblr在當(dāng)天突然出臺(tái)了新的政策決定——Tumblr將全面禁止出現(xiàn)任何成人內(nèi)容,新規(guī)定將于12月17日正式施行。
這不是天經(jīng)地義的事情嗎,有何可大驚小怪的?
和多數(shù)人心中對(duì)“和諧社區(qū)”的定義不同,在新規(guī)定發(fā)布之前,Tumblr這個(gè)以年輕人為中心的社交網(wǎng)絡(luò)平臺(tái)以收容大量的色情內(nèi)容(主要為文章、靜態(tài)圖和Gif圖)而聞名全球。
社交網(wǎng)站Tumblr截圖
Tumblr 創(chuàng)始人 David Carp 曾表示,色情相關(guān)的內(nèi)容,占據(jù)了該網(wǎng)站流量的2-4個(gè)百分點(diǎn)。2012年,一份當(dāng)月刊發(fā)的意大利研究報(bào)告顯示,這一數(shù)字正迅速增長(zhǎng),甚至有近半網(wǎng)友遇到過(guò)避無(wú)可避的成人內(nèi)容,而對(duì)此評(píng)論Tumblr未做出任何的回應(yīng)。
時(shí)至今日,在雅虎旗下的這家社交網(wǎng)站上,盡管只有超出0.1% 的賬戶(hù)在出產(chǎn)色情內(nèi)容,但卻有22%,甚至更高的用戶(hù)關(guān)注、點(diǎn)贊、或轉(zhuǎn)發(fā)了上述賬號(hào)的內(nèi)容。有研究指出,正是這種“分享”行為,導(dǎo)致另外28.5%的 Tumblr用戶(hù)無(wú)意間接觸到了色情暴露內(nèi)容。
俗話(huà)說(shuō)得好,常在河邊走,哪有不濕鞋?
雷鋒網(wǎng)獲悉,就在兩周前,蘋(píng)果公司將Tumblr軟件從其應(yīng)用程序商店中刪除,原因是其檢測(cè)和刪除兒童色情的自動(dòng)化系統(tǒng)出現(xiàn)故障。而從類(lèi)型上來(lái)看,盡管在Tumblr上也能看到類(lèi)似天文地理歷史科學(xué)的各種“小清新”內(nèi)容,但相比前者來(lái)說(shuō)只能是冰山一角罷了。
至此,Tumblr啟動(dòng)了AI鑒黃計(jì)劃,并在聲明中鄭重表態(tài)要將成人內(nèi)容“趕盡殺絕”。
Tumblr CEO Jeff D’Onofrio在聲明中表示,Tumblr的AI鑒黃計(jì)劃并不是指要禁止裸體政治抗議或大衛(wèi)雕像。這個(gè)操作要求AI具備極強(qiáng)的成人內(nèi)容識(shí)別能力,同時(shí)也依靠人類(lèi)幫助訓(xùn)練和控制系統(tǒng)。
簡(jiǎn)單來(lái)說(shuō),Tumblr希望打造一個(gè)可以識(shí)別裸體女性但同時(shí)又不會(huì)將裸體女性塑像誤認(rèn)為是成人內(nèi)容的人工智能系統(tǒng)。盡管這對(duì)人來(lái)說(shuō)是一件再簡(jiǎn)單不過(guò)的事,但對(duì)于A(yíng)I來(lái)說(shuō)其難度則是達(dá)到了“雞蛋里挑骨頭”的級(jí)別。
換做你是AI,看到這種場(chǎng)景有木有想罵街的沖動(dòng)?
說(shuō)到這里,想必會(huì)有人問(wèn)了:“Why?”
實(shí)際上,AI識(shí)別圖像的過(guò)程分為信息的獲取、預(yù)處理、特征抽取;選擇、分類(lèi)器設(shè)計(jì);分類(lèi)決策三大塊。在第一部分中,AI將圖片中的特征點(diǎn)提取出來(lái),并通過(guò)數(shù)據(jù)匹配來(lái)獲取到它的屬性,并最終生成判定。
也就是說(shuō),除了成人內(nèi)容相關(guān)的敏感詞匯、特征點(diǎn)的抓取,要想讓AI將真人與雕塑區(qū)分開(kāi)就需要在此基礎(chǔ)上再對(duì)特征點(diǎn)的材質(zhì)等特征做出匹配。難點(diǎn)在于,初期A(yíng)I只能按照指定的幾個(gè)“標(biāo)簽”分析圖片類(lèi)型,對(duì)于圖片中的物體是肉體還是大理石、是塑料還是泡沫......這種問(wèn)題是無(wú)法做出精確分析的。
簡(jiǎn)單的智能系統(tǒng)更無(wú)法像人一樣立刻在隨機(jī)的圖片中找到哪些標(biāo)簽應(yīng)該衡量,哪些不值得衡量。將這一問(wèn)題對(duì)應(yīng)在Tumblr的鑒黃計(jì)劃中,其解決問(wèn)題的唯一辦法就是盡可能全面地抓取圖片、文字中的特征點(diǎn),而這對(duì)于系統(tǒng)而言必將承受巨大負(fù)荷。
特征點(diǎn)識(shí)別
如何避免這樣的惡循環(huán)怪圈?對(duì)此,Tumblr CEO Jeff D’Onofrio表示,公司不斷加大投資推動(dòng)此政策的實(shí)施,包括符合行業(yè)標(biāo)準(zhǔn)的機(jī)器監(jiān)控、不斷壯大的人類(lèi)仲裁團(tuán)隊(duì)以及便于舉報(bào)濫用行為的用戶(hù)工具。通過(guò)讓更多的用戶(hù)以及相關(guān)人員參與其中,Tumblr希望通過(guò)人工智能的學(xué)習(xí)能力來(lái)逐步培養(yǎng)AI鑒黃系統(tǒng)獲得精準(zhǔn)的篩選能力。
而除了人工合作之外,針對(duì)以上問(wèn)題雷鋒網(wǎng)也曾在名為《世界最大黃網(wǎng)要用 AI “鑒黃”,還號(hào)稱(chēng)要讓鑒黃師下崗》的文章中向圖普科技運(yùn)營(yíng)總監(jiān)姜澤榮提出了疑問(wèn),他的回答是:“如果是一個(gè)1.5小時(shí)的視頻,一秒一張截圖,在上述數(shù)量視頻的基礎(chǔ)上足以訓(xùn)練出效果尚可的模型?!?/p>
由此來(lái)看,盡管Tumblr的識(shí)別對(duì)象是圖片和文字,但對(duì)于如此量級(jí)的社交網(wǎng)站(也不止這一家在做類(lèi)似的事)來(lái)說(shuō)訓(xùn)練出“可用”的AI鑒黃系統(tǒng)自然是不在話(huà)下。
既然不在話(huà)下,為啥還任重道遠(yuǎn)?
從目前效果來(lái)看,盡管聲明中Tumblr明確提出會(huì)著重訓(xùn)練AI在性取向言論和色情內(nèi)容方面的篩選能力,以便避免前者被認(rèn)為是不當(dāng)內(nèi)容屏蔽掉。但有反饋稱(chēng)被錯(cuò)誤禁止的內(nèi)容甚至包括加菲貓的圖片,蝙蝠俠吃法蘭克福的圖片和電視廚師戈登·拉姆齊胸前拿著一塊米糕并稱(chēng)之為“隆胸”的圖片。
AI:Emm~這只喵長(zhǎng)得灰常少兒不宜,屏蔽!
紐約自由攝影師勞拉·湯普森表示,我不得不手動(dòng)申訴團(tuán)隊(duì)解鎖這些圖片,雖然我貼在網(wǎng)站上的標(biāo)簽確實(shí)是“色情”(如“食品色情”)但顯然它們和色情無(wú)關(guān)。
從成本方面看,Tumblr的社交網(wǎng)站屬性讓內(nèi)容量變得源源不斷,這就需要AI鑒黃系統(tǒng)具備強(qiáng)大的GPU運(yùn)算能力,高速端對(duì)端圖像處理速度以及較高的帶寬標(biāo)準(zhǔn)。在雷鋒網(wǎng)名為《AI 會(huì)讓鑒黃師失業(yè)嗎?》的文章中曾提到:“算力方面,原本千萬(wàn)級(jí)別的樣本在GPU為單機(jī)單卡的情況下訓(xùn)練時(shí)間要接近一個(gè)月,而僅10000張圖片里面往往有一張屬于色情圖片,為了識(shí)別出這張圖片,AI掃描的成本即為10000次”。由此可見(jiàn),AI鑒黃確是一項(xiàng)費(fèi)錢(qián)費(fèi)力的大工程。
從風(fēng)險(xiǎn)系數(shù)看,AI鑒黃計(jì)劃執(zhí)行的同時(shí)也伴隨著各種其他風(fēng)險(xiǎn)。首先,針對(duì)用戶(hù)屬性的AI鑒黃師必須要盡量全面的獲取到用戶(hù)在平臺(tái)上的各類(lèi)數(shù)據(jù),而誰(shuí)都無(wú)法擔(dān)保這些數(shù)據(jù)最終會(huì)流向何處(盡管大家都說(shuō)“我們是絕對(duì)安全的”)。
3月16日,F(xiàn)acebook被曝在2014年有超過(guò)5000萬(wàn)名用戶(hù)資料遭“劍橋分析”公司非法用來(lái)發(fā)送政治廣告,此次事件曝光后Facebook 僅在一天之內(nèi)市值蒸發(fā)60億美元(約合人民幣380億元)。盡管直到目前Facebook仍因此事深陷動(dòng)蕩局勢(shì)之中,但其CEO馬克·扎克伯格卻在多次聽(tīng)證會(huì)議上否定了公司存在有意侵犯用戶(hù)隱私并參與到相關(guān)交易中的行為。
在真相浮出水面之前我們不知道真相究竟是什么,但這足以證明——當(dāng)你試圖開(kāi)始收集并利用用戶(hù)信息達(dá)成某些目的時(shí),一旦出事,即使你渾身張嘴也別想洗刷清白。
短期效果、長(zhǎng)期成本以及風(fēng)險(xiǎn)系數(shù),對(duì)于Tumblr來(lái)說(shuō),AI鑒黃系統(tǒng)不同于某成人視頻網(wǎng)站,它除了要有效篩選成人向內(nèi)容,還要從中將正常性談?wù)摵Y選出來(lái)推薦給大家,如果給做這件事情的難度打個(gè)分,我給五顆星!
可見(jiàn),Tumblr的AI鑒黃計(jì)劃可謂是任重而道遠(yuǎn),而現(xiàn)在我們看到的僅是一條規(guī)定,一切將在12月17日見(jiàn)分曉。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。