圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

本文作者：小芹菜

2016-06-01 19:18

導(dǎo)語(yǔ)：直播火爆的背后，都存在哪些問(wèn)題？機(jī)器如何識(shí)別小黃圖？

今年8月，雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前，且有全球影響力的人工智能與機(jī)器人創(chuàng)新大會(huì)。屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前，我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司，從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中，請(qǐng)聯(lián)系：2020@leiphone.com。

雷鋒網(wǎng)按：本文整理自圖普科技李明強(qiáng)在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課上的演講。李明強(qiáng)是圖普科技創(chuàng)始人& CEO。原騰訊T4技術(shù)專家，騰訊資深項(xiàng)目經(jīng)理，QQ郵箱項(xiàng)目負(fù)責(zé)人，微信立項(xiàng)創(chuàng)始人之一。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

| 直播火爆的背后，都存在哪些問(wèn)題？

1、直播內(nèi)容監(jiān)管存在什么困難？

第一、網(wǎng)絡(luò)直播規(guī)模龐大，人工審核成本高

2015年直播平臺(tái)接近200家，用戶數(shù)量已經(jīng)達(dá)到2億，大型直播平臺(tái)每日高峰時(shí)間會(huì)有數(shù)萬(wàn)個(gè)直播“房間”同時(shí)在線，用戶數(shù)可達(dá)千萬(wàn)人次，如果全部用人工對(duì)1萬(wàn)路視頻同時(shí)進(jìn)行審核，為了保證“無(wú)漏網(wǎng)之魚(yú)”，至少需要數(shù)百人同時(shí)工作，并且每位工作人員需要配備1-2臺(tái)監(jiān)控設(shè)備。

比如映客現(xiàn)在在審核上投入的人力是800多人，占用了7000平方米的審核基地，24h的人力審核。其實(shí)直播視頻內(nèi)容的違規(guī)比例占比不高，僅0.04%，甚至更低，但為了做到“無(wú)漏網(wǎng)之魚(yú)”，企業(yè)需要投入大量的人力、物力和財(cái)力進(jìn)行監(jiān)管，運(yùn)營(yíng)成本壓力增加。

第二、直播流量聚焦夜晚，人工審核效率低

網(wǎng)絡(luò)直播白天跟晚上的“房間數(shù)”不同，目前，白天直播流量峰值是數(shù)百路視頻，晚上可以飆升到數(shù)千路。但“三班倒”的審核人員，夜晚疲勞，人眼識(shí)別精確度降低，出現(xiàn)誤判漏判的概率上漲，審核效率降低，難以達(dá)到網(wǎng)絡(luò)直播的內(nèi)容監(jiān)管需求。

第三、主播實(shí)名及直播實(shí)時(shí)驗(yàn)證難

直播平臺(tái)注冊(cè)簡(jiǎn)單，主播規(guī)模擴(kuò)充迅速，如果實(shí)名驗(yàn)證完全依靠人力審核，人力成本增加，難以做到真實(shí)有效的審核；再加上一些稍微大一些的直播平臺(tái)高峰期時(shí)期會(huì)有上萬(wàn)人，如果每次主播直播時(shí)，都驗(yàn)證是否屬于本人在直播，這又增加一部分人力成本，對(duì)于一些中小型直播創(chuàng)業(yè)企業(yè)而言，運(yùn)營(yíng)難度上升。

2、國(guó)家對(duì)于監(jiān)管出臺(tái)的政策，對(duì)直播平臺(tái)有什么影響？

（1）從直播平臺(tái)本身來(lái)說(shuō)，能夠促進(jìn)直播平臺(tái)加強(qiáng)自律：例如部分直播平臺(tái)規(guī)定主播需實(shí)名驗(yàn)證、滿18周歲；直播內(nèi)容存儲(chǔ)時(shí)間不少于15天；所有直播房間內(nèi)添加水??；對(duì)于情節(jié)嚴(yán)重的主播將列入黑名單、對(duì)直播內(nèi)容進(jìn)行24小時(shí)實(shí)時(shí)監(jiān)管等。

（2）從直播平臺(tái)的發(fā)展來(lái)說(shuō)，對(duì)于大型企業(yè)的發(fā)展是比較有優(yōu)勢(shì)的，大型直播平臺(tái)對(duì)監(jiān)管成本上升的承受能力比較高，中小型視頻直播平臺(tái)將在監(jiān)控審查成本的提升環(huán)境下挑戰(zhàn)增大。

（3）從直播平臺(tái)的內(nèi)容發(fā)展來(lái)說(shuō)，依靠色情、暴力等擦邊球的“激進(jìn)”內(nèi)容來(lái)吸引用戶的道路越來(lái)越不可行，未來(lái)受歡迎有潛質(zhì)的主播也許會(huì)更加偏向?qū)I(yè)化。

| 機(jī)器是如何審核直播的？

1、審核直播的方式都有哪些？

傳統(tǒng)的圖像審核方式主要有兩種：

純?nèi)斯徍耍浩髽I(yè)員工“三班倒”工作；
傳統(tǒng)智能審核：人眼鑒別該圖片或視頻是否違規(guī)；傳統(tǒng)的智能審核：如識(shí)別色情圖像，基本是通過(guò)圖片 RGB 值識(shí)別膚色比例；通過(guò)建模識(shí)別異常動(dòng)作、敏感部位等。

但是這兩種審核方式都存在較大的漏洞，“三班倒”的人工容易導(dǎo)致審核效率低、誤判漏判多等主觀性問(wèn)題；傳統(tǒng)智能識(shí)別色情圖片準(zhǔn)確率低、經(jīng)常誤報(bào)等。而且這三種審核方式對(duì)近兩年熱門(mén)的視頻直播審核需求更難以滿足。

現(xiàn)在主要是利用機(jī)器識(shí)別結(jié)合人工審核的模式進(jìn)行審核，機(jī)器識(shí)別是依賴于人工智能領(lǐng)域最新的算法:深度學(xué)習(xí)算法,通過(guò)模擬人腦神經(jīng)網(wǎng)絡(luò),構(gòu)建具有高層次表現(xiàn)力的模型,能夠?qū)Ω邚?fù)雜度數(shù)據(jù)形成良好的解讀。通過(guò)大數(shù)據(jù)持續(xù)訓(xùn)練、頻繁的迭代,不斷提高鑒黃精確度，有效節(jié)省人工復(fù)審的工作。

2、審核直播內(nèi)容，機(jī)器都做了什么？

（1）機(jī)器審核直播內(nèi)容是否涉黃、違法

機(jī)器主要是用來(lái)專門(mén)判斷哪些圖片是色情的或者需要被過(guò)濾掉的違法信息，它在這方面的智能程度是可以替代人力的，經(jīng)過(guò)機(jī)器審核后的數(shù)據(jù)，會(huì)分為“確定”和“不確定”的兩個(gè)部分，確定部分的可以達(dá)到99.5％的準(zhǔn)確率，不確定的會(huì)誠(chéng)實(shí)地告訴客戶，由客戶做出決斷。不確定的部分可能只占到審核總量的1～2%，原先需要100個(gè)人審核，經(jīng)過(guò)機(jī)器識(shí)別服務(wù)，就可以只用1～2個(gè)人來(lái)完成了。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

（2）機(jī)器識(shí)別的工作原理

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

簡(jiǎn)單來(lái)說(shuō)，可以把深度學(xué)習(xí)理解為一個(gè)空白的人腦，這些大量的數(shù)據(jù)就是灌輸進(jìn)來(lái)的經(jīng)驗(yàn)。深度學(xué)習(xí)是屬于機(jī)器學(xué)習(xí)的一個(gè)范疇，是最新的機(jī)器學(xué)習(xí)的技術(shù)，主要體現(xiàn)在“深度”這兩字上。

深度學(xué)習(xí)可以理解為“深度機(jī)器學(xué)習(xí)”的意思，因?yàn)槠胀ɑ蛘邆鹘y(tǒng)的機(jī)器學(xué)習(xí)，在神經(jīng)網(wǎng)絡(luò)的復(fù)雜度和層數(shù)沒(méi)有像現(xiàn)在這么高，深度學(xué)習(xí)就是一層一層的層數(shù)變多了，層數(shù)和復(fù)雜度都加深了許多，所以現(xiàn)在才會(huì)叫做深度學(xué)習(xí)。

譬如說(shuō)你想訓(xùn)練一只狗，狗做對(duì)了你就給它激勵(lì)，為它或者做錯(cuò)了你就懲罰它，那久而久之它就知道哪些是正向、或負(fù)向的激勵(lì)，然后就明白自己哪些事情是自己應(yīng)該去做的，對(duì)于錯(cuò)誤的事情的想法也會(huì)逐漸被抵消。

當(dāng)我們把大量的色情、性感、正常的樣本的屬性告訴深度學(xué)習(xí)的引擎，然后讓引擎不斷學(xué)習(xí)，然后把他們做對(duì)的進(jìn)行獎(jiǎng)勵(lì)，做錯(cuò)的就懲罰，當(dāng)然這些獎(jiǎng)勵(lì)和懲罰都是數(shù)學(xué)上的，最后空白的腦袋就會(huì)學(xué)成了一種連接的模型，這種模型就是為了鑒別色情與非色情而生的。

機(jī)器識(shí)別原理的圖像識(shí)別技術(shù)是如何像人腦一樣認(rèn)識(shí)、學(xué)習(xí)圖像特征的呢？

其核心是深度學(xué)習(xí)理論(Deep Learning)。深度學(xué)習(xí)就是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，以下簡(jiǎn)稱 ANN)。要了解 ANN，讓我們先來(lái)看看人類的大腦是如何工作的。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

（人腦的視覺(jué)處理系統(tǒng) via：Simon Thorpe）

上圖所表達(dá)的，就是人理解外界視覺(jué)信息的過(guò)程。

從視網(wǎng)膜(Retina)出發(fā)，經(jīng)過(guò)低級(jí)的 V1 區(qū)提取邊緣特征，到V2 區(qū)的基本形狀或目標(biāo)的局部，再到高層的整個(gè)目標(biāo)（如判定為一張人臉），以及到更高層的 PFC（前額葉皮層）進(jìn)行分類判斷等。也就是說(shuō)高層的特征是低層特征的組合，從低層到高層的特征表達(dá)越來(lái)越抽象和概念化，也即越來(lái)越能表現(xiàn)語(yǔ)義或者意圖。

深度學(xué)習(xí)，恰恰就是通過(guò)組合低層特征形成更加抽象的高層特征（或?qū)傩灶悇e）。然后在這些低層次表達(dá)的基礎(chǔ)上，通過(guò)線性或者非線性組合，來(lái)獲得一個(gè)高層次的表達(dá)。此外，不僅圖像存在這個(gè)規(guī)律，聲音也是類似的。

下面來(lái)看看深度學(xué)習(xí)的簡(jiǎn)易模型：

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)

深度學(xué)習(xí)的一個(gè)主要優(yōu)勢(shì)在于可以利用海量訓(xùn)練數(shù)據(jù)（即大數(shù)據(jù)），在學(xué)習(xí)的過(guò)程中不斷提高識(shí)別精度，但是仍然對(duì)計(jì)算量有很高的要求。而近年來(lái)，得益于計(jì)算機(jī)速度的提升、大規(guī)模集群技術(shù)的興起、GPU 的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn)，耗時(shí)數(shù)月的訓(xùn)練過(guò)程可縮短為數(shù)天甚至數(shù)小時(shí)，深度學(xué)習(xí)才逐漸可以用于工業(yè)化。

對(duì)于開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō)，做該領(lǐng)域產(chǎn)品的困難在于如何獲取大規(guī)模已標(biāo)注數(shù)據(jù)、集成有 GPU 的計(jì)算集群以及針對(duì)自己的項(xiàng)目調(diào)參數(shù)，團(tuán)隊(duì)需要不斷地輸入新數(shù)據(jù),持續(xù)迭代以提高機(jī)器識(shí)別準(zhǔn)確率。

那么為什么之前機(jī)器學(xué)習(xí)沒(méi)有爆發(fā)，只是在這一兩年開(kāi)始爆發(fā)？

因?yàn)闄C(jī)器學(xué)習(xí)需要同時(shí)滿足三個(gè)條件：

1、海量的數(shù)據(jù)（大家都知道互聯(lián)網(wǎng)發(fā)展那么多年，已經(jīng)積累了大量的數(shù)據(jù)了）；
2、高性能計(jì)算的能力（顯卡和GPU因?yàn)槟柖傻陌l(fā)展，也已經(jīng)積累了很多年）；
3、深度學(xué)習(xí)的算法（是在2012年被一次imagenet的比賽，被業(yè)界廣泛注意到，隆重地登上了歷史的舞臺(tái)）

3、直播數(shù)量那么大，如何審核/推薦？

1）做圖像識(shí)別的公司有哪些，競(jìng)爭(zhēng)差異在哪里？

在智能審核垂直領(lǐng)域的有騰訊優(yōu)圖、阿里綠網(wǎng)，他們主要為自身的平臺(tái)客戶提供審核服務(wù)，不屬于第三方。

2）目前服務(wù)的直播客戶包括花椒、在直播、映客、17直播、悟空TV等等。

這里主要分為兩種服務(wù)類別：

標(biāo)準(zhǔn)審核服務(wù)：包括鑒黃、暴恐識(shí)別、廣告識(shí)別、敏感人臉過(guò)濾等；

個(gè)性化定制服務(wù)：根據(jù)客戶的實(shí)際需求，定制專屬的圖像識(shí)別整體解決方案，譬如針對(duì)特定場(chǎng)景（抽煙、喝酒、打架、自殘等）的審核，人臉識(shí)別（主播顏值、風(fēng)格、表情、年齡、性別、其他外在特征等）、場(chǎng)景識(shí)別（主播直播時(shí)所在環(huán)境）、物體識(shí)別（直播平臺(tái)中出現(xiàn)的物體）等各種圖像的識(shí)別。

直播平臺(tái)的個(gè)性化推薦，是在傳統(tǒng)推薦系統(tǒng)的基礎(chǔ)上，融入圖像識(shí)別技術(shù)，以用戶的即時(shí)興趣為基礎(chǔ)，智能推薦符合用戶心理預(yù)期的內(nèi)容。

比如在場(chǎng)景的精準(zhǔn)推送上，可以基于人臉、場(chǎng)景、商品識(shí)別與分析技術(shù)，抓取視頻內(nèi)的價(jià)值信息，實(shí)現(xiàn)最精準(zhǔn)的內(nèi)容匹配；

在主播風(fēng)格推薦上，可以自動(dòng)分類不同風(fēng)格的男神女神，根據(jù)用戶平臺(tái)資料和興趣，智能推送偏好類型；

還可以建立顏值推薦系統(tǒng)，基于人臉識(shí)別，機(jī)器自動(dòng)將高顏值主播推薦給用戶等。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

| 直播很火，機(jī)器學(xué)習(xí)同樣很火

1、除了審核直播，機(jī)器學(xué)習(xí)還能做什么？

除了幫助直播平臺(tái)規(guī)避內(nèi)容風(fēng)險(xiǎn)，機(jī)器識(shí)別還可以通過(guò)以下幾個(gè)形式優(yōu)化視頻直播平臺(tái)：

第一、通過(guò)圖像識(shí)別對(duì)主播進(jìn)行分類，可以得出直播平臺(tái)的內(nèi)容是否健康，或者給主播打上標(biāo)簽，平臺(tái)是否需要培養(yǎng)和扶持一些比較稀缺、受歡迎的主播。

第二、深挖直播平臺(tái)的圖像識(shí)別云服務(wù)，例如主播正在做什么，唱歌、跳舞、抽煙、化妝、睡覺(jué)或其他。在將來(lái)全民生活直播，可以挖掘的信息量就更大，包括萬(wàn)事萬(wàn)物的識(shí)別，視頻內(nèi)出現(xiàn)的車、手機(jī)、玩具或其他的，這都是反映了一個(gè)人的生活習(xí)慣、行為習(xí)慣，機(jī)器可以根據(jù)用戶偏好，智能推送相應(yīng)直播視頻，幫助直播企業(yè)更好地進(jìn)行用戶互動(dòng)運(yùn)營(yíng)。

第三、直播的視頻內(nèi)發(fā)出的所有圖像信息，包括人物、地點(diǎn)、活動(dòng)、事物、背景等，在以人工智能技術(shù)作為基本支撐下，可以幫助用戶智能搜索所需信息，像KTV、餐廳、教室等，這些都是可以提高產(chǎn)品和用戶體驗(yàn)，或者企業(yè)想將這些信息流量變現(xiàn)，均可按企業(yè)需求定制。

第四、基于人的智能搜索，幫助直播平臺(tái)把用戶和內(nèi)容串連起來(lái)，把相似的主播串連起來(lái)，讓用戶找出自己想要的人物形象。例如用戶可以描述自己夢(mèng)中情人的形象然后進(jìn)行智能搜索，或上傳自己的照片即找出與自己最有夫妻相的主播等，這都是目前同質(zhì)化直播平臺(tái)沒(méi)有做到的事情。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課

| 今年8月，雷鋒網(wǎng)將在深圳舉辦“全球人工智能與機(jī)器人創(chuàng)新大會(huì)”（簡(jiǎn)稱：GAIR），機(jī)器學(xué)習(xí)的未來(lái)趨勢(shì)怎么看？

1、凱文凱利說(shuō)過(guò)：“很快人工智能就講變成一種日用品。智力會(huì)像電力一樣通過(guò)網(wǎng)絡(luò)傳輸?！?nbsp;這意味著，人們將生活在被人工智能所包圍的世界里。

應(yīng)用上，建立更加實(shí)用的學(xué)習(xí)系統(tǒng)，特別是開(kāi)展多種學(xué)習(xí)方法協(xié)同工作的集成化系統(tǒng)的研究，機(jī)器學(xué)習(xí)將會(huì)深度融合到各個(gè)行業(yè)，人工智能+的時(shí)代正在開(kāi)啟。

雖然短時(shí)間內(nèi)人工智能無(wú)法理解人類的情感，在未來(lái)的五年內(nèi)，人工智能技術(shù)領(lǐng)域的創(chuàng)業(yè)企業(yè)將會(huì)倍增，開(kāi)發(fā)出一些功能性的應(yīng)用，人工智能將在這些專業(yè)功能上輔助人類或直接取代人類。例如人工智能可以為你推薦新聞，幫你掃地，幫你駕駛汽車，甚至幫你管理健康狀況等。五年后，將會(huì)出現(xiàn)一批相對(duì)成熟的垂直領(lǐng)域的人工智能企業(yè)，人工智能與傳統(tǒng)企業(yè)的結(jié)合更加緊密。

2、技術(shù)上，發(fā)展和完善現(xiàn)有的學(xué)習(xí)方法，同時(shí)開(kāi)展新的學(xué)習(xí)方法的研究，針對(duì)某個(gè)或者某類應(yīng)用的特定的學(xué)習(xí)方法將會(huì)不斷涌現(xiàn)，數(shù)據(jù)管理得到更多的關(guān)注，數(shù)據(jù)的價(jià)值將繼續(xù)擴(kuò)大，對(duì)于機(jī)器學(xué)習(xí)結(jié)果的解釋會(huì)逐漸受到重視。

編者注：以下是雷鋒網(wǎng)精選公開(kāi)課上的幾個(gè)精彩問(wèn)答分享——

1、利用機(jī)器識(shí)別是如何對(duì)直播中的非法視頻進(jìn)行處理的呢？

通過(guò)間隔截圖，關(guān)鍵幀截圖之類的對(duì)視頻進(jìn)行處理，因?yàn)楸O(jiān)控是旁路的，而且可以做到峰值每秒5k并發(fā)，1s-2s返回，所以不會(huì)影響實(shí)時(shí)性。在檢測(cè)到了相符信息后，機(jī)器會(huì)實(shí)時(shí)反饋結(jié)果給客戶。至于是屏蔽、刪除或者禁播等方面的處理，主要是看業(yè)務(wù)方，可以選擇由機(jī)器自動(dòng)處理或者人工介入。

2、圖像識(shí)別應(yīng)用在智能醫(yī)療領(lǐng)域是怎么的？

圖像識(shí)別不僅在互聯(lián)網(wǎng)行業(yè)有應(yīng)用，在其他行業(yè)的應(yīng)用也是非常廣泛的。

比如在在智能醫(yī)療領(lǐng)域就有專門(mén)的小領(lǐng)域來(lái)專門(mén)做醫(yī)療影像處理，就像是可以通過(guò)患者的如肝臟的影像，去判斷有沒(méi)有癌變；如眼睛的影像，判斷有沒(méi)有白內(nèi)障等; 更細(xì)的還有，到血管的圖像，去判斷有沒(méi)有阻塞等。另外在一些傳統(tǒng)領(lǐng)域上的應(yīng)用，例如基于圖像搜索，可以幫助商標(biāo)局建立商標(biāo)庫(kù)，新注冊(cè)的企業(yè)就可以自動(dòng)搜索是否相同的商標(biāo)被注冊(cè)了；基于物體識(shí)別，可以協(xié)助鐵路交通部門(mén)自動(dòng)檢測(cè)線路的電閘是否損壞、掉漆來(lái)判斷是否需要更換；還可以幫助電視臺(tái)做廣告監(jiān)播，監(jiān)測(cè)某個(gè)品牌露出的時(shí)間、某個(gè)時(shí)間上某個(gè)商標(biāo)展示的時(shí)間長(zhǎng)度等。

圖像識(shí)別，怎樣守護(hù)網(wǎng)絡(luò)直播的底線？| 雷鋒網(wǎng)公開(kāi)課