0
本文作者: 老王 | 2017-01-11 09:57 |
雷鋒網(wǎng)按:人工智能鑒黃市場競爭愈發(fā)激烈,目前圖普科技、阿里綠網(wǎng)、騰訊萬象優(yōu)圖等團隊已占據(jù)大量市場份額,在此環(huán)境下,不少公司試圖通過提供更全面的服務(wù)從這片紅海中分一杯羹。
那么更全面的定制服務(wù)體現(xiàn)在哪些地方?雷鋒網(wǎng)特地采訪了極限元 CEO 雷臻,雷臻從圖像識別、語音識別、文本挖掘三個維度向雷鋒網(wǎng)講解 AI 鑒黃,同時對一些工程細節(jié)進行闡述。
直播鑒黃一般從哪些方面進行鑒定?
通常情況下,直播鑒黃通過視頻截圖、圖像識別、語音技審、彈幕監(jiān)控、關(guān)鍵字抽取等能力智能識別色情內(nèi)容。在向客戶正式提供圖像識別服務(wù)前,會先邀請直播平臺用戶進行體驗測試,收集一些直播平臺專屬特征數(shù)據(jù),比如不同的直播背景、環(huán)境光線強度、話題內(nèi)容等,進行定制化的訓練模型,不同的直播平臺將獲得定制化的專屬圖像識別服務(wù)。
其中視頻直播內(nèi)容的審查鑒定可以從以下幾個步驟:識別圖像中是否存在人物體征,統(tǒng)計人數(shù);識別圖像中人物的性別、年齡區(qū)間;識別人物的膚色、肢體器官暴露程度;識別人物的肢體輪廓,分析動作行為;除了圖像識別之外,還可以從音頻信息中提取關(guān)鍵特征,判斷是否存在敏感信息;實時分析彈幕文本內(nèi)容,判斷當前視頻是否存在違規(guī)行為,動態(tài)調(diào)節(jié)圖像采集頻率。
在圖像識別方面,其中每分鐘視頻采集關(guān)鍵幀的頻率可以由客戶設(shè)定,從1秒到幾十秒均可。例如可以默認5秒采集一次關(guān)鍵幀用于識別,也可以在出現(xiàn)疑似告警時動態(tài)調(diào)節(jié)采集頻率,加快至每秒一張。
您剛提到音頻關(guān)鍵特征提取,這個可以深入講講嗎?
音頻分析主要有以下幾個方面:
通過聲紋識別技術(shù),判斷當前直播間的主播是否為注冊主播本人,對主播身份進行識別。
對主播的語音內(nèi)容進行關(guān)鍵詞檢索,是否存在禁語、敏感詞。
對特定的連續(xù)語音數(shù)據(jù)段進行識別,是否存在不良信息。
對口播廣告的播出頻次進行統(tǒng)計,分析廣告投放效果。
不過視頻、音頻雙通道檢測的方案由用戶來決策,秀場直播通常用圖像檢測就可以滿足絕大部分需求,音頻檢測可能更適用于語音內(nèi)容為主的直播平臺。兩者結(jié)合起來會大大提高識別準確率、降低誤報率,但成本也會相應(yīng)提高,所以用戶可以根據(jù)業(yè)務(wù)需求進行選擇。
目前的準確率、誤報率、召回率大概是多少?是否會進行人工復審?
目前直播平臺涉黃圖像檢測的準確率高達99%以上,誤報率低于1%,需要客戶進行人工復核的比例不超過3%。通常情況下不提供人工復審的服務(wù),但是會對疑似的圖像進行標注并提醒用戶進行人工復核。人工復核后的數(shù)據(jù)會被收集起來進行迭代訓練,這樣可以不斷提升識別的準確率。
直播的實時性、對于機器的圖片識別處理速度要求特別高,對于機器的計算能力會不會特別高?采用什么樣的方式進行處理?
網(wǎng)絡(luò)視頻直播實時性強,對服務(wù)端圖像識別處理的速度要求特別高,除了對帶寬有較高的要求外,還需要識別服務(wù)器擁有強大的GPU運算能力,尤其是應(yīng)用深度機器學習算法進行模型訓練階段,強大的GPU集群服務(wù)器是不可或缺的,并基于全鏈接層的特性去除了對訓練圖像大小的限制,快速提升算法處理速度。此外在采集視頻圖片時也可以采用動態(tài)調(diào)節(jié)采集頻率的辦法,通常情況下幾秒一幀,出現(xiàn)敏感信息后加快采集頻率,可以更及時的識別涉黃信息并提出告警。
模型訓練所需的數(shù)據(jù)的量有多大?一般什么原因會影晌鑒定準確率?
以極限元為例,基礎(chǔ)數(shù)據(jù)集有幾千萬張圖片,此外每天還會追加兩萬張各類正、負樣本圖片,用于迭代訓練,不斷微調(diào)優(yōu)化識別準確率。每周會進行一次基礎(chǔ)模型訓練,每1-2天會進行一次增量模型迭代訓練。
至于鑒定準確率影響層面,主要還是數(shù)據(jù)量的匱乏,樣本對應(yīng)用場景的覆蓋不全面導致訓練出的模型存在誤報、漏報或者識別錯誤,隨著深度機器學習算法的日趨成熟,數(shù)據(jù)來源的多樣性、專業(yè)性反而成為模型構(gòu)造的重中之重。
此外,主播刻意進行一些干擾檢測的手段,比如遮擋敏感部位、畫中畫等等,也會一定程度上影響到機器的識別判斷。
機器能不能自動處理:屏蔽、刪除、禁播等?
涉黃圖片檢測服務(wù)部署在云端,本身沒有網(wǎng)絡(luò)路徑可以接觸到用戶的直播間管理系統(tǒng),因此無法自動屏蔽、刪除、暫停直播間的活動。但是如果用戶選擇私有云的部署方式,并授權(quán)識別服務(wù)器可以訪問直播間管理系統(tǒng),那么對涉黃直播間的刪、停等操作是可以實現(xiàn)的。
智能鑒黃相對于人工鑒黃、成本下降多少?
以一家月直播10萬小時的中小直播平臺為例,如果采用傳統(tǒng)的內(nèi)容審核技術(shù),100人的內(nèi)容管理團隊每月所花費的成本在80萬上下。如果借助人工智能進行內(nèi)容監(jiān)控,人力投入可以削減到10人左右,綜合投入不過10萬到20萬之間,將大大降低人力成本和管理費用。此外還有因此而節(jié)省的監(jiān)視設(shè)備費、辦公場地費等等。
色情和非色情的界限怎么把握、拿捏?
首先,在建立這樣一個分類模型時,會有人工對圖像大數(shù)據(jù)進行標注,存在一定主觀判斷誤差,但也在大眾理解的范圍內(nèi)。識別結(jié)果除了色情和正常外,還存在一個疑似或者稱之為性感的類別,這些都是根據(jù)機器識別后的近似值進行匹配。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。