0
每次說到劇透,相信很多朋友和我一樣,心底都泛起了陣陣憂傷。
最近有部火熱的劇《慶余年》,那陣容、那演技、那劇情,真是每一集都一波三折,時刻牽動著觀眾的心弦,讓人欲罷不能。
然而,在我們還沉浸在對故事劇情的 YY 中時,有人在網(wǎng)上劇透了大結(jié)局!這就相當(dāng)于奧特曼打怪獸時直接甩出大招,于是怪獸被秒殺。故事仿佛還沒開始就已經(jīng)結(jié)束,這讓我們這些影迷一時根本無法接受!
正因如此,AI 研習(xí)社的大賽管理員們想出了全新的應(yīng)對策略,何不利用現(xiàn)有的技術(shù)來做出識別劇透類影評的初步 demo——「劇透判別器」呢?
文字作為載體和線索,在很多情況下,能夠提供比圖像更多的信息。因此,作為計算機(jī)視覺中一個重要的研究課題,文字檢測和識別也隨深度學(xué)習(xí)的興起和發(fā)展,一起進(jìn)入了全新的時代。
從技術(shù)的角度而言,文字檢測通常是通過算法計算判斷在單詞或者文字行層面是否含有文字實例(如果有,則標(biāo)出位置)的過程;而文字識別則更進(jìn)一步,它會在文字檢測基礎(chǔ)之上,再將文字區(qū)域轉(zhuǎn)化為計算機(jī)可讀取和編輯的符號。
目前,文字檢測與識別主要存在三個方面的重大挑戰(zhàn),即:場景文字的多樣性(如文字的顏色、大小、方向、語言、字體等)、圖像背景的干擾(與文字相似的其它物體)以及圖像本身質(zhì)量(噪聲、模糊、非均勻光照等)缺陷帶來的問題。
從上面的介紹來看,文字識別與圖像識別其實大同小異,都需要先抓取對象,再進(jìn)行判斷識別。具體而言,給定一張圖像,我們需要找出這張圖中文字出現(xiàn)的位置,再對位置框中文字類型進(jìn)行分類。
因此,我們可以采用目標(biāo)檢測網(wǎng)絡(luò)來進(jìn)行文本檢測,如 Faster RCNN。但由于文本與物體之間有很多不同特征,如:文字形式、邊緣輪廓、間隔等,該技術(shù)應(yīng)用于文字檢測中的實際效果并不是特別理想。于是在此基礎(chǔ)上,更多適用于文本檢測的方法出現(xiàn)了。
CTPN(Connectionist Text Proposal Network)
這一深度神經(jīng)網(wǎng)絡(luò)很好的解決了文本檢測中一大難點,即:文本行的長度變化問題,并能夠生成更好的 text proposal。
具體而言,CTPN 提出了一個全新的想法,將文本檢測的任務(wù)拆分。首先,我們檢測文本框中的一部分,判斷其是否為文本內(nèi)容;然后我們將屬于同一文本框的每個小文本框合并,從而得到一個完整的文本框,最終完成文本檢測任務(wù)。
除此之外,CTPN 還提出在文本檢測中加入 RNN 來進(jìn)一步提升效果。雖然 RNN 常用于序列模型;但在 CTPN 算法中,組成完整文本框的多個小文本框也可以屬于序列模型,因此使用 RNN 模型可以利用過去或未來的信息來學(xué)習(xí)和預(yù)測,從而提升識別效果。
詳細(xì)論文參考:
SegLink
盡管 CTPN 文本檢測方法能夠在自然場景下較好的實現(xiàn)對文字的檢測,但在處理非水平文本時,該算法則表現(xiàn)出了不太理想的效果。SegLink 正是為了解決這一問題而生出的算法,它可以實現(xiàn)對各種角度文字的靈活檢測。
該算法的檢測過程主要分為三部分,首先檢測生成的各個切片,即上圖中的所有黃色框;接著對這些屬于同一個文本行的黃色框進(jìn)行連接;最后再通過合并算法,將這些切片與鏈接合并為一個完整的文本行,得到完整文本行的檢測位置及旋轉(zhuǎn)角度。整個架構(gòu)采取了 SSD 的思路,在切片檢測上,通過「套框」的方式,對結(jié)果進(jìn)行回歸。
詳細(xì)論文參考:
盡管檢測算法有些難度,但本次 AI 研習(xí)社(https://god.yanxishe.com/)推出的比賽主要考驗的是大家的識別編碼能力,賽題將重心落在了判斷部分。
本次大賽「IMDB 影評劇透檢測」的目標(biāo)為:正確識別測試集影評是否為包含劇透信息。因此,不必要考慮文字不工整、圖像清晰度差等更復(fù)雜的問題。
開始時間:2019-12-30 09:00:00
結(jié)束時間:2020-01-29 00:00:00
大賽提供了免費(fèi)云訓(xùn)練 GPU 資源,以及基礎(chǔ)獎金池為 2000 元~比賽一共設(shè)置了三種獎項,包括了:參與獎(30%)、突破獎(20%)、排名獎(50%),三種獎項互不沖突。
IMDB_movie_details 數(shù)據(jù)集里,包含 1572 部電影信息,train 和 test 都是影評信息,其中訓(xùn)練集有 473913 條,測試集有 100000 條。測試集、訓(xùn)練集正負(fù)樣本比例一致。
其中,一些關(guān)鍵字段說明如下:
movie_id : 電影 ID
user_id: 用戶 ID
review_id: 影評 ID
review_summary: 影評簡介
review_text: 影評信息
is_spoiler: 是否劇透
review_data: 評論時間
rating : 評分
建議使用 Pandas 讀取數(shù)據(jù),如下所示:
數(shù)據(jù)集下載鏈接:
最終提交結(jié)果文件如下所示,其中,第一個字段:測試集 review_id,ID 從 0 開始;;第二個字段:評論是否包含劇透信息,0=沒有,1=劇透。
整個比賽的評審?fù)耆该骰?,我們將會對比選手提交的 csv 文件,確認(rèn)正確識別樣本數(shù)量,按照如下公式計算得分,其中:
True:模型分類正確數(shù)量
Total :測試集樣本總數(shù)量
每日 24:00,我們也會將最新結(jié)果更新在官網(wǎng)排行榜上。
常見問題 Q&A
1、提交結(jié)果無法評分是什么原因?
AI 研習(xí)社:請確認(rèn) csv 文件格式和預(yù)測樣本數(shù)量。格式要求不能含有引號、冒號、逗號、星號等字符。數(shù)量必須與測試集一致。檢查完畢還是無法評分的,請聯(lián)系慕慕。
2、提現(xiàn)遲遲不到賬如何處理?
AI 研習(xí)社:我們會在 3 個工作日內(nèi)處理提現(xiàn)申請,后續(xù)還要經(jīng)過財務(wù)審核,一般不會超過 7 個工作日到賬。提現(xiàn)具體進(jìn)度可以咨詢慕慕。
3、為何 SkyDataLab-AI 云平臺使用時長受限或沒有權(quán)限使用 GPU?
AI 研習(xí)社:想享有 SkyDataLab-AI 云平臺資源(不限時長、GPU)的使用權(quán)限,需通過每個比賽的報名鏈接進(jìn)行跳轉(zhuǎn),即在每個比賽的開始時間和結(jié)束時間期間內(nèi),均享有該權(quán)限,這是天數(shù) SkyDataLab-AI 云平臺給 AI 研習(xí)社提供的服務(wù)。
PS:通過一般注冊方式登錄平臺的用戶,只能免費(fèi)使用 20 小時,且無 GPU 使用權(quán)限
4、SkyDataLab-AI 平臺上傳大數(shù)據(jù)時,瀏覽器為何會崩潰?
AI 研習(xí)社:正常情況下,大數(shù)據(jù)不建議通過瀏覽器上傳,因為會導(dǎo)致瀏覽器內(nèi)存崩潰。
因此,針對超過 20M 的大數(shù)據(jù),可通過如下方式上傳:
sftp -P 59999 用戶名 @sdl.iluvatar.com.cn
5、SkyDataLab-AI 平臺新創(chuàng)建的任務(wù)/之前創(chuàng)建的任務(wù)在啟動時,為何一直顯示處于啟動狀態(tài)?
AI 研習(xí)社:由于該平臺為多名用戶提供環(huán)境,資源為共享模式。當(dāng)任務(wù)一直處于啟動狀態(tài)時,說明資源緊張,所申請的資源需要排隊等待。
PS:以上情況多存在于啟動帶 GPU 的環(huán)境時,由于 GPU 資源有限,且大部分編碼時間并不會使用 GPU,因此,建議在編碼階段創(chuàng)建非 GPU 的資源環(huán)境,使整個平臺資源得到最大利用。
6、SkyDataLab-AI 平臺無法解壓 zip 文件?
AI 研習(xí)社:平臺可直接上傳 zip 文件并提供解壓功能,具體操作如下:
上傳 zip 文件:數(shù)據(jù)管理 -->上傳 -->選擇本地文件 -->點擊需要上傳的 zip 文件;
解壓 zip 文件:數(shù)據(jù)管理 -->找到所需解壓的 zip 文件 -->點擊「操作」列解壓圖標(biāo)。
更多信息,可進(jìn)入?yún)①愔黜摬榭矗?/p>
雷鋒網(wǎng) AI 開發(fā)者 雷鋒網(wǎng) 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。