丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

本文作者: 汪思穎 2018-12-31 23:25
導語:實驗數(shù)據(jù)方面,共使用了33種驗證碼方案,涉及網(wǎng)站超過50個,其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個著名網(wǎng)站。

雷鋒網(wǎng) AI 科技評論按,本文作者是西北大學葉貴鑫,他為 AI 科技評論撰寫了關(guān)于 CCS 2018 論文《使用少量樣本破解文本驗證碼》的獨家解讀,內(nèi)容如下,未經(jīng)許可禁止轉(zhuǎn)載。

1. 前言

相信大家在日常上網(wǎng)的時候都會遇到“千奇百怪”的驗證碼,而在種類繁多的驗證碼家族中,文本驗證碼是使用最廣泛的一種,也是我們遇到最多的一種驗證碼方案。近年來,隨著深度學習技術(shù)的突破性發(fā)展,文本驗證碼的安全性也受到了挑戰(zhàn)。通過收集大量目標網(wǎng)站的驗證碼,并訓練一個深度網(wǎng)絡模型,就可以實現(xiàn)對目標網(wǎng)站驗證碼的攻擊。為了抵抗基于深度學習模型的攻擊,一方面,各大網(wǎng)站都采用諸如字符扭曲、粘連、旋轉(zhuǎn),背景混淆,空心字體等多種復雜變換方案來提高文本驗證碼的安全性;另一方面,有些網(wǎng)站采用了諸如前端代碼混淆、關(guān)鍵代碼加密等反分析方式來防止驗證碼被惡意收集和自動爬取,進而通過增大攻擊的成本來降低驗證碼被攻擊的可能性。然而,上述兩種方式真的能夠增強驗證碼的安全性嗎?

接下來,我將介紹一篇ACM CCS 2018上的一篇基于少量樣本構(gòu)建驗證碼求解器的論文:《Yet Another Text Captcha Solver: A Generative Adversarial Network Based Approach》,該論文是由中國西北大學的房鼎益、陳曉江教授團隊、北京大學以及英國蘭卡斯特大學聯(lián)合發(fā)表的。

論文地址:https://dl.acm.org/citation.cfm?doid=3243734.3243754

論文公開了部分源碼:https://github.com/yeguixin/captcha_solver

2. Idea的由來

我們在一次研究小組內(nèi)關(guān)于AI的討論中了解到了Generative Adversarial Networks(GANs),當時我們了解到GANs不僅可以生成目標數(shù)據(jù),而且其改進技術(shù)Conditional Generative Adversarial Networks(CGANs)還可以實現(xiàn)圖像自動標注的任務(如圖像風格間的轉(zhuǎn)換)。

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

圖 1:“RGB->油畫”轉(zhuǎn)換效果圖

既然GANs有強大的生成能力,那么就可能生成海量與目標網(wǎng)站風格類似的驗證碼。CGANs既然可以實現(xiàn)圖像風格間的轉(zhuǎn)換(如圖1所示),那么就能夠去掉圖像中的顏色,換句話說,就可以去掉驗證碼圖像中復雜的混淆背景。上述兩點設想對于減少訓練樣本、降低攻擊成本有至關(guān)重要的作用。具體地,如果能夠自動生成大量的驗證碼,就直接讓攻擊者從手動收集和標注驗證碼的繁重工作中解脫出來,進而降低攻擊成本;如果能夠去掉驗證碼中的背景,就能夠減少訓練樣本的數(shù)量,從而提高模型的識別率。

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

圖 2:預處理結(jié)果示例

然而,事情并沒有我們預想的那樣一帆風順。雖然CGANs可以有效地去除驗證碼的背景(如圖2所示)。但GANs的生成效果卻沒有想象中的好。GANs是通過隨機噪聲或高斯噪聲來生成數(shù)據(jù)的,并且訓練過程中需要大量的真實數(shù)據(jù)作為參考,而當前驗證碼中加入了非常復雜的字符變換,若要訓練驗證碼生成模型,勢必需要更多真實驗證碼作為參考。

既然使用隨機噪聲生成驗證碼需要大量的真實數(shù)據(jù),那么我們就開始考慮使用傳統(tǒng)驗證碼生成器去生成,將生成的驗證碼替換成隨機噪聲作為GANs的輸入,讓GANs對生成的驗證碼做微調(diào)。然后使用鑒別器評估生成的驗證碼的風格是否與真實驗證碼風格類似,即生成數(shù)據(jù)與真實數(shù)據(jù)同分布。于是,我們首先將驗證碼參數(shù)化表示,即所用的字符、字符旋轉(zhuǎn)角度、扭曲程度、所用背景、所用字體等參數(shù)化,然后利用網(wǎng)絡自動調(diào)整生成參數(shù)。這樣就實現(xiàn)了數(shù)據(jù)的自動生成,減少了人工參與的工作量。利用生成的數(shù)據(jù),就可以訓練驗證碼識別模型。為了進一步降低生成數(shù)據(jù)與真實數(shù)據(jù)之間的差別,我們使用了遷移學習技術(shù)調(diào)優(yōu)模型,從而提高模型的泛化能力和識別精度。于是,我們的整個Idea就這樣產(chǎn)生了。

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

圖 3:系統(tǒng)架構(gòu)圖 

3. 系統(tǒng)架構(gòu)和各模塊簡介

該系統(tǒng)主要分為4個模塊(如圖3所示),下面來簡單介紹下各個模塊的功能與作用。

(1)驗證碼合成模塊。合成驗證碼之前,首先需要手動分析組成驗證碼的主要元素(論文中稱為security features),如由哪些字符或數(shù)字組成,字符是否有扭曲和旋轉(zhuǎn)特征,由哪些背景組成等,然后將上述元素參數(shù)化,并賦予初始值生成初始的驗證碼輸入到GANs里面。隨著GANs的訓練,生成器不斷調(diào)整生成參數(shù),直到鑒別器無法鑒別是生成的還是真實的驗證碼。為了保證風格的一致性,我們使用了500個真實驗證碼參與到訓練過程中。訓練好生成器后,便可以生成大量的驗證碼用于構(gòu)建初始的驗證碼求解器。需要說明的是,對于有背景的驗證碼,需要分別生成有背景和無背景的驗證碼,以便進行下一步的預處理。特別地,為了生成無背景的驗證碼,只需要將背景的那一項參數(shù)置為NULL。

(2)預處理模塊。這一模塊主要針對具有背景或空心字體的驗證碼而設計的,主要目的是去除復雜的混淆背景,或者統(tǒng)一字體類型,以減少使用訓練數(shù)據(jù)的數(shù)量,進而降低模型的復雜度、加快模型收斂速度。我們使用了Pix2Pix模型來完成這一步驟。以復雜混淆背景驗證碼為例(如圖2所示),訓練時輸入有背景的驗證碼,同時輸入無背景驗證碼作為參考數(shù)據(jù)。由于生成器使用了L1 Loss,能夠很好的處理圖像中的低頻部分(圖像的色塊),故根據(jù)目標函數(shù),生成器通過調(diào)整模型參數(shù),最終能夠?qū)⒂斜尘暗尿炞C碼轉(zhuǎn)換成無背景的驗證碼。

(3)驗證碼識別模型的構(gòu)建。該驗證碼識別模型使用生成數(shù)據(jù)來構(gòu)建,對于每一種類型的驗證碼,我們使用了20萬生成數(shù)據(jù),利用LeNet-5來構(gòu)建驗證碼識別模型,與LeNet-5稍有不同,我們增加了2層卷積層和3層池化層來增強其模型的識別能力。其中,每一層卷積層的卷積核大小為3*3,在池化層中使用了max-pooling。

(4)模型優(yōu)化。為了進一步縮小生成數(shù)據(jù)與真實數(shù)據(jù)之間的差異,我們使用了遷移學習,利用少量的真實樣本,將(3)中的模型進行調(diào)優(yōu)。由于CNN模型的后面幾層是更為抽象的特征,而由于真實樣本數(shù)量的限制,我們的生成器在抽象特征上面與真實數(shù)據(jù)存在差異,故需要訓練和調(diào)整模型后面幾層的參數(shù),并保持前面幾層的參數(shù)不變。

4. 簡單說說實驗

實驗數(shù)據(jù)方面,共使用了33種驗證碼方案,涉及網(wǎng)站超過50個,其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個著名網(wǎng)站。對于每一種驗證碼,自動或手動收集和標記1500個真實驗證碼,其中500個用于訓練生成器和調(diào)優(yōu)CNN模型,1000個用于測試。實驗結(jié)果表明,我們方法不僅識別率明顯高于state-of-the-arts(如圖5所示),而且時間開銷明顯要?。ㄈ鐖D4所示)。對于有些驗證碼方案,我們的方法的識別率高于了人類的識別率。

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

圖 4:當前網(wǎng)站驗證碼識別結(jié)果圖

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

圖 5:與 state-of-the-arts 比較結(jié)果圖

5. 如何應對

為了緩解此類攻擊,建議網(wǎng)站同時使用多套驗證碼方案,驗證碼中每個字符都使用不同的字體和風格,并且需要頻繁的更新(最好更新頻率為一天)驗證碼方案,以增加攻擊的成本使攻擊難以成功。但這只是暫時的緩解措施,并不能從根源上增強驗證碼的安全性,而且復雜的驗證碼方案由于用戶友好性差并不能很好的推廣使用。我們也相信,資深的攻擊者(或者黑產(chǎn))會以更高的效率和更短的時間來發(fā)起攻擊。目前,我們正致力于新的文本驗證碼生成方案。

6. 對當前網(wǎng)站驗證碼的安全性分析和思考

我們發(fā)現(xiàn),有些網(wǎng)站后臺使用了機器人自動檢測技術(shù),即根據(jù)輸入驗證碼時的輸入速度、但應時間等行為特征來判斷前端操作是人還是計算機自動程序。然而,我們近期的研究發(fā)現(xiàn),這種檢測技術(shù)也可以被騙過。若故意在相鄰的兩個操作之間間隔一定的時間,就可以很輕松的繞過這種檢測機制。利用我們訓練好的驗證碼識別模型,在兩個仍然使用文本驗證碼的主流網(wǎng)站(其中一個使用了機器人自動檢測技術(shù))上進行了實驗,大多數(shù)情況下攻擊一次就成功了。

我們通過該研究來提高業(yè)界對驗證碼安全性的重視和關(guān)注,并呼吁業(yè)界開發(fā)和使用更加安全、用戶更友好的驗證碼方案,也希望能與業(yè)界一道,在身份認證技術(shù)上,尋求更高的突破。

【延申閱讀】

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

西北大學-愛迪德物聯(lián)網(wǎng)信息安全聯(lián)合實驗室(NISL)

2009年7月,西北大學與國際知名的數(shù)字電視領(lǐng)先技術(shù)提供商愛迪德(Irdeto)公司共同組建了“西北大學-愛迪德物聯(lián)網(wǎng)信息安全國際聯(lián)合實驗室”,主要開展:

(1)無線網(wǎng)絡、傳感網(wǎng)與物聯(lián)網(wǎng)基礎理論、關(guān)鍵技術(shù)、軟硬件設計及其在大型遺址保護和野生動物監(jiān)測中的示范應用;

(2)移動互聯(lián)網(wǎng)、工業(yè)網(wǎng)絡與家庭及個人網(wǎng)絡安全技術(shù);

(3)軟件安全、代碼混淆與虛擬機技術(shù)相結(jié)合的軟件保護技術(shù)。

實驗室先后承擔了國家自然科學基金、中歐國際合作計劃、國家科技支撐計劃等多項國家和省部級科研項目,擁有“WSN非均勻分簇路由方法”、“移動目標定位”、“透明加解密”和“文本信息隱藏”等20余項發(fā)明專利,開發(fā)了具有自主知識產(chǎn)權(quán)的土遺址監(jiān)測專用傳感節(jié)點、用于野生動物監(jiān)測的WSN網(wǎng)關(guān)和多模數(shù)據(jù)傳輸基站。已在陜北明長城、西安市含光門、大明宮遺址初步應用。與意大利SALENTO大學、加拿大VITORIA大學和荷蘭Irdeto公司建立了密切合作關(guān)系。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CCS 2018論文解讀:使用少量樣本破解文本驗證碼

分享:
相關(guān)文章

編輯

關(guān)注AI學術(shù),例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說