0
本文作者: AI研習(xí)社 | 2020-07-31 14:51 |
為什么寫這本書 · · · · · ·
網(wǎng)絡(luò)爬蟲其實(shí)很早就出現(xiàn)了,最開始網(wǎng)絡(luò)爬蟲主要應(yīng)用在各種搜索引擎中。在搜索引擎中,主要使用通用網(wǎng)絡(luò)爬蟲對網(wǎng)頁進(jìn)行爬取及存儲(chǔ)。 隨著大數(shù)據(jù)時(shí)代的到來,我們經(jīng)常需要在海量數(shù)據(jù)的互聯(lián)網(wǎng)環(huán)境中搜集一些特定的數(shù)據(jù)并對其進(jìn)行分析,我們可以使用網(wǎng)絡(luò)爬蟲對這些特定的數(shù)據(jù)進(jìn)行爬取,并對一些無關(guān)的數(shù)據(jù)進(jìn)行過濾,將目標(biāo)數(shù)據(jù)篩選出來。對特定的數(shù)據(jù)進(jìn)行爬取的爬蟲,我們將其稱為聚焦網(wǎng)絡(luò)爬蟲。
在大數(shù)據(jù)時(shí)代,聚焦網(wǎng)絡(luò)爬蟲的應(yīng)用需求越來越大。 目前在國內(nèi)Python網(wǎng)絡(luò)爬蟲的書籍基本上都是從國外引進(jìn)翻譯的,國內(nèi)的本版書籍屈指可數(shù),故而我跟華章的副總編楊福川策劃了這本書。本書的撰寫過程中各方面的參考資料非常少,因此完成本書所花費(fèi)的精力相對來說是非常大的。
本書從系統(tǒng)化的視角,為那些想學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲或者正在研究Python網(wǎng)絡(luò)爬蟲的朋友們提供了一個(gè)全面的參考,讓讀者可以系統(tǒng)地學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲的方方面面,在理解并掌握了本書的實(shí)例之后,能夠獨(dú)立編寫出自己的Python網(wǎng)絡(luò)爬蟲項(xiàng)目,并且能夠勝任Python網(wǎng)絡(luò)爬蟲工程師相關(guān)崗位的工作。
同時(shí),本書的另一個(gè)目的是,希望可以給大數(shù)據(jù)或者數(shù)據(jù)挖掘方向的從業(yè)者一定的參考,以幫助這些讀者從海量的互聯(lián)網(wǎng)信息中爬取需要的數(shù)據(jù)。所謂巧婦難為無米之炊,有了這些數(shù)據(jù)之后,從事大數(shù)據(jù)或者數(shù)據(jù)挖掘方向工作的讀者就可以進(jìn)行后續(xù)的分析處理了。
本書是一本系統(tǒng)介紹Python網(wǎng)絡(luò)爬蟲的書籍,全書注重實(shí)戰(zhàn),涵蓋網(wǎng)絡(luò)爬蟲原理、如何手寫Python網(wǎng)絡(luò)爬蟲、如何使用Scrapy框架編寫網(wǎng)絡(luò)爬蟲項(xiàng)目等關(guān)于Python網(wǎng)絡(luò)爬蟲的方方面面。
本書的主要特色如下: 系統(tǒng)講解Python網(wǎng)絡(luò)爬蟲的編寫方法,體系清晰。 結(jié)合實(shí)戰(zhàn),讓讀者能夠從零開始掌握網(wǎng)絡(luò)爬蟲的基本原理,學(xué)會(huì)編寫Python網(wǎng)絡(luò)爬蟲以及Scrapy爬蟲項(xiàng)目,從而編寫出通用爬蟲及聚焦爬蟲,并掌握常見網(wǎng)站的爬蟲反屏蔽手段。 有配套免費(fèi)視頻,對于書中的難點(diǎn),讀者可以直接觀看作者錄制的對應(yīng)視頻,加深理解。 擁有多個(gè)爬蟲項(xiàng)目編寫案例,比如博客類爬蟲項(xiàng)目案例、圖片類爬蟲項(xiàng)目案例、模擬登錄爬蟲項(xiàng)目等。除此之外,還有很多不同種類的爬蟲案例,可以讓大家在理解這些案例之后學(xué)會(huì)各種類型爬蟲的編寫方法。
總之,在理解本書內(nèi)容并掌握書中實(shí)例之后,讀者將能勝任Python網(wǎng)絡(luò)爬蟲工程師方向的工作并學(xué)會(huì)各種類型網(wǎng)絡(luò)爬蟲項(xiàng)目的編寫。此外,本書對于大數(shù)據(jù)或數(shù)據(jù)挖掘方向的從業(yè)者也非常有幫助,比如可以利用Python網(wǎng)絡(luò)爬蟲輕松獲取所需的數(shù)據(jù)信息等。
本書面向的讀者
Python網(wǎng)絡(luò)爬蟲初學(xué)者
網(wǎng)絡(luò)爬蟲工程師
大數(shù)據(jù)及數(shù)據(jù)挖掘工程師
高校計(jì)算機(jī)專業(yè)的學(xué)生
其他對Python或網(wǎng)絡(luò)爬蟲感興趣的人員
作者簡介 · · · · · ·
重慶韜翔網(wǎng)絡(luò)科技有限公司董事長兼CEO,51CTO、CSDN講師,《知道日報(bào)》特約作者,國家工信部高級(jí)網(wǎng)絡(luò)營銷師,蜻蜓FM獨(dú)家簽約主播。 多年IT技術(shù)實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn),曾做過程序員,也做過技術(shù)總監(jiān),現(xiàn)在運(yùn)營一家專注于中大型軟件開發(fā)與IT技術(shù)服務(wù)的公司。 曾出品發(fā)行過多門IT類課程,包括但不限于《Python系列實(shí)戰(zhàn)教程》、《Python GUI系列實(shí)戰(zhàn)教程》、《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)教程》、《Nginx運(yùn)維實(shí)戰(zhàn)教程》。
補(bǔ)充說明 · · · · · ·
本站所有資源版權(quán)均屬于原作者所有,這里所提供資源均只能用于參考學(xué)習(xí)用,請勿直接商用。如需刪除,請聯(lián)系 kefu@yanxishe.com
AI 研習(xí)社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達(dá)成聯(lián)系,幫助大家更好地求職找工作,一鍵投遞簡歷至 HR 后臺(tái),準(zhǔn)備了一些內(nèi)推渠道群。
歡迎大家添加研習(xí)社小學(xué)妹微信(aiyanxishe),小學(xué)妹拉你加入(備注求職)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
資料 | 圖靈程序設(shè)計(jì)叢書:深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)
資料 | NLP漢語自然語言處理原理與實(shí)踐 作者鄭捷
資料 | 數(shù)字圖像處理與機(jī)器視覺Visual C++與Matlab實(shí)現(xiàn) 作者張錚
資料 | Python 機(jī)器學(xué)習(xí)基礎(chǔ)教程
資料 | O'Reilly精品圖書系列:算法精解 C 語言描述 (簡體中文)
資料 | 白話深度學(xué)習(xí)與TensorFlow
資料 | 編寫高質(zhì)量Python代碼的59個(gè)有效方法
資料 | JavaScript框架設(shè)計(jì) 第二版
資料 | 算法(第4版)【圖靈程序設(shè)計(jì)叢書】算法領(lǐng)域的經(jīng)典參考書
資料 |世界著名計(jì)算機(jī)教材精選:數(shù)據(jù)挖掘十大算法(中文版)
資料 | 樹莓派Python編程入門與實(shí)戰(zhàn)
資料 | 《人工智能編程范式:通用Lisp中的案例研究》1048頁P(yáng)DF免費(fèi)下載
資料 | Yann LeCun「人工智能發(fā)展的挑戰(zhàn)在于無監(jiān)督學(xué)習(xí)」原版演講PPT
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。