簡體書 » 精通Python網絡爬蟲：核心技術、框架與項目實戰

精通Python網絡爬蟲：核心技術、框架與項目實戰

定價：~~414~~ 元

NT $ 360

作者：韋瑋
出版社：機械工業出版社
出版日期：2017-03-01
語言：簡體中文
ISBN10：7111562089
ISBN13：9787111562085
裝訂：294頁 / 普通級 / 1-1

內容簡介

這是一本實戰性的網絡爬蟲秘笈，不僅講解了如何編寫爬蟲，而且還講解了流行的網絡爬蟲的使用。全書分為4個部分：第壹部分對網絡爬蟲做了概要性的介紹，主要介紹了網絡爬蟲的常識和所涉及的技術概覽；第二部分是本書的重點之一，詳細講解了網絡爬蟲的核心技術，包括網絡爬蟲的實現原理與實現技術、Urllib庫和URLError庫的異常處理、正則表達式與Cookie的使用、Fiddler的使用、爬蟲的瀏覽器偽裝技術、爬蟲的定向抓取技術等；第三部分講解了流行的爬蟲框架Scrapy的使用、架構和高級應用，是目前關於Scrapy詳細的講解；第四部分是3個實戰案例，講解了博客爬蟲、圖片爬蟲和模擬登陸爬蟲的編寫方法。

韋瑋，10年開發經驗的Python程序員，精通網絡爬蟲和機器學習，目前擔任重慶韜翔網絡科技有限公司聯合創始人兼CEO。CSDN特約IT專家，51CTO學院特聘專家講師，極客學院布道師，《知道日報》特約作者，IT168微學堂特約嘉賓，國家專利發明人，多年IT從業經驗，曾出品發行過多門IT課程並獲得大量學員的支持與喜愛。

前言
第一篇理論基礎篇
第1章什麼是網絡爬蟲3
1.1初識網絡爬蟲3
1.2為什麼要學網絡爬蟲4
1.3網絡爬蟲的組成5
1.4網絡爬蟲的類型6
1.5爬蟲擴展——聚焦爬蟲7
1.6小結8
第2章網絡爬蟲技能總覽9
2.1網絡爬蟲技能總覽圖9
2.2搜索引擎核心10
2.3用戶爬蟲的那些事兒11
2.4小結12

第二篇核心技術篇
第3章網絡爬蟲實現原理與實現技術15
3.1網絡爬蟲實現原理詳解15
3.2爬行策略17
3.3網頁更新策略18
3.4網頁分析算法20
3.5身份識別21
3.6網絡爬蟲實現技術21
3.7實例——metaseeker22
3.8小結27
第4章 Urllib庫與URLError異常處理29
4.1什麼是Urllib庫29
4.2快速使用Urllib爬取網頁30
4.3瀏覽器的模擬——Headers屬性34
4.4超時設置37
4.5HTTP協議請求實戰39
4.6代理服務器的設置44
4.7DebugLog實戰45
4.8異常處理神器——URLError實戰46
4.9小結51
第5章正則表達式與Cookie的使用52
5.1什麼是正則表達式52
5.2正則表達式基礎知識52
5.3正則表達式常見函數61
5.4常見實例解析64
5.5什麼是Cookie66
5.6Cookiejar實戰精析66
5.7小結71
第6章手寫Python爬蟲73
6.1圖片爬蟲實戰73
6.2鏈接爬蟲實戰78
6.3糗事百科爬蟲實戰80
6.4微信爬蟲實戰82
6.5什麼是多線程爬蟲89
6.6多線程爬蟲實戰90
6.7小結98
第7章學會使用Fiddler99
7.1什麼是Fiddler99
7.2爬蟲與Fiddler的關系100
7.3Fiddler的基本原理與基本界面100
7.4Fiddler捕獲會話功能102
7.5使用QuickExec命令行104
7.6Fiddler斷點功能106
7.7Fiddler會話查找功能111
7.8Fiddler的其他功能111
7.9小結113
第8章爬蟲的瀏覽器偽裝技術114
8.1什麼是瀏覽器偽裝技術114
8.2瀏覽器偽裝技術准備工作115
8.3爬蟲的瀏覽器偽裝技術實戰117
8.4小結121
第9章爬蟲的定向爬取技術122
9.1什麼是爬蟲的定向爬取技術122
9.2定向爬取的相關步驟與策略123
9.3定向爬取實戰124
9.4小結130

第三篇框架實現篇
第10章了解Python爬蟲框架133
10.1什麼是Python爬蟲框架133
10.2常見的Python爬蟲框架133
10.3認識Scrapy框架134
10.4認識Crawley框架135
10.5認識Portia框架136
10.6認識newspaper框架138
10.7認識Python—goose框架139
10.8小結140
第11章爬蟲利器——Scrapy安裝與配置141
11.1在Windows7下安裝及配置Scrapy實戰詳解141
11.2在Linux（Centos）下安裝及配置Scrapy實戰詳解147
11.3在MAC下安裝及配置Scrapy實戰詳解158
11.4小結161
第12章開啟Scrapy爬蟲項目之旅162
12.1認識Scrapy項目的目錄結構162
12.2用Scrapy進行爬蟲項目管理163
12.3常用工具命令166
12.4實戰：Items的編寫181
12.5實戰：Spider的編寫183
12.6XPath基礎187
12.7Spider類參數傳遞188
12.8用XMLFeedSpider來分析XML源191
12.9學會使用CSVFeedSpider197
12.10Scrapy爬蟲多開技能200
12.11避免被禁止206
12.12小結212
第13章 Scrapy核心架構214
13.1初識Scrapy架構214
13.2常用的Scrapy組件詳解215
13.3Scrapy工作流217
13.4小結219
第14章 Scrapy中文輸出與存儲220
14.1Scrapy的中文輸出220
14.2Scrapy的中文存儲223
14.3輸出中文到JSON文件225
14.4小結230
第15章編寫自動爬取網頁的爬蟲231
15.1實戰：items的編寫231
15.2實戰：pipelines的編寫233
15.3實戰：settings的編寫234
15.4自動爬蟲編寫實戰234
15.5調試與運行239
15.6小結242
第16章 CrawlSpider243
16.1初識CrawlSpider243
16.2鏈接提取器244
16.3實戰：CrawlSpider實例245
16.4小結249
第17章 Scrapy高級應用250
17.1如何在Python3中操作數據庫250
17.2爬取內容寫進MySQL254
17.3小結259

第四篇項目實戰篇
第18章博客類爬蟲項目263
18.1博客類爬蟲項目功能分析263
18.2博客類爬蟲項目實現思路264
18.3博客類爬蟲項目編寫實戰264
18.4調試與運行274
18.5小結275
第19章圖片類爬蟲項目276
19.1圖片類爬蟲項目功能分析276
19.2圖片類爬蟲項目實現思路277
19.3圖片類爬蟲項目編寫實戰277
19.4調試與運行281
19.5小結282
第20章模擬登錄爬蟲項目283
20.1模擬登錄爬蟲項目功能分析283
20.2模擬登錄爬蟲項目實現思路283
20.3模擬登錄爬蟲項目編寫實戰284
20.4調試與運行292
20.5小結294

看更多