Python網絡數據采集

Python網絡數據采集
定價:354
NT $ 308
 

內容簡介

本書采用簡潔強大的Python語言,介紹了網絡數據采集,並為采集新式網絡中的各種數據類型提供了全面的指導。第1部分重點介紹網絡數據采集的基本原理:如何用Python從網絡服務器請求信息,如何對服務器的響應進行基本處理,以及如何以自動化手段與網站進行交互。第二部分介紹如何用網絡爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網絡。

Ryan Mitchell米切爾,是數據科學家、軟件工程師,目前在波士頓Linke Drive公司負責開發公司的APl和數據分析工具。此前.曾在A bine公司構建網絡爬蟲和網絡機器人。她經常做網絡數據采集項目的咨詢工作,主要面向金融和零售業。另着有Instant Web Scraping with java。
 

目錄

譯者序
前言
第一部分 創建爬蟲
第1章 初見網絡爬蟲
1.1 網絡連接
1.2 BeautifulSoup簡介
1.2.1 安裝BeautifulSoup
1.2.2 運行BeautifulSoup
1.2.3 可靠的網絡連接
第2章 復雜HTML解析
2.1 不是一直都要用錘子
2.2 再端一碗BeautifulSoup
2.2.1 BeautifulSoup的find()和findAll()
2.2.2 其他BeautifulSoup對象
2.2.3 導航樹
2.3 正則表達式
2.4 正則表達式和BeautifulSoup
2.5 獲取屬性
2.6 Lambda表達式
2.7 超越BcautifulSoup
第3章 開始采集
3.1 遍歷單個域名
3.2 采集整個網站
3.3 通過互聯網采集
3.4 用Scrapy采集
第4章 使用API
4.1 API概述
4.2 API通用規則
4.2.1 方法
4.2.2 驗證
4.3 服務器響應
4.4 Echo Nest
4.5 Twitter API
4.5.1 開始
4.5.2 幾個示例
4.6 Google API
4.6.1 開始
4.6.2 幾個示例
4.7 解析JSON數據
4.8 回到主題
4.9 再說一點API
第5章 存儲數據
5.1 媒體文件
5.2 把數據存儲到CSV
5.3 MySQL
5.3.1 安裝MySQL
5.3.2 基本命令
5.3.3 與Python整合
5.3.4 數據庫技術與最佳實踐
5.3.5 MySQL里的「六度空間游戲」
5.4 Email
第6章 讀取文檔
6.1 文檔編碼
6.2 純文本
6.3 CSV
6.4 PDF
6.5 微軟Word和.docx
第二部分 高級數據采集
第7章 數據清洗
7.1 編寫代碼清洗數據
7.2 數據存儲后再清洗
第8章 自然語言處理
8.1 概括數據
8.2 馬爾可夫模型
8.3 自然語言工具包
8.3.1 安裝與設置
8.3.2 用NLTK做統計分析
8.3.3 用NLTK做詞性分析
8.4 其他資源
第9章 穿越網頁表單與登錄窗口進行采集
9.1 Python Requests庫
9.2 提交一個基本表單
9.3 單選按鈕、復選框和其他輸入
9.4 提交文件和圖像
9.5處理登錄和cookie
9.6其他表單問題
第10章 采集JavaScript
10.1 JavaScript簡介
10.2 jax和動態HTML
10.3 處理重定向
第11章 圖像識別與文字處理
11.1 OCR庫概述
11.1.1 Pillow
11.1.2 Tesseract
11.1.3 NumPy
11.2 處理格式規范的文字
11.3 讀取驗證碼與訓練Tesseract
11.4 獲取驗證碼提交答案
第12章 避開采集陷阱
12.1 道德規范
12.2 讓網絡機器人看起來像人類用戶
12.2.1 修改請求頭
12.2.2 處理cookie
12.2.3 時間就是一切
12.3 常見表單安全措施
12.3.1 隱含輸入字段值
12.3.2 避免蜜罐
12.4 問題檢查表
第13章 用爬蟲測試網站
13.1 測試簡介
13.2 Python單元測試
13.3 Selenium單元測試
13.4 Python單元測試與Selenium單元測試的選擇
第14章 遠程采集
14.1 為什麼要用遠程服務器
14.1.1 避免IP地址被封殺
14.1.2 移植性與擴展性
14.2 Tor代理服務器
14.3 遠程主機
14.3.1 從網站主機運行
14.3.2 從雲主機運行
14.4 其他資源
14.5 勇往直前
附錄A Python簡介
附錄B 互聯網簡介
附錄C 網絡數據采集的法律與道德約束
作者簡介
封面介紹
網路書店 類別 折扣 價格
  1. 新書
    87
    $308