學習目標:
熟練掌握urllib.lib庫及requests庫的使用,掌握爬蟲高級技術及Scrapy分布式爬蟲開發。
學習內容:
urllib.lib庫
Python urllib
urllib庫的操作
urllib基本get請求
urllib基本post請求
超時配置與會話對象
代理與API
requests庫
通過pip安裝requests
發送請求
Response對象
身份驗證
Cookies
超時與異常
綜合應用案例
Xpath
1、CSS選擇器
2、Xpath基本介紹
3、Xpath基本語法
4、XPath 軸
5、Xpath的運算符
6、Xpath語法定位
7、反爬蟲技術
爬蟲高級技術
多線程與多進程
代理設置
動態網頁內容的抓取
Selenium
模擬表單登錄
圖片驗證碼識別
Scrapy分布式爬蟲
創建項目與Item
命令行工具
Spiders參數
Scrapy的Feed
數據收集與終端輸出
Scrapy爬蟲問題
Scrapy爬蟲調試 |