# Python 爬虫的研究 ## 1. 基础 ### 1.1 HTTP基本原理 ### 1.2 Web网页基础 ### 1.3 爬虫的基本原理 ### 1.4 Session 与 Cookies ### 1.5 多路加速, 多线程 --- ## 2. 爬虫基本库 ### 2.1 Requests 库的基本使用 ### 2.2 正则表达式 ### 2.3 爬虫解析利器 PyQuery ### 2.4 高效存储 MongoDB ### 2.5 Requests + PyQuery + PyMongo 基本案例实战 --- ## 3. 多种形式爬取 ### 3.1 Ajax 案例 ### 3.2 Selenium 案例 ### 3.3 aiohttp 异步爬虫案例 ### 3.4 Pyppeteer 案例 --- ## 4. 反爬应对 ### 4.1 代理及代理池 ### 4.2 验证码破解 ### 4.3 模拟登录 ### 4.4 JavaScript 逆向 --- ## 5. APP爬虫 ### 5.1 抓包工具使用 Charles ### 5.2 实时处理利器 mitmproxy ### 5.3 Appium 的使用 ### 5.4 自动化工具 airtest ### 5.5 Xposed ### 5.6 APP 逆向 --- ## 6. 智能化解析 ### 6.1 技术 ### 6.2 工具 ### 6.3 算法 ### 6.4 实现 --- ## 7. Scrapy 框架 ### 7.1 Scrapy 基础 ### 7.2 Spider 用法 ### 7.3 Middleware 用法 ### 7.4 Item Pipeline 用法 ### 7.5 动态页面处理 ### 7.6 Scrapy-Redis ### 7.7 Scrapyd 部署工具 ### 7.8 Scrapy 对接 Docker ### 7.9 Scrapy 对接 Kubernetes 并实现定时爬取