Python 3反爬虫原理与绕过实战
韦世东
评分 暂无
本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,最后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点。 韦世东,资深爬虫工程师
Python3网络爬虫宝典
评分 4.9分
《Python3网络爬虫宝典》从实际的爬虫业务需求延伸到知识点和具体实现,并详细介绍了其中的原理。首先带 领读者领略爬虫程序的构成和完整链条,学习自动化工具的应用场景和基本使用;接着介绍了增量爬取的分类和具体实现、基于Redis 的分布式爬虫实现和基于RabbitMQ 的分布式爬虫实现,通过阅读论文和源码剖析详细介绍了高准确率的网页正文自动化提取方法;然后通过源码调试了解