Python网络爬虫权威指南（第2版）

[美] 瑞安 • 米切尔

出版社

人民邮电出版社

出版时间

2019-04-01

ISBN

9787115509260

评分

★★★★★

标签

编程

书籍介绍

本书采用简洁强大的Python语言，全面介绍网页抓取技术，解答诸多常见问题，是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识，重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题，以及各种数据抓取工具和应用程序，帮你深入互联网的每个角落，分析原始数据，获取数据背后的故事，轻松解决遇到的各类网页抓取问题。第2版全面更新，新增网络爬虫模型、Scrapy和并行网页抓取相关章节。

- 解析复杂的HTML页面

- 使用Scrapy框架开发爬虫

- 学习存储数据的方法

- 从文档中读取和提取数据

- 清洗格式糟糕的数据

- 自然语言处理

- 通过表单和登录窗口抓取数据

- 抓取JavaScript及利用API抓取数据

- 图像识别与文字处理

- 避免抓取陷阱和反爬虫策略

- 使用爬虫测试网站

前言　　xi

第一部分　创建爬虫

第1章　初见网络爬虫　　3

1.1　网络连接　　3

1.2　BeautifulSoup 简介　　5

显示全部

用户评论

那个叫小宝的翻译，你说你抄袭第一版一样的也就罢了，108页程序里边变量名从第一版的item改成了word你在109页第十行还是写成item是不是太恶心了。编辑和校对也没仔细工作，差评。

还行

内容不深却很多，包括一般网络知识、常用的模块和框架介绍、数据处理和存储、自然语言处理、图像识别与文字处理、测试、甚至于道德法律规范。对于爬虫的各方面都有介绍，很值得一看。

急需爬虫一只，这只是web爬虫

新手的话，里面的很多例子都需要梯子，慎买。倒是顺着这本书的思路看了好多教学视频，接触了涉及的一些框架，就当看完了吧。

写的不错，适合我这样的小白看

覆盖面较多

例子比较生动，正缺这种絮叨举例的工具书。配合崔庆才服用，效果的确更佳！

单纯介绍selenium处理JS有点不足，建议补充类似“pyexecjs”、“Js2Py”模块的使用会更合适。