书籍 Python网络爬虫权威指南(第2版)的封面

Python网络爬虫权威指南(第2版)

[美] 瑞安 • 米切尔

出版时间

2019-04-01

ISBN

9787115509260

评分

★★★★★

标签

编程

书籍介绍

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。

- 解析复杂的HTML页面

- 使用Scrapy框架开发爬虫

- 学习存储数据的方法

- 从文档中读取和提取数据

- 清洗格式糟糕的数据

- 自然语言处理

- 通过表单和登录窗口抓取数据

- 抓取JavaScript及利用API抓取数据

- 图像识别与文字处理

- 避免抓取陷阱和反爬虫策略

- 使用爬虫测试网站

目录
前言  xi
第一部分 创建爬虫
第1章 初见网络爬虫  3
1.1 网络连接  3
1.2 BeautifulSoup 简介  5

显示全部
用户评论
那个叫小宝的翻译,你说你抄袭第一版一样的也就罢了,108页程序里边变量名从第一版的item改成了word你在109页第十行还是写成item是不是太恶心了。编辑和校对也没仔细工作,差评。
还行
内容不深却很多,包括一般网络知识、常用的模块和框架介绍、数据处理和存储、自然语言处理、图像识别与文字处理、测试、甚至于道德法律规范。对于爬虫的各方面都有介绍,很值得一看。
急需爬虫一只,这只是web爬虫
新手的话,里面的很多例子都需要梯子,慎买。倒是顺着这本书的思路看了好多教学视频,接触了涉及的一些框架,就当看完了吧。
写的不错,适合我这样的小白看
覆盖面较多
例子比较生动,正缺这种絮叨举例的工具书。配合崔庆才服用,效果的确更佳!
单纯介绍selenium处理JS有点不足,建议补充类似“pyexecjs”、“Js2Py”模块的使用会更合适。