书籍 Python大数据处理库PySpark实战的封面

Python大数据处理库PySpark实战

汪明

出版时间

2021-01-31

ISBN

9787302575085

评分

★★★★★
书籍介绍

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。

本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。

本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

目录
第1章 大数据时代 1
1.1 什么是大数据 1
1.1.1 大数据的特点 2
1.1.2 大数据的发展趋势 3
1.2 大数据下的分析工具 4

显示全部
用户评论
东拼西凑,没有干货。一段代码明明下一段只是加了两行,又全部粘贴一遍,感觉凑字数。如果想入门,看完后一定依旧无从下手
全网最低价,日常33¥左右,偶尔55¥,兄弟萌不冲等什么? 老实说书写的不错,算是较为不错的良心书了,推荐了 棒(👍)