书籍 深入理解SPARK的封面

深入理解SPARK

耿嘉安

出版时间

2016-01-01

ISBN

9787111522348

评分

★★★★★
书籍介绍

《深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。

《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。

本书分为三篇:

准备篇(第1~2章),介绍了Spark的环境搭建、设计理念与基本架构,帮助读者了解一些背景知识。

核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容,读者可以通过源码剖析更加深入理解Spark的核心设计与实现,以便在实际使用中能够快速解决线上问题并对性能进行调优。

扩展篇(第8~11章),主要讲解基于Spark核心的各种扩展及应用,包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容,读者可以扩展实际项目中对Spark的应用场景,让Spark焕发活力。

目录
前言
准 备 篇
第1章 环境准备 2
1.1 运行环境准备 2
1.1.1 安装JDK 3

显示全部
用户评论
到处贴源码贴的很细,问题是好多贴了不讲没用啊
没有读完,确实太多代码的堆砌了,逻辑性差了很多,和自己读代码已经没有太大的区别。另外Spark发展太快,于是版本也就显得有些过时了。
大概3年前了 感觉还是不错的书 基于spark1.2.0版本剖析源码 计算模型、存储模型以及调度体系都给出了非常完备的介绍和解析 其实作者能给出这样一个读源码的框架就很不错了 贴代码也是无奈之举。 spark的shuffle逻辑是性能损耗的关键 针对这里的优化也是重中之重。另外它的图操作graphx也挺有意思的 只不过中国绝大多数互联网公司没有这方面的应用 graph里面的核心算法还是用到了diijkstra算法
成段成段的源码,对这种堆砌式的写作无感。
全书都是讲解代码,可以说是代码的注释。不过讲解的体系结构对于阅读源码还是有帮助的;另外使用的Spark版本是1.2.3为主,阅读新的源码还是以最新发布的为主。
图还是挺到位的,每个步骤和部件解释的能引导下来,但是就是版本稍微旧了一点,spark新的版本中把actor通信换成了netty,找个新版本的spark源码对照看,大体差不多,逻辑性变化不是太大。图和机器学习就比较笼统了。前面可以对照新版本深入看一下。代码都是截图,分析较少,但是可以跟着顺一遍。
flag,两周。 一刷。图计算这块是个坑。