书籍 Streaming Systems的封面

Streaming Systems

Tyler Akidau

出版时间

2017-10-25

ISBN

9781491983874

评分

★★★★★

标签

编程

书籍介绍

Streaming data is a big deal in big data these days. As more and more businesses seek to tame the massive unbounded data sets that pervade our world, streaming systems have finally reached a level of maturity sufficient for mainstream adoption. With this practical guide, data engineers, data scientists, and developers will learn how to work with streaming data in a conceptual and platform-agnostic way.

Expanded from Tyler Akidau’s popular blog posts "Streaming 101" and "Streaming 102", this book takes you from an introductory level to a nuanced understanding of the what, where, when, and how of processing real-time data streams. You’ll also dive deep into watermarks and exactly-once processing with co-authors Slava Chernyak and Reuven Lax.

You’ll explore:

How streaming and batch data processing patterns compare

The core principles and concepts behind robust out-of-order data processing

How watermarks track progress and completeness in infinite datasets

How exactly-once data processing techniques ensure correctness

How the concepts of streams and tables form the foundations of both batch and streaming data processing

The practical motivations behind a powerful persistent state mechanism, driven by a real-world example

How time-varying relations provide a link between stream processing and the world of SQL and relational algebra

目录
Table of Contents
Preface Or: What Are You Getting Yourself Into Here? vii
Part I The Beam Model
1 Streaming 101 3
Terminology: What Is Streaming? 4

显示全部
用户评论
让我这种大数据门外汉感觉像是在爬泰山,不过读完了就很有收获。最后的 streaming sql和streaming joins没有特别仔细看,因为从这本书出版到现在也有三年了,直接看Flink的实现应该更好。最后这本书总结说Flink的成功要素,第一点就是采纳了Dataflow/Beam的模型,这脸皮能再厚一点吗😂
回看会觉得应该值得更高,但过程中整体的阅读感和内容编排分布上还是很让人磕磕碰碰,扣一星吧。第一作者也太有表达欲和戏精了吧,不过这样的人在对外宣传和向上汇报上总是能很讨喜。毕竟谁不喜欢陌生领域里的自信与笃定。如果作者把后半部分没必要的冗杂重复,分一些到第一部分概念的实现上,那会多好。watermark 那章要不是结合作者一些会议上的 talk,简直云里雾里。虽然示例代码和图例有很多待勘误的地方,如果仔细纠结会造成一些理解偏差,但也算瑕不掩瑜了。偏爱第一部分,估计算得上 The Dataflow Model 这篇论文的详细注解吧。
前几章的动图好评
不知道这书为啥突然火了,但是对绝大数程序员来说,这本书https://book.douban.com/subject/25971366/ 更好用(虽然老了点)
对流处理的基本原理,比如时间窗口,这些的讲解很透彻,尤其是看电子版的还有动画帮助理解
前两章对 processing time 和 event time 的分析很好,watermark 一章比较难懂
一开始感觉讲的有点啰嗦和虚,后面参与了一段时间的 Flink 开发后回来看,觉得这本书对流处理 highlevel 的概念的讲解非常到位。最有收获的是对 stream and table duality 的讲解和最后一章对流处理系统发展历程的回顾。
Read part1, check his talk videos before reading ch3. Skim part2, skip ch8.
还行。 就是感觉作者英语单词有一些用的太复杂 然后有一些节奏太慢。 感觉适合作为一本教科书, 有一些地方太细了 工作中也没考虑过 估计也不需要考虑. 这个书可能更多的是讲的道的内用。 一开始,就讲了最基本的beam 模型。 然后第二部分讲的流与表的关系。 中间穿插了很多 比如想 GCP pub/sub, spark, flink 的例子, 还有很多例子用的GCP dataflow的。 主要还是讲了为什么这样做, 是怎么想的,对于流与表是怎么理解的。 没有教你怎么用spark steam 或者flink。 看看提升一下思维是不错的, 就300页。