书籍介绍
本书以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。
本书共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。
本书适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。
刘军,1994年至2003年,就读于北京邮电大学信息工程学院,获得博士学位。2003年至2007年,IBM中国研究院担任高级研究员及部门经理,研究方向为电信开放业务平台及IP融合网络管理。2007年至2012年,创办欢城(北京)科技有限公司,为中国网页游戏产业开创者之一,研发的产品曾多次获得互联网业界奖项。2012年至今,北邮任教,在宽带网络监控教研中心从事电信网络数据分析相关教学与研究工作。