同时提供Python和R代码
快速掌握数据科学中的核心统计学概念
数据分析面试常备
◎ 编辑推荐
统计方法是数据科学的重要组成部分,但鲜有数据科学从业人员接受过正规的统计学教育或培训,而关于统计学基础的课程和教材又很少从数据科学的角度讲解。本书以通俗易懂、分门别类的方式,专门从数据科学的角度系统地阐释重要且实用的统计学概念,侧重于介绍如何将各种统计方法应用于数据科学。
Python和R都是数据科学从业人员常用的语言。与第1版相比,本书第2版新增了更多Python示例。你将能够更全面地了解如何在数据科学项目中正确运用各种统计方法,系统梳理数据科学中的核心统计学概念,透彻理解哪些统计学概念重要、哪些不那么重要,以及为什么是这样。此外,本书还可以帮助你充分准备好应对数据科学面试。
通过本书,你将掌握以下知识。
- 为什么探索性数据分析是开启数据科学任务的关键一步
- 随机抽样如何降低偏差并提高数据集的质量
- 实验设计原则如何针对问题生成确定性答案
- 如何使用回归方法估计结果并检测异常
- 用于预测记录所属类别的主要分类方法
- 从数据中“学习”的统计机器学习方法
- 从未标记的数据中提取信息的无监督学习方法
◎ 内容简介
本书解释了数据科学中至关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第 2 版在第 1 版的基础上加入了更多以Python 和 R 编写的示例,更清楚地阐释了如何将统计方法用于数据科学。
彼得·布鲁斯(Peter Bruce)
Statistics.com统计学教育学院创始人兼院长,重采样统计软件Resampling Stats的开发者,美国统计协会职业发展咨询委员会成员。
安德鲁·布鲁斯(Andrew Bruce)
亚马逊数据科学家、华盛顿大学统计学博士,拥有30余年的统计学和数据科学经验。
彼得·格德克(Peter Gedeck)
数据科学家,拥有30余年的科学计算和数据科学经验,善于开发机器学习算法。