数据科学是一门内涵很广的学科,它涉及到统计分析、机器学习以及计算机科学三方面的知识和技能。本书深入浅出、全面系统地介绍了这门学科的内容。
本书分为13章,最初的3章主要介绍数据科学想要解决的问题、常用的IT工具Python以及这门学科所涉及的数学基础。第4-7章主要讨论数据模型,主要包含三方面的内容:一是统计中最经典的线性回归和逻辑回归模型;二是计算机估算模型参数的随机梯度下降法,这是模型工程实现的基础;三是来自计量经济学的启示,主要涉及特征提取的方法以及模型的稳定性。接下来的8-10章主要讨论算法模型,也就是机器学习领域比较经典的模型。这三章依次讨论了监督式学习、生成式模型以及非监督式学习。目前数据科学最前沿的两个领域分别是大数据和人工智能。本书的第11章将介绍大数据中很重要的分布式机器学习,而本书的最后两章将讨论人工智能领域的神经网络和深度学习。
本书通俗易懂,而且理论和实践相结合,可作为数据科学家和数据工程师的学习用书,也适合对数学科学有强烈兴趣的初学者使用。同时也可作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。