书籍 基于R语言的自动数据收集的封面

基于R语言的自动数据收集

[德] Simon Munzert, [德] Christian Rubba, [德] Peter Meipner, [德] Dominic Nyhuis

出版时间

2016-03-01

ISBN

9787111527503

评分

★★★★★
书籍介绍
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。 本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
用户评论
内容安排非常详细,不只是爬虫,连带网络通信原理,常用的数据类型都进行了足够的介绍。更难能可贵的是,翻译也很棒
067. @20161111. 做个补记。其实写的很好,对网络基础给予了足够的讲解,但总感觉深度不够。
不错,书的好处就是基础知识框架和延伸资料给你梳理的明明白白的,实例嘛,初期阶段还是视频和图文资料教学效果更好
还算比较实用的一本书
看不懂啊。。
太爱了
有点难度的,但是能从细微之处看出译者很用心,代码不错
书不错,翻译良心
Z-Library