如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。
·在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
·构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
·使用分布式计算技术在多台机器上进行分析和建模。
·轻松使用Spark处理多个数据源和格式的大规模数据。
·学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。
·深入高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。