前 言
为什么写这本书
曾记得第一次接触R语言是2012年读研的时候,学校开设了一门R软件与统计应用的课程,课堂上杨晓蓉老师采用深入浅出的教学方式将我们带入到R语言的奇幻世界。之所以称之为奇幻世界,是因为这门面向对象的编程语言是如此的简单和强大,借助于R语言可以绘制各种高质量的统计图形、完成统计学中的各种假设检验和模型构建,甚至可以轻松落地各种机器学习算法的实战。
当笔者踏入社会、走上工作岗位之后,发现几乎所有的数据分析或挖掘相关的岗位都要求应聘者至少掌握一门统计类的分析工具,例如R语言、Python、SPSS以及SAS等。庆幸的是,自己在学校期间掌握了R语言的基本用法和统计建模,进而使得自己顺利地进入一家乙方咨询公司,开始了数据分析与挖掘之旅。所以,如果读者想从事数据相关的岗位,还是需要掌握一门编程工具的。本书可以带你从入门到进阶地学习和掌握R语言在工作中的使用。
在笔者看来,R语言绝对是一把大数据领域中的利器,其具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,是在数据分析或挖掘工作中的佼佼者。利用R语言可以解决数据环节中的各项任务,例如清洗各种常见的脏数据、绘制各式各样的统计图形,以及构建各类有监督、无监督和半监督的机器学习算法。所以说,利用R语言这把利器可以使你的数据分析或挖掘工作变得更加简单,解决问题时也会游刃有余。
2015年9月份,笔者申请了微信公众号,并取名为“数据分析1480”,目前已发布超过500篇文章,其中就有一部分R语言相关的内容。自己写公众号的初衷主要有两个:一个是将自己所学、所知的内容记录下来,作为自己的知识沉淀;另一个是尽自己的微博之力,把记录下来的点点滴滴分享给更多热爱或从事数据分析或挖掘工具的朋友。遗憾的是,公众号的内容并没有形成系统的知识框架,不过有幸遇到了清华大学出版社的王金柱老师,在他的鼓励和支持下开始了本书的写作,希望读者能够从中获得所需的知识点。
本书的内容
本书一共分为三大部分,系统地介绍数据分析与挖掘过程中所涉及的数据清洗、整理、可视化以及建模等环节,具体内容如下:
第一部分(第1~4章)介绍R语言的一些基础知识和使用技巧,内容包含R语言中的数据结构、控制流语句和自定义函数、apply簇函数的使用、外部数据的读取、数据的清洗和整理以及正则表达式的使用。
第二部分(第5、6章)重点介绍绘图包ggplot2的使用,详细讲解各种统计图形的绘制方法(如条形图、环形图、瓦片图、直方图、小提琴图、折线图、面积图、散点图、地图等),以及图形绘制过程中的微调策略(如图例位置的摆放、自定义颜色的调整、图形形状的选择以及多图形的组合等)。
第三部分(第7~15章)一共包含了10种数据挖掘算法的应用,如线性回归、决策树、支持向量机、GBDT等。采用通俗易懂的手法介绍每一个挖掘算法的理论知识,并借助于具体的项目数据完成算法的实战。本部分内容既可以提高数据分析与挖掘的水平和技能,也可以作为数据挖掘算法实操的模板。
配套资料下载
配套资源可扫描下方二维码获取:
如果你在下载过程中遇到问题,可发送邮件至booksaga@126.com获得帮助,邮件标题为“R语言数据分析、挖掘建模与可视化”。
致谢
特别感谢清华大学出版社的王金柱老师,感谢他的热情相邀和宝贵建议,他以专业而高效的审阅方式使本书增色不少。同时还要感谢为本书默默付出的其他出版工作者,在他们的努力和付出下,确保了本书的顺利出版。
最后,感谢我的家人和朋友,尤其是我的妻子,是她在我遇到困难时,给予我无私的鼓励和支持,在写书期间对我的照顾更是无微不至,使我能够聚精会神地完成本书全部内容的撰写。
刘顺祥(Sim Liu)
2020年8月于上海