基于Stata的数据分析流程(数据管理实务译丛)pdf下载

基于Stata的数据分析流程(数据管理实务译丛)百度网盘pdf下载

作者:
简介:基于Stata的数据分析流程(数据管理实务译丛)
出版社:
出版时间:2019-05
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

内容简介

《基于Stata的数据分析流程》对数据分析者而言是一本不可多得的实用好书。高效的数据分析流程能够节省数据管理和数据分析的时间,也是实现统计分析工作可重复性的保障。而这本书就能帮助你优化数据分析的工作流程,提高数据管理和数据分析的效率。

数据分析流程指的是管理数据分析各个方面的过程。规划、记录和组织你的工作,清理数据,创建变量,给变量命名,给数据加标签,检验变量,执行和呈现统计分析,输出可复制的结果,将工作档案化——这些共同构成了一个完整的数据分析流程。在本书中,作者告诉你如何给单人项目或团队项目设计高效的数据分析流程并付诸实践。

作者利用真实示例、Stata命令和Stata文本,展示了数据管理和分析所需的各种高效技术。如果你的工作涉及数据分析,那么这本书非常值得一读。

作者简介

斯考特•隆恩(J. Scott Long)是美国印第安纳大学伯明顿分校社会学和统计学专业的校长教授、副教务长。他曾多次在《美国社会学评论》(American Sociological Review)、《社会力》(Social Forces)、《美国统计学家》(American Statistician)、《社会学方法与研究》(Sociological Methods and Research)等学术期刊上发表文章。1987—1994年,他曾担任《社会学方法与研究》的编辑。

隆恩博士撰写或编著了七本统计学方面的著作,其中《定类和受限因变量的回归模型》(Regression Model for Categorical and Limited Dependent Variables)一书获广泛赞誉。因为在社会学研究方法领域做出的卓越贡献,隆恩博士于2001年荣获保罗•拉扎斯菲尔德纪念奖(Paul Lazarsfeld Memorial Award)。


译者简介:

唐丽娜,中国人民大学中国调查与数据中心数据管理部主任,社会学系讲师,著有《社会调查数据管理——基于Stata 14管理CGSS数据》等,译有《Stata环境下的数据管理实务手册》。

王卫东,中国人民大学社会心理学研究所所长,中国调查与数据中心副主任,社会学系副教授,国际社会调查项目(ISSP)中国代表,中国教育追踪调查(CEPS)项目负责人。主要研究领域为社会调查研究方法、教育社会学等。

目录

第1章 引言
1.1 可复制性:工作流程的指导原则
1.2 工作流程的步骤
1.3 每个步骤中的任务
1.4 选择工作流程的标准
1.5 修改工作流程
1.6 本书结构

第2章 规划、组织和记录
2.1 数据分析的周期
2.2 规划
2.3 组织管理
2.4 记录存档
2.5 本章小结

第3章 编写和调试do文件
3.1 运行命令的三种方式
3.2 编写有效的do文件
3.3 调试do文件
3.4 如何获取帮助
3.5 本章小结

第4章 让你的工作自动化
4.1 宏
4.2 Stata命令返回的信息
4.3 循环:foreach和forvalue
4.4 include命令
4.5 ado文件
4.6 帮助文件
4.7 本章小结

第5章 命名、注释和标签
5.1 发布文件
5.2 数据管理和统计分析的二元工作流程
5.3 命名、注释和标签
5.4 给do文件命名
5.5 给数据集命名和在内部记录数据集
5.6 给变量命名
5.7 给变量添加标签
5.8 给变量加注释
5.9 取值标签
5.10 使用多种语言
5.11 一个关于名称和标签的工作流程
5.12 本章小结

第6章 清理数据
6.1 导入数据
6.2 检验变量
6.3 为分析创建变量
6.4 保存数据
6.5 为分析准备数据的一个扩展示例
6.6 合并文件
6.7 小结

第7章 分析数据并展示结果
7.1 计划和组织统计分析
7.2 组织管理do文件
7.3 为统计分析做的记录
7.4 利用自动化来分析数据
7.5 基础统计
7.6 可复制性
7.7 展示结果
7.8 一个项目的备忘录
7.9 小结

第8章 保护文件
8.1 保护层级和文件类型
8.2 数据缺失的原因以及恢复数据时的问题
8.3 墨菲定律和复制文件的规则
8.4 文件保护的工作流程
8.5 存档保存
8.6 小结

第9章 总结
A.1 Stata的工作原理
A.2 在线工作
A.3 自定义Stata
A.4 其他资源
参考文献

精彩书摘

第1章 引言

本书旨在介绍若干种方法,以便读者能够更加有效、高效、精准地分析数据。这些方法被统称为数据分析的工作流程。工作流程涵盖了数据分析的整个过程,包括制订工作计划、记录工作内容、清理数据、创建变量、进行统计分析、实现分析过程的可复制性、展示研究发现以及工作归档。其实你已经有了一个工作流程,只是你尚未把它看成工作流程。这些工作流程可能是经过精心设计的,也可能只是临时建立的。由于很难找到专门探讨数据分析工作流程的书籍,也没有正式讲授这项技术的课程,所以研究者通常只有在遇到难题时才想到建立工作流程,听从的都是同事们的非正式的建议。举例来说,当你发现自己有两个同名但内容不同的文件时,就想建立文件命名的规程(例如,一个工作流程)。更普遍的是,一种好的数据分析方法经常是通过低效率的反复试错法来习得的。因此,希望本书能够帮助读者缩短学习过程,从而能够把更多的时间用于自己真正想做的事情上。

对本书初稿的反馈使我坚信,无论是初学者还是数据分析专家,都应该更加正式地思考一下自己是如何进行数据分析的,这个思考的过程会使他们受益良多。实际上,当我开始写书时,曾经认为自己的工作流程很好,只需要把自己平常的工作流程写出来即可。但当我把这些问题都系统地思考一番,并与其他研究者交流之后,又惊又喜地发现自己的工作流程水平有了很大的提高。每个人都可以轻而易举地改进自己的工作流程。虽然更改流程意味着时间的投入,但是这些投入会得到回报,那就是在日后工作中节省的时间和规避数据分析过程中的很多错误。

虽然书中提出了很多和工作流程有关的具体建议,但大部分我建议的事情可以用其他方法完成。我对某一特定问题的最好解决方案的建议基于我与数以百计的研究者和学生的合作,他们供职于不同的产业部门,涉及的领域从化学到历史学。这些建议对我个人的工作而言是行之有效的,而且大部分在广泛的实践应用中也得到了进一步的完善。但这并不意味着完成指定任务的方式只有一种,也不是说我有最好的办法。和任何一种复杂的统计软件一样,在Stata里有多种方法可以用于完成同一件任务。有些方法只能在有限的条件下完成任务,而且这些方法要么容易出错,要么效率低。在诸多行之有效的方法中,你就需要选择自己喜欢的方法。为帮助你做到这一点,对某一指定任务,我通常会讨论多种解决办法。与此同时,我还给出了一些低效率做事方法的案例,因为对读者来说,亲眼看到错误方法所造成的后果远比耳闻正确方法之优越性更令人印象深刻。这些案例都是真实的,来源于我曾经犯过的诸多错误和在帮助他人做数据分析时遇到的问题。读者需要做的就是选择一种能够与自己的项目特点、拥有的资源和自己的习惯爱好相匹配的工作流程。可以说,有多少做数据分析的人,就有多少种工作流程,没有哪一种工作流程是适合所有人或适用于所有项目的。关键是读者需要全面考虑问题,选择自己的程序并且严格执行,如果没有好的理由,就绝不随意修改。

在本章的剩下部分,我提供了一个用来理解和评估工作流程的框架。首先要讲的就是可复制性这一基本原则,该原则应该指导工作流程的各个方面。无论你如何做数据分析,都要确保结果的可证性和可复制性。接下来要介绍的是在所有类型的数据分析中都不可缺少的四个步骤:清理数据、进行分析、报告结果和保存文件。在每个步骤中都有四项主要任务:规划工作、组织管理资料、记录所做的工作、执行这些工作。如果工作中任何一个特定方面都有若干种解决办法,那么该如何判定工作流程的高下优劣呢?对此,书中提供了评估工作流程的若干标准。这些标准可以帮助读者决定使用哪种程序,也正是这些标准促成了书中有关最佳实践方法的建议。

1.1 可复制性:工作流程的指导原则

能够把已发表或出版的研究结果完整地复制出来是所有工作流程的基础。科学要求可复制性,一个好的工作流程能够提高你重复得到同样研究结果的能力。制订项目计划、保存工作、写程序以及保存分析结果都应该考虑到可复制性的需要。在多数情况下,研究者直到自己的工作遇到巨大挑战时才开始担心可复制性的问题。这并不是说他们都在走捷径、在分析中做假,或者做出了错误决定,而是说他们需要完成几个必要的步骤,以便将来可以毫不费力地重复之前已经完成的工作。举例来说,设想一个同事想要扩展你之前的某项研究,于是向你索要已发表的论文中使用的数据和命令。这时,你肯定不想手忙脚乱地复制出研究结果。虽然要找出以前的分析结果可能要花好几个小时(例如,我自己的很多资料保存在自己的笔记本中,这些笔记本都堆放在储物间),但这应该是一个检索工作记录的过程,而不是去回忆以前做了哪些工作,更不是发现自己的记录和报告的研究结果根本不匹配。

在整个工作流程中都应该始终牢记可复制性原则。在完成每一阶段的工作之后,如有必要,应该拿出一小时或一天的时间来回顾一下已经完成的工作,检查工作程序是否已经被记录,确认所用资料已经存档。当一篇要发表的文章的初稿写完时,需要回顾所有的文件记录,检查用过的文件是否均已保存,确认do文件是否仍然可以运行,并再次确认论文中的数字与结果中的数字是否一致。最终,确认整个过程都已记录在自己的研究日志中(详见37页)。