图书基本信息 图书名称 Java数据分析指 作者 约翰·哈伯德(John R. Hubbard) 定价 79.00元 出版社 人民邮电出版社 ISBN 9787115494863 出版日期 2018-12-01 字数 页码 版次 1 装帧 装-胶订 开本 16开 商品重量 0.4K*
内容简介 当今,数据科学已经成为一个热门的技*领域,例如数据处理、信息检 、机器学习、自然语言处理、数据 化等都得到了广泛的应 和发展。而Java作为一门经典的编程语言,在数据科学领域也 着突出的表现。本书旨在通过Java编程 读者更 进行数据分析。本书 11章内容,详细 介绍了数据科学 论、数据预处理、数据 化、 、关 数据库、回归分析、分类分析、聚类分析、推荐 、NoSQL数据库以及Java 数据分析等重要主题。本书适合想通过Java解决数据科学问题的读者,也适合数据科学领域的专 人 以及普通的Java开发者阅读。通过阅读本书,读者 能够对数据分析 更加深入的理解,并且 握实 的数据分析技*。
作者简介 约翰·哈伯德(John R. Hubbard)任 于宾夕法尼亚州和弗吉尼亚州的 校,从 算机数据分析 作 达40余年。他拥 宾州州立 学的 算机科学硕 学位和密歇 学的数学博 学位。目前,他在里 满 学担任数学和 算机科学的名誉 授,他在该校讲授数据结构、数据库 、数值分析和 数据。哈伯德博 出版了许多 作并发表过多篇论文, 了本书,他还出版过6本 算领域的 作。其中某些 作已经翻译为德文、法文、中文和其他5种语言。此外,他还是一位 余音乐家。
目录 1章 数据科学 论1
1.1 数据分析起源 1
1.2 科学方法 2
1.3 算科学 2
1.4 蒸汽 算 3
1.5 一个惊人的例子 4
1.6 赫尔曼·何乐礼 5
1.7 ENIAC 6
1.8 VisiCalc 7
1.9 数据、信息和知识 7
1.10 为什么 Java 7
1.11 Java 成开发环境 8
1.12 小结 10
2章 数据预处理 11
2.1 数据类型 11
2.2 变量 12
2.3 数据点和数据 12
2.4 关 数据库表 13
2.4.1 关键字段 13
2.4.2 键—值对 14
2.5 哈希表 14
2.6 文件格式 16
2.6.1 微 Excel数据 18
2.6.2 XML和JSON数据 21
2.7 *成测试数据 27
2.7.1 元数据 28
2.7.2 数据清洗 29
2.7.3 数据缩放 30
2.7.4 数据过滤 30
2.7.5 排序 33
2.7.6 合并 34
2.7.7 散列法 37
2.8 小结 38
3章 数据 化 39
3.1 表和图 40
3.1.1 散点图 40
3.1.2 线图 42
3.1.3 条形图 43
3.1.4 直方图 43
3.2 时间序列 45
3.3 Java实现 46
3.4 移动 均 49
3.5 数据排序 53
3.6 频率分布 55
3.7 正态分布 57
3.8 指数分布 59
3.9 Java 例 59
3.10 小结 61
4章 62
4.1 描述* 量 62
4.2 随机抽样 65
4.3 随机变量 67
4.4 概率分布 67
4.5 累积分布 69
4.6 二项分布 70
4.7 多元分布 74
4.8 条件概率 76
4.9 概率 件的 立* 77
4.10 列联表 78
4.11 贝叶斯定理 78
4.12 协方差和相关 80
4.13 标准正态分布 82
4.14 中心 限定理 86
4.15 置信区间 87
4.16 假设检验 89
4.17 小结 91
5章 关 数据库 92
5.1 关 数据模型 92
5.2 关 数据库 93
5.3 外键 94
5.4 关 数据库设 95
5.4.1 创建数据库 96
5.4.2 SQL命 100
5.4.3 数据 入数据库 104
5.4.4 数据库查询 106
5.4.5 SQL数据类型 107
5.4.6 BC 108
5.4.7 使 BC PreparedSt*ement 110
5.4.8 批处理 112
5.4.9 数据库 图 115
5.4.10 子查询 119
5.4.11 表 121
5.5 小结 123
6章 回归分析 124
6.1 线*回归 124
6.1.1 Excel中的线*回归 125
6.1.2 算回归 数 129
6.1.3 变异 量 131
6.1.4 线*回归的Java实现 134
6.1.5 斯库姆的四重奏 141
6.2 多项式回归 143
6.2.1 多元线*回归 147
6.2.2 Apache Commons的实现 150
6.2.3 曲线拟合 151
6.3 小结 153
7章 分类分析 154
7.1 决策树 156
7.1.1 熵和它 什么关 ? 157
7.1.2 ID3算法 160
7.1.3 Weka 台 171
7.1.4 数据的ARFF文件类型 171
7.1.5 Weka的Java实现 174
7.2 贝叶斯分类器 175
7.2.1 Weka的Java实现 177
7.2.2 支持向量机算法 181
7.3 逻辑回归 184
7.3.1 k近邻算法 189
7.3.2 模 分类算法 193
7.4 小结 194
8章 聚类分析 195
8.1 测量距离 195
8.2 维数灾难 200
8.3 层次聚类法 201
8.3.1 Weka实现 210
8.3.2 K-均值聚类 212
8.3.3 K-中心点聚类 218
8.3.4 仿 传播聚类 220
8.4 小结 228
9章 推荐 229
9.1 效 矩阵 230
9.2 相似*度量 231
9.3 余弦相似* 233
9.4 一个简 的推荐 233
9.5 项目对项目的协同过滤推荐 244
9.6 实现 户 分 250
9.7 型稀疏矩阵 254
9.8 使 随机访问文件 257
9.9 Netflix 奖赛 260
9.10 小结 260
10章 NoSQL数据库 261
10.1 映 数据结构 261
10.2 SQL与NoSQL 263
10.3 Mon*o数据库 265
10.4 Library数据库 270
10.5 Mon*oDB的Java开发 273
10.6 Mon*oDB的 理空间数据库扩展 281
10.7 Mon*oDB中的 282
10.8 为什么 择NoSQL,为什么 择Mon*oDB 283
10.9 其他的NoSQL数据库 284
10.10 小结 284
11章 Java 数据分析 285
11.1 扩展、数据分块和分* 285
11.2 歌的Pa*eRank算法 286
11.3 歌的MapReduce框架 290
11.4 MapReduce的一些应 例 291
11.5 “ 词 数” 例 292
11.6 扩展* 296
11.7 MapReduce的矩阵 作 297
11.8 Mon*oDB中的MapReduce 301
11.9 Apache Hadoop 302
11.10 Hadoop MapReduce 303
11.11 小结 304
附录 Java 具 305
编辑推荐 Java是一门经典的编程语言,在数据分析方面 着突出的表现。学习本书,读者 以 握各种实 的数据分析技巧,学会如何处理关 型、非关 型数据、时间序列数据等,并能够实现重要的机器学习算法。本书由专 经验丰富的 校 翻译完成,对于读者提升自己对各种Java 具和库的使 能力会 非常 的锻炼和提升,这是一本非常不错的基于Java的数据分析学习指 。
文摘
序言