人人可懂的数据科学pdf下载pdf下载

人人可懂的数据科学百度网盘pdf下载

作者:
简介:本篇主要提供人人可懂的数据科学pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2019-10
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

数据科学推动了现代社会几乎所有领域决策的发展,正在影响着人们日常生活的方方面面。本书旨在阐述理解数据科学所需的基本思想和概念,帮助你理解什么是数据科学,它是如何工作的,以及它能(和不能)做什么。本书从数据科学发展演化史,数据科学定义,数据、数据集,数据科学生态系统,机器学习,数据科学标准任务,隐私与道德,发展趋势等角度,对数据科学展开了精彩的阐述。


内容简介

本书从数据科学发展演化史,数据科学定义,数据、数据集,数据科学生态系统,机器学习,数据科学标准任务,隐私与道德,发展趋势等角度,对数据科学展开了精彩的阐述。

本书精准界定了数据科学的术语、任务、生命周期,并介绍了主流的数据科学生态技术,及决策树、回归分析、神经网络、深度学习等常见机器学习算法。同时也涵盖隐私、数据道德等方面的话题,介绍了数据科学可能引发的隐私泄露、人为歧视、不公平,以及欧盟、美国等国家或地区针对数据因素保护、数据道德的立法。


作者简介

  约翰·D.凯莱赫(John D.Kelleher)是都柏林理工学院计算机科学学院的教授以及信息、通信和娱乐研究所的学术负责人。他的研究得到了ADAPT中心的支持,该中心由爱尔兰科学基金会(Grant 13/RC/2106)资助,同时也接受欧洲区域发展基金的资助。他还是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。
  
  布伦丹·蒂尔尼(Brendan Tierney)是都柏林理工学院计算机科学学院的讲师,同时也是Oracle AC'E主任,还著有多本基于Oracle技术的数据挖掘类著作。

内页插图

目录

译者序
前言
致谢
作者简介

第1章 什么是数据科学
1.1 数据科学简史
1.1.1 数据收集简史
1.1.2 数据分析简史
1.1.3 数据科学的产生与发展
1.2 数据科学用于何处
1.2.1 销售和营销中的数据科学
1.2.2 数据科学在政府中的应用
1.2.3 数据科学在竞技体育中的应用
1.3 为什么是现在
1.4 关于数据科学的神话

第2章 什么是数据,什么是数据集
2.1 关于数据的观点
2.2 数据可以积累,而智慧不能
2.3 CRISP-DM

第3章 数据科学生态系统
3.1 将算法迁移至数据
3.1.1 传统数据库与现代的传统数据库
3.1.2 大数据架构
3.1.3 混合数据库世界
3.2 数据准备和集成

第4章 机器学习
4.1 有监督学习与无监督学习
4.2 学习预测模型
4.2.1 相关性不等同于因果,但它有时非常有用
4.2.2 线性回归
4.2.3 神经网络与深度学习
4.2.4 决策树
4.3 数据科学中的偏差
4.4 评估模型:泛化而不是记忆
4.5 摘要

第5章 标准的数据科学任务
5.1 谁是我们的目标客户(聚类)
5.2 这是欺诈吗(异常值检测)
5.3 你要配份炸薯条吗(关联规则挖掘)
5.4 流失还是不流失,这是一个问题(分类)
5.5 它价值几何(回归)

第6章 隐私与道德
6.1 商业利益与个人隐私
6.1.1 数据科学的道德启示:画像与歧视
6.1.2 数据科学的道德含义:创建一个全景监狱
6.2 隐私保护
6.2.1 保护隐私的计算方法
6.2.2 规范数据使用和保护隐私的法律框架
6.3 通往道德的数据科学之路

第7章 未来趋势与成功准则
7.1 医疗数据科学
7.2 智慧城市
7.3 数据科学项目准则:为什么会成功或失败
7.4 终极思考

术语表
延伸阅读
参考文献

前言/序言

  数据科学的目标是通过将决策建立在从大数据集中提取洞察力的基础上来改进决策。作为一个活动领域,数据科学由一系列原理、问题定义、算法和过程组成,用于从大型数据集中提取有用但不显眼的模式。数据科学与数据挖掘和机器学习领域密切相关,但它涉及的范围更广。如今,数据科学推动了现代社会几乎所有领域决策的发展。数据科学可能影响人们日常生活的方方面面,如确定在线广告的呈现,向用户推荐电影、书籍、朋友,过滤垃圾邮件,用户续订手机合约时向他们提供合适的优惠套餐,降低医保成本,规划辖区内交通信号灯的布局及通行时间,药品设计,警力部署规划等。
  大数据和社交媒体的出现、计算能力的加速、计算机内存成本的大幅降低以及更强大的数据分析和建模方法的发展推动了当代社会对数据科学需求的增长,其中典型的技术有深度学习。这些因素共同作用意味着组织收集、存储和处理数据将比以前简单。与此同时,这些技术创新和数据科学的广泛应用意味着与数据使用和个人隐私相关的道德挑战从未如此迫切。本书的目的是提供数据科学的介绍,涵盖该领域的基本要素,并提供对该领域深刻的原则性见解。
  本书第1章介绍了数据科学领域,简要回顾了数据科学的发展演化历史,还探讨了如今数据科学为什么那么重要,以及推动采用数据科学的一些因素。在这一章的最后,回顾并揭穿了与数据科学相关的一些神话。第2章介绍了与数据相关的基本概念,描述了数据科学项目的标准流程:业务理解、数据理解、数据准备、建模、评估和部署。第3章重点介绍了数据基础设施以及大数据和多源数据集成带来的挑战。数据基础设施的一个可能具有挑战性的典型方面是,数据库和数据仓库中的数据通常驻留在与用于数据分析的服务器不同的服务器上。因此,当处理大型数据集时,可能要花费大量时间在数据库或数据仓库所依赖的服务器与进行数据分析和机器学习处理的服务器之间移动数据。第3章首先描述组织中典型的数据科学基础设施,以及在数据科学基础设施中移动大型数据集的挑战的一些新兴解决方案,其中包括使用数据库内置机器学习算法,使用Hadoop进行数据存储和处理,以及混合数据库系统的开发,这些系统无缝地结合了传统的数据库软件和类似Hadoop的解决方案。这一章的最后强调了将整个组织的数据整合到适合机器学习的统一表示中的一些挑战。第4章介绍了机器学习领域,并解释了一些最流行的机器学习算法和模型,包括神经网络、