大数据数学基础(Python语言描述)pdf下载

大数据数学基础(Python语言描述)百度网盘pdf下载

作者:
简介:大数据数学基础(Python语言描述)
出版社:人民邮电出版社
出版时间:2019-10-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  全书大部分章节紧扣实际需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施,帮助读者真正理解与消化大数据数学基础。
  
  书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。
内容简介
  本书全面地讲解了在科学领域广泛运用的微积分、概率论与数理统计、线性代数、数值计算、多元统计分析等数学基础知识。全书共6章:第1章介绍了大数据与数学、数学与Python的关系;第2章介绍了微积分的基础知识,包括极限、导数、微分、不定积分与定积分等;第3章介绍了概率论与数理统计的基础知识,包括数据分布特征、概率与概率分布、参数估计、假设检验等;第4章介绍了线性代数的基础知识,包括行列式、矩阵的运算和特征分解、奇异值分解;第5章介绍了数值计算的基础知识,包括插值法、函数逼近与拟合、非线性方程(组)求根;第6章介绍了常用的多元统计分析方法,包括回归分析、判别分析、聚类分析、主成分分析、因子分析和典型相关分析。本书示例大都结合Python进行求解分析,且每章都有课后习题,可以帮助读者巩固所学的内容。
作者简介
  张良均,高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数20余篇,已取得国家发明专利12项,主编《Hadoop大数据分析与挖掘实战》《Python数据分析与挖掘实战》《R语言数据分析与挖掘实战》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。
目录
版权信息
内容提要

前言
第1章 绪论
1.1 大数据与数学
1.1.1 大数据的定义
1.1.2 数学在大数据领域的作用
1.2 数学与Python
1.2.1 NumPy
1.2.2 SciPy
1.2.3 SymPy
1.2.4 StatsModels
小结
课后习题
第2章 微积分基础
2.1 函数与极限
2.1.1 映射与函数
2.1.2 数列与函数的极限
2.1.3 极限运算法则与存在法则
2.1.4 连续函数与初等函数的连续性
2.2 导数与微分
2.2.1 导数的概念
2.2.2 函数的求导法则
2.2.3 微分的概念
2.3 微分中值定理与导数的应用
2.3.1 微分中值定理
2.3.2 函数的单调性与曲线的凹凸性
2.3.3 函数的极值与最值
2.4 不定积分与定积分
2.4.1 不定积分的概念与性质
2.4.2 不定积分的换元积分法与分部积分法
2.4.3 定积分的概念与性质
2.4.4 定积分的换元积分法与分部积分法
小结
课后习题
第3章 概率论与数理统计基础
3.1 数据分布特征的统计描述
3.1.1 集中趋势度量
3.1.2 离散趋势度量
3.1.3 偏度与峰度的度量
3.2 概率与概率分布
3.2.1 随机事件及其概率
3.2.2 随机变量与概率分布
3.2.3 随机变量的数字特征
3.3 参数估计与假设检验
3.3.1 参数估计
3.3.2 假设检验
小结
课后习题
第4章 线性代数基础
4.1 行列式
4.1.1 行列式与全排列
4.1.2 行列式的性质
4.1.3 行列式按行(列)展开
4.2 矩阵及其运算
4.2.1 矩阵的定义
4.2.2 特殊矩阵
4.2.3 矩阵的运算
4.2.4 矩阵的逆
4.2.5 向量组与矩阵的秩
4.2.6 协方差矩阵
4.2.7 相关矩阵
4.3 矩阵的特征分解与奇异值分解
4.3.1 特征分解
4.3.2 奇异值分解
小结
课后习题
第5章 数值计算基础
5.1 数值计算的基本概念
5.1.1 误差的来源
5.1.2 误差分类
5.1.3 数值计算的衡量标准
5.2 插值法
5.2.1 Lagrange插值
5.2.2 Newton插值
5.2.3 样条插值
5.3 函数逼近与拟合
5.3.1 数据的最小二乘线性拟合
5.3.2 函数的最佳平方逼近
5.3.3 数据的多变量拟合
5.3.4 数据的非线性曲线拟合
5.4 非线性方程(组)求根
5.4.1 二分法求解非线性方程
5.4.2 迭代法求解非线性方程
5.4.3 Newton法求解非线性方程
5.4.4 Newton法求解非线性方程组
小结
课后习题
第6章 多元统计分析
6.1 回归分析
6.1.1 一元线性回归
6.1.2 多元线性回归
6.1.3 Logistic回归
6.2 判别分析
6.2.1 距离判别
6.2.2 贝叶斯判别
6.2.3 费希尔判别
6.3 聚类分析
6.3.1 距离和相似系数
6.3.2 系统聚类法
6.3.3 动态聚类法
6.4 主成分分析
6.4.1 总体主成分
6.4.2 样本主成分
6.5 因子分析
6.5.1 正交因子模型
6.5.2 参数估计
6.5.3 因子旋转
6.5.4 因子得分
6.6 典型相关分析
6.6.1 总体典型相关
6.6.2 样本典型相关
6.6.3 典型相关系数的显著性检验
小结
课后习题
附录I t分布表
附录II F分布表
参考文献
前言
  随着大数据时代的到来,移动互联网和智能手机迅速普及,多种形态的移动互联应用蓬勃发展,电子商务、云计算、互联网金融、物联网等不断渗透并重塑传统产业,大数据当之无愧地成了新的产业革命核心。
  未来5~10年,我国大数据产业将会进入一个飞速发展时期,社会对大数据相关专业人才有着巨大的需求。目前,国内各大高校都在争相设立或准备设立大数据相关专业,以适应地方产业发展对战略性新兴产业的人才需求。
  人才培养离不开教材,大数据专业是2016年才获批的新专业,目前还没有成套的系列教材,已有教材也存在企业案例缺失等亟须解决的问题。由广州泰迪智能科技有限公司和人民邮电出版社策划、校企联合编写的这套图书,犹如大旱中的甘露,可以有效解决高校大数据相关专业教材紧缺的困难。
  实践教学是在一定的理论指导下,通过引导学习者的实践活动,传承实践知识、形成技能、发展实践能力、提高综合素质的教学活动。目前,高校教学体系的设置有诸多限制因素,过多地偏向理论教学,课程设置与企业实际应用契合度不高,学生无法把理论转化为实践应用技能。课程内容设置方面看似繁多又各自为“政”,课程冗余、缺漏,体系不健全。本套图书的第一大特点就是注重学生实践能力的培养,根据高校实践教学中的痛点,首次提出“鱼骨教学法”的概念。以企业真实需求为导向,学生所学技能紧紧围绕企业实际应用需求,将学生需掌握的理论知识通过企业案例的形式进行衔接,达到知行合一、以用促学的目的。
  大数据专业应该以大数据技术应用为核心,紧紧围绕大数据应用闭环的流程进行教学,才能够使学生从宏观上理解大数据技术在行业中的具体应用场景及应用方法。高校现有的大数据课程集中在教授如何进行数据处理、建模分析、参数调整,以使得模型的结果更加准确。但是,完整的大数据应用却是一个容易被忽视的部分。本套图书的第二大特点就是围绕大数据应用的整个流程,从数据采集、数据迁移、数据存储、数据分析与挖掘,最终到数据可视化,覆盖完整的大数据应用流程,涵盖企业大数据应用中的各个环节,符合企业大数据应用真实场景。
  希望这套图书能为更多的高校师生带来便利,帮助读者尽快掌握本领,成为有用之才!
  中国高校大数据教育创新联盟
  2019年6月
精彩书摘
  第1章 绪论
  当今社会,绝大多数人类活动会产生数据。例如,各类具备全球定位系统(Global Positioning System,GPS)功能的交通工具会定时产生位置数据;家用智能热水器能够记录用户每日用水的各项数据;手机中的各类App能够收集用户不同领域的偏好数据等。管理和使用这些数据,促进了一个全新的领域——数据科学领域的发展,而数据科学领域的基石就是数学。
  本章将通过介绍大数据的概念,进一步说明微积分、概率论与数理统计、线性代数、数值计算、多元统计分析在数据科学领域的重要作用。
  1.1 大数据与数学
  最早提出大数据概念的是全球知名咨询公司麦肯锡。该公司称:“数据已经渗透到当今的每一个行业和业务职能领域,成了重要的生产因素。”人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。实则,大数据在物理学、生物学、环境生态学等学科领域,以及在军事、金融、通信等行业已有些时日,只是由于近年来的互联网和信息行业采用了大数据技术,使得这一名词的曝光度有所提高,变得火热起来。本节通过介绍大数据的定义与数学各分支在大数据中的作用,阐述大数据与数学的关系。
  1.1.1 大数据的定义
  对于“大数据”一词,多数人认为是一个新兴词汇,实则不然,早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据赞颂为“第三次浪潮的华彩乐章”。大数据一词大约是从2009年开始被引入公众视线的。
  1. 大数据的特征
  虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。
  (1)不是随机样本,而是全体数据。过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近实际的结果。
  (2)不具有精确性,而具有混杂性。执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下约95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所带来的商业利益远远超过增加一点精确性所带来的,所以通常不会通过大量增加成本来提升数据的精确性。
  (3)不是因果关系,而是相关关系。因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
  2. 大数据的定义
  现阶段,大数据领域比较通用的大数据定义是基于图1-1的5V定义,其中,每个V的具体含义如下。
  图1-1 大数据5V定义示意图
  (1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1 024GB)、PB(1 024TB)。
  (2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法要求尽可能实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
  (3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等。数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。