机器学习精讲pdf下载

机器学习精讲百度网盘pdf下载

作者:
简介:机器学习精讲
出版社:人民邮电出版社有限公司
出版时间:2020-01-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  作者完成了一项非常重要但是难度巨大的任务--将所有机器学习内容浓缩到100多页的篇幅中。他选择的主题,无论从理论还是实践角度,都对从业者很有帮助。初学者阅读本书后,可以为读懂更多专业文献打好基础。
  Peter Norvig,谷歌研究主任
  Artificial Intelligence: A Modern Approach一书的作者之一 本书的篇幅很短,但涵盖了非常广泛的主题,作者并没有省略数学公式。我很欣赏作者用简洁的语言解释核心概念的能力。本书不仅能给入门者以帮助,还能为有一定机器学习基础的读者提供了一个全方位的视角。
  Aurélien Géron,高级AI工程师
  Hands-On Machine Learning with Scikit-Learn and TensorFlow作者 这是一本精简的机器学习入门手册,我认为它将会成为学习者和从业者的重要参考资料。简短的篇幅使得读者可以快速读完本书。即使如此,本书也涵盖了机器学习的绝大部分内容,从经典的线性和对数概率回归,到现代的支持向量机、深度学习、提升法、随机森林等,本书详细介绍了这些方法。 阅读本书不需要深入了解数学、统计学或者编程知识。本书适合每一位刚开始接触机器学习的博士生阅读。本书通过代码诠释一些算法,所采用的Python语言是机器学习应用中常用的编程语言。如果你是机器学习的初学者,或者是想要扩充知识储备的从业者,我强烈推荐本书。
  Gareth James,南加州大学马歇尔商学院统计学教授
  An Introduction to Statistical Learning:with Applications in R 作者之一 本书是为那些想要在工作中应用机器学习技术但又没有太多时间去学习的工程师量身打造的。
  Deepak Agarwal,LinkedIn人工智能副总监
内容简介
  内容提要
  本书用简短的篇幅、精炼的语言,讲授机器学习领域必备的知识和技能。全书共11章和一个术语表,依次介绍了机器学习的基本概念、符号和定义、算法、基本实践方法、神经网络和深度学习、问题与解决方案、进阶操作、非监督学习以及其他学习方式等,涵盖了监督学习和非监督学习、支持向量机、神经网络、集成学习、梯度下降、聚类分析、维度降低、自编码器、迁移学习、强化学习、特征工程、超参数调试等众多核心概念和方法。全书最后给出了一个较为详尽的术语表。本书能够帮助读者了解机器学习是如何工作的,为进一步理解该领域的复杂问题和进行深入研究打好基础。本书适合想要学习和掌握机器学习的软件从业人员、想要运用机器学习技术的数据科学家阅读,也适合想要了解机器学习的一般读者参考。
作者简介
  作者简介
  安德烈·布可夫(Andriy Burkov)是一位机器学习专家,目前居住于加拿大魁北克省。他拥有人工智能博士学位,尤其擅长自然语言处理技术。目前,他是高德纳(Gartner)咨询公司机器学习开发团队的主管。该团队的主要工作是,使用浅层和深度学习技术,开发可用于生产环境的、先进的多语言文字抽取和标准化系统。
  译者简介
  韩江雷,毕业于新加坡南洋理工大学计算机科学学院,目前担任思爱普公司(新加坡)数据科学家,同时在南洋理工大学攻读博士学位。他的研究方向包括文本分析、数据挖掘以及机器学习的垂直领域应用等。
目录
版权信息
内容提要
译者序
前言
第1章 绪论
1.1 什么是机器学习
1.2 不同类型的学习
1.2.1 监督学习
1.2.2 非监督学习
1.2.3 半监督学习
1.2.4 强化学习
1.3 监督学习是如何工作的
1.4 为什么模型可以应用于新数据
第2章 符号和定义
2.1 符号
2.1.1 数据结构
2.1.2 大写西格玛(∑)符号
2.1.3 大写派(Π)符号
2.1.4 集合运算
2.1.5 向量运算
2.1.6 函数
2.1.7 max和argmax
2.1.8 赋值运算符
2.1.9 导数和梯度
2.2 随机变量
2.3 无偏估计值
2.4 贝叶斯准则
2.5 参数估计
2.6 参数与超参数
2.7 分类vs.回归
2.8 基于模型学习vs.基于实例学习
2.9 浅层学习vs.深度学习
第3章 基本算法
3.1 线性回归
3.1.1 问题陈述
3.1.2 解决方案
3.2 对数几率回归
3.2.1 问题陈述
3.2.2 解决方案
3.3 决策树学习
3.3.1 问题陈述
3.3.2 解决方案
3.4 支持向量机
3.4.1 处理噪声
3.4.2 处理固有非线性
3.5 k近邻
第4章 算法剖析
4.1 一个算法的组成部分
4.2 梯度下降
4.3 机器学习工程师如何工作
4.4 学习算法的特性
第5章 基本实践
5.1 特征工程
5.1.1 独热编码
5.1.2 装箱
5.1.3 归一化
5.1.4 标准化
5.1.5 处理特征缺失值
5.1.6 数据补全技术
5.2 选择学习算法
5.3 3个数据集
5.4 欠拟合与过拟合
5.5 正则化
5.6 模型效果评估
5.6.1 混淆矩阵
5.6.2 查准率/查全率
5.6.3 准确率
5.6.4 代价敏感准确率
5.6.5 ROC曲线下面积
5.7 超参数调试
交叉验证
第6章 神经网络和深度学习
6.1 神经网络
6.1.1 多层感知机例子
6.1.2 前馈神经网络
6.2 深度学习
6.2.1 卷轴神经网络
6.2.2 循环神经网络
第7章 问题与解决方案
7.1 核回归
7.2 多类别分类
7.3 单类别分类
7.4 多标签分类
7.5 集成学习
7.5.1 提升法与装袋法
7.5.2 随机森林
7.5.3 梯度提升
7.6 学习标注序列
7.7 序列到序列学习
7.8 主动学习
7.9 半监督学习
7.10 单样本学习
7.11 零样本学习
第8章 进阶操作
8.1 处理不平衡的数据集
8.2 组合模型
8.3 训练神经网络
8.4 进阶正则化
8.5 处理多输入
8.6 处理多输出
8.7 迁移学习
8.8 算法效率
第9章 非监督学习
9.1 密度预估
9.2 聚类
9.2.1 k均值
9.2.2 DBSCAN和HDBSCAN
9.2.3 决定聚类簇个数
9.2.4 其他聚类算法
9.3 维度降低
9.3.1 主要成分分析
9.3.2 UMAP
9.4 异常值检测
第10章 其他学习形式
10.1 质量学习
10.2 排序学习
10.3 推荐学习
10.3.1 因子分解机
10.3.2 去噪自编码器
10.4 自监督学习:词嵌入
第11章 结论
11.1 主题模型
11.2 高斯过程
11.3 广义线性模型
11.4 概率图模型
11.5 马尔可夫链蒙特卡洛算法
11.6 基因算法
11.7 强化学习
术语表
前言
  译者序
  我与“机器学习”的初次邂逅是在5年前,那时我刚刚决定于新加坡南洋理工大学攻读计算机博士学位。比起计算机学院的主流课程,如数据库、软件开发、嵌入式系统等,“机器学习”这个“新领域”既令人好奇,又让人望而生畏。当时,“学习”还没那么深度, “数据科学家”刚刚被《哈佛商业评论》宣布为“二十一世纪最吸引人的职业”。回头看来,差不多同一时间,“人工智能”正在为一次空前的崛起积累能量、蓄势待发。
  我在新加坡南洋理工大学的研究项目属于工业界的应用问题,因此得以接触各种工业界数据和工具,并在研究工作中尝试部分机器学习模型。与此同时,与机器学习相关的各种文献、资料、开源项目在网络上大量涌现。作为从业者,我一方面受益于大量信息所带来的便利,另一方面却也时常因为信息量太大而不知从何入手。
  2018年下半年,一次偶然的机会,我在职业社交平台上发现本书作者的贴子。安德烈是个职场“网红”,经常发些妙趣横生、却可能只有程序员才能理解的段子和图片。当时,他正积极地为新书做宣传,包括不定期连载和提供免费试读。泛读之后,我被作者精巧的构思和精炼的语言深深吸引。
  在本书之前,我接触过一些关于机器学习技术的教科书。这些书的共同特点是:深、厚、难。首先,它们普遍内容深奥,阅读门槛较高。严谨的论证和详细的数学推导,需要很强的理论基础才能看懂。其次,很多教科书篇幅动辄上千页,让刚入门的读者望而却步。最后,实现书中所介绍的算法所需要的工程量较大,很难快速应用于实际问题。相比专业教科书,本书更像是一本科普读物,任何具备基本代数知识的读者都可以理解其大部分内容。本书篇幅较短、章节清晰,适合通读与精读。书中介绍的很多实用技巧也可以帮助读者快速上手实践。
  虽然篇幅较短,但本书涵盖了关于机器学习的大部分精华要点,并将知识点系统地串联在一起。书中凝炼了大量学术文献的中心内容和结论,权威性很强。同时,作者将多年研究和工程项目中所总结的经验以最容易理解的方式与读者分享,可读性和实用性都非常强。由于篇幅所限,书中省去了大量数学推导过程以及文献引用。不过,有深入研究需要的读者仍可通过配套的网页获取更多内容。
  当得知作者有意向将本书翻译成其他语言并在各国出版时,我主动联系作者和出版社,并通过试译,得到了翻译本书的机会。对我个人来说,翻译一本专业著作是个全新的挑战。当时主要的考量有二:一方面,将原书内容翻译成另一种语言的过程,也是加深对各种技术概念的印象、在精读中发现新的视角和问题的过程;另一方面,随着越来越多的行业正加入人工智能的革新浪潮,对机器学习人才的需求会继续增加,我也希望通过自己的绵薄之力,让更多对机器学习感兴趣却又望而却步的中文读者接触到这本书。
  翻译这样一本书需要多次精读,并同时与作者保持沟通,查阅中英文资料以确保表述清晰、准确。当英文原文有多种含义时,就需要译者对比最佳契合度和应用的广泛性,决定最终译文方案。在此过程中,我深深感慨在该技术领域,中文用户社区蓬勃发展、高人众多。同时,鉴于本人在新加坡成长受教、工作科研,中文表述及使用与中国读者难免存在某些差异,翻译的过程中也难免会有遗漏或不周之处,敬请各位读者谅解、指教,一起学习。
  人工智能技术发展之快令人难以置信。在我翻译本书的几个月时间里,就有多个重要研究成果被发表,基准测试被刷新。以这种速度发展下去,我很好奇未来的世界会是什么样子?人工智能到底会给人类社会带来怎样的改变?如果未来有读者拾起本书,是否会觉得安德烈探讨的“机器学习”早已成为常识?
  谨以此书,献给求索无止的人类,还有热爱学习的机器!
  韩江雷
  2019年夏
  新加坡
精彩书摘
  作为计算机科学的一个分支,机器学习致力于研究如何利用代表某现象的样本数据构建算法。这些数据可能是自然产生的,可能是人工生成的,也可能来自于其他算法的输出。
  同时,机器学习也可以定义为一套解决实际问题的流程,具体步骤包括收集数据、利用算法对收集到的数据进行统计建模以及利用构建好的统计模型解决具体问题。
  为节省篇幅,本书中交替使用名词“学习”和“机器学习”。