文本机器学习深度学习神经网络知识共享迁移学习文本分析信息检索推荐系统自然语言处理人工智能特征工程文本pdf下载

文本机器学习深度学习神经网络知识共享迁移学习文本分析信息检索推荐系统自然语言处理人工智能特征工程文本百度网盘pdf下载

作者:
简介:文本机器学习深度学习神经网络知识共享迁移学习文本分析信息检索推荐系统自然语言处理人工智能特征工程文本
出版社:
出版时间:
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

  商品基本信息

商品名称:

  文本机器学习

作     者:

  [美]查鲁·C.阿加沃尔(Charu C.Aggarwal)

市 场 价:

  129.00元

ISBN  号:

  9787111648055

出版日期:

  2020-05

页     数:

  456

字     数:

  689千字

出 版 社:

  机械工业出版社


 

  目录

  

译者序

原书前言

致谢

第1章 文本机器学习导论1

1.1导论1

1.1.1本章内容组织结构2

1.2文本学习有何特别之处3

1.3文本分析模型4

1.3.1文本预处理和相似度计算4

1.3.2降维与矩阵分解6

1.3.3文本聚类6

1.3.4文本分类与回归建模8

1.3.5结合文本与异构数据的联合分析10

1.3.6信息检索与网页搜索11

1.3.7序列语言建模与嵌入11

1.3.8文本摘要11

1.3.9信息提取11

1.3.10意见挖掘与情感分析12

1.3.11文本分割与事件检测12

1.4本章小结12

1.5参考资料13

1.5.1软件资源13

1.6习题13

第2章 文本预处理与相似度计算15

2.1导论15

2.1.1本章内容组织结构16

2.2原始文本提取与词条化16

2.2.1文本提取中与网页相关的问题18

2.3从词条中提取词项19

2.3.1停用词移除19

2.3.2连字符19

2.3.3大小写转换20

2.3.4基于用法的合并20

2.3.5词干提取21

2.4向量空间表示与归一化21

2.5文本中的相似度计算23

2.5.1idf归一化和词干提取是否总是有用25

2.6本章小结26

2.7参考资料26

2.7.1软件资源26

2.8习题27

第3章 矩阵分解与主题建模28

3.1导论28

3.1.1本章内容组织结构30

3.1.2将二分解归一化为标准的三分解30

3.2奇异值分解(SVD)31

3.2.1SVD的例子33

3.2.2实现SVD的幂迭代法35

3.2.3SVD/LSA的应用35

3.2.4SVD/LSA的优缺点36

3.3非负矩阵分解36

3.3.1非负矩阵分解的可解释性38

3.3.2非负矩阵分解的例子39

3.3.3融入新文档40

3.3.4非负矩阵分解的优缺点41

3.4概率潜在语义分析(PLSA)41

3.4.1与非负矩阵分解的联系44

3.4.2与SVD的比较44

3.4.3PLSA的例子45

3.4.4PLSA的优缺点45

3.5隐含狄利克雷分布(LDA)概览46

3.5.1简化的LDA模型46

3.5.2平滑的LDA模型49

3.6非线性变换和特征工程50

3.6.1选择一个相似度函数52

3.6.2Nystrom估计58

3.6.3相似度矩阵的部分可用性60

3.7本章小结61

3.8参考资料62

3.8.1软件资源62

3.9习题63

第4章 文本聚类65

4.1导论65

4.1.1本章内容组织结构66

4.2特征选择与特征工程66

4.2.1特征选择67

4.2.2特征工程68

4.3主题建模和矩阵分解70

4.3.1混合隶属度模型与重叠簇70

4.3.2非重叠簇与双聚类:矩阵分解的角度70

4.4面向聚类的生成混合模型74

4.4.1伯努利模型75

4.4.2多项式模型76

4.4.3与混合隶属度主题模型的比较77

4.4.4与朴素贝叶斯分类模型的联系77

4.5k均值算法78

4.5.1收敛与初始化80

4.5.2计算复杂度80

4.5.3与概率模型的联系81

4.6层次聚类算法81

4.6.1高效实现与计算复杂度83

4.6.2与k均值的自然联姻84

4.7聚类集成85

4.7.1选择集成分量86

4.7.2混合来自不同分量的结果86

4.8将文本当作序列来进行聚类87

4.8.1面向聚类的核方法87

4.8.2数据相关的核方法:谱聚类90

4.9聚类到有监督学习的转换91

4.9.1实际问题92

4.10聚类评估93

4.10.1内部有效性度量的缺陷93

4.10.2外部有效性度量93

4.11本章小结97

4.12参考资料97

4.12.1软件资源98

4.13习题98

第5章 文本分类:基本模型100

5.1导论100

5.1.1标记的类型与回归建模101

5.1.2训练与测试102

5.1.3归纳、直推和演绎学习器102

5.1.4基本模型103

5.1.5分类器中与文本相关的挑战103

5.2特征选择与特征工程104

5.2.1基尼系数104

5.2.2条件熵105

5.2.3逐点互信息105

5.2.4紧密相关的度量方式106

5.2.5χ2-统计量106

5.2.6嵌入式特征选择模型108

5.2.7特征工程技巧108

5.3朴素贝叶斯模型109

5.3.1伯努利模型109

5.3.2多项式模型111

5.3.3实际观察113

5.3.4利用朴素贝叶斯对输出进行排序113

5.3.5朴素贝叶斯的例子113

5.3.6半监督朴素贝叶斯116

5.4近邻分类器118

5.4.11-近邻分类器的属性119

5.4.2Rocchio与近质心分类121

5.4.3加权近邻122

5.4.4自适应近邻:一系列有效的方法124

5.5决策树与随机森林126

5.5.1构造决策树的基本步骤126

5.5.2分裂一个节点127

5.5.3多变量分裂128

5.5.4决策树在文本分类中的问题129

5.5.5随机森林129

5.5.6把随机森林看作自适应近邻方法130

5.6基于规则的分类器131

5.6.1顺序覆盖算法131

5.6.2从决策树中生成规则133

5.6.3关联分类器134

5.6.4预测135

5.7本章小结135

5.8参考资料135

5.8.1软件资源137

5.9习题137

第6章 面向文本的线性分类与回归140

6.1导论140

6.1.1线性模型的几何解释141

6.1.2我们需要偏置变量吗142

6.1.3使用正则化的线性模型的一般定义143

6.1.4将二值预测推广到多类144

6.1.5面向文本的线性模型的特点145

6.2小二乘回归与分类145

6.2.1使用L2正则化的小二乘回归145

6.2.2LASSO:使用L1正则化的小二乘回归148

6.2.3Fisher线性判别与小二乘分类器150

6.3支持向量机(SVM)156

6.3.1正则优化解释156

6.3.2大间隔解释157

6.3.3Pegasos:在原始空间中求解SVM 159

6.3.4对偶SVM优化形式160

6.3.5对偶SVM的学习算法162

6.3.6对偶SVM的自适应近邻解释163

6.4对数几率回归165

6.4.1正则优化解释165

6.4.2对数几率回归的训练算法166

6.4.3对数几率回归的概率解释167

6.4.4多元对数几率回归与其他推广168

6.4.5关于对数几率回归性能的评述169

6.5线性模型的非线性推广170

6.5.1基于显式变换的核SVM171

6.5.2为什么传统的核函数能够提升线性可分性172

6.5.3不同核函数的优缺点174

6.5.4核技巧175

6.5.5核技巧的系统性应用176

6.6本章小结179

6.7参考资料180

6.7.1软件资源181

6.8习题181

第7章 分类器的性能与评估184

7.1导论184

7.1.1本章内容组织结构184

7.2偏置-方差权衡185

7.2.1一个形式化的观点186

7.2.2偏置和方差的迹象189

7.3偏置-方差权衡在性能方面可能的影响189

7.3.1训练数据规模的影响189

7.3.2数据维度的影响191

7.3.3文本中模型选择可能的影响191

7.4利用集成方法系统性地提升性能192

7.4.1bagging与子采样192

7.4.2boosting193

7.5分类器评估195

7.5.1分割为训练部分和测试部分196

7.5.2准确率度量197

7.5.3面向分类和信息检索的排序度量199

7.6本章小结204

7.7参考资料205

7.7.1boosting与对数几率回归的联系205

7.7.2分类器评估205

7.7.3软件资源206

7.7.4用于评估的数据集206

7.8习题206

第8章 结合异构数据的联合文本挖掘208

8.1导论208

8.1.1本章内容组织结构210

8.2共享矩阵分解的技巧210

8.2.1分解图210

8.2.2应用:结合文本和网页链接进行共享分解211

8.2.3应用:结合文本与无向社交网络214

8.2.4应用:结合文本的图像迁移学习215

8.2.5应用:结合评分和文本的推荐系统217

8.2.6应用:跨语言文本挖掘218

8.3分解机219

8.4联合概率建模技术223

8.4.1面向聚类的联合概率模型223

8.4.2朴素贝叶斯分类器224

8.5到图挖掘技术的转换224

8.6本章小结226

8.7参考资料227

8.7.1软件资源227

8.8习题228

第9章 信息检索与搜索引擎229

9.1导论229

9.1.1本章内容组织结构230

9.2索引和查询处理230

9.2.1词典数据结构231

9.2.2倒排索引233

9.2.3线性时间的索引构建234

9.2.4查询处理236

9.2.5效率优化244

9.3信息检索模型的评分248

9.3.1基于tf-idf的向量空间模型248

9.3.2二值独立模型249

9.3.3使用词项频率的BM25模型251

9.3.4信息检索中的统计语言模型252

9.4网络爬虫与资源发现254

9.4.1一个基本的爬虫算法255

9.4.2带偏好的爬虫256

9.4.3多线程257

9.4.4避开蜘蛛陷阱258

9.4.5用于近似重复检测的Shingling方法258

9.5搜索引擎中的查询处理259

9.5.1分布式索引构建259

9.5.2动态索引更新260

9.5.3查询处理260

9.5.4信誉度的重要性261

9.6基于链接的排序算法262

9.6.1PageRank262

9.6.2HITS267

9.7本章小结269

9.8参考资料269

9.8.1软件资源270

9.9习题270

第10章 文本序列建模与深度学习272

10.1导论272

10.1.1本章内容组织结构274

10.2统计语言模型274

10.2.1skip-gram模型277

10.2.2与嵌入的关系278

10.3核方法279

10.4单词-上下文矩阵分解模型  280

10.4.1使用计数的矩阵分解280

10.4.2GloVe嵌入282

10.4.3PPMI矩阵分解283

10.4.4位移PPMI矩阵分解283

10.4.5融入句法和其他特征283

10.5单词距离的图形化表示284

10.6神经语言模型285

10.6.1神经网络简介285

10.6.2基于word2vec的神经嵌入295

10.6.3word2vec(SGNS)是对数几率矩阵分解302

10.6.4除了单词以外:基于doc2vec的段落嵌入304

10.7循环神经网络(RNN)305

10.7.1实际问题307

10.7.2RNN的语言建模示例308

10.7.3图像描述应用310

10.7.4序列到序列学习与机器翻译311

10.7.5句子级分类应用314

10.7.6使用语言特征的词条级分类315

10.7.7多层循环网络316

10.8本章小结319

10.9参考资料319

10.9.1软件资源320

10.10习题321

第11章 文本摘要323

11.1导论323

11.1.1提取式摘要与抽象式摘要324

11.1.2提取式摘要中的关键步骤324

11.1.3提取式摘要中的分割阶段324

11.1.4本章内容组织结构325

11.2提取式摘要的主题词方法325

11.2.1词项概率325

11.2.2归一化频率权重326

11.2.3主题签名327

11.2.4句子选择方法329

11.3提取式摘要的潜在方法329

11.3.1潜在语义分析330

11.3.2词汇链331

11.3.3基于图的方法332

11.3.4质心摘要333

11.4面向提取式摘要的机器学习334

11.4.1特征提取334

11.4.2使用哪种分类器335

11.5多文档摘要335

11.5.1基于质心的摘要335

11.5.2基于图的方法336

11.6抽象式摘要337

11.6.1句子压缩337

11.6.2信息融合338

11.6.3信息排列338

11.7本章小结338

11.8参考资料339

11.8.1软件资源339

11.9习题340

第12章 信息提取341

12.1导论341

12.1.1历史演变343

12.1.2自然语言处理的角色343

12.1.3本章内容组织结构345

12.2命名实体识别345

12.2.1基于规则的方法346

12.2.2转化为词条级分类任务349

12.2.3隐马尔可夫模型350

12.2.4大熵马尔可夫模型354

12.2.5条件随机场355

12.3关系提取357

12.3.1转换为分类问题357

12.3.2利用显式的特征工程进行关系预测358

12.3.3利用隐式的特征工程进行关系预测:核方法361

12.4本章小结365

12.5参考资料365

12.5.1弱监督学习方法366

12.5.2无监督与开放式信息提取  366

12.5.3软件资源367

12.6习题367

第13章 意见挖掘与情感分析368

13.1导论368

13.1.1意见词典370

13.1.2把意见挖掘看作槽填充和信息提取任务371

13.1.3本章内容组织结构372

13.2文档级情感分析372

13.2.1面向分类的无监督方法374

13.3短语级与句子级情感分类375

13.3.1句子级与短语级分析的应用376

13.3.2主观性分类到小割问题的归约376

13.3.3句子级与短语级极性分析中的上下文377

13.4把基于方面的意见挖掘看作信息提取任务377

13.4.1Hu和Liu的无监督方法378

13.4.2OPINE:一种无监督方法379

13.4.3把有监督意见提取看作词条级分类任务380

13.5虚假意见381

13.5.1面向虚假评论检测的有监督方法382

13.5.2面向虚假评论制造者检测的无监督方法384

13.6意见摘要384

13.6.1评分总结384

13.6.2情感总结385

13.6.3基于短语与句子的情感总结385

13.6.4提取式与抽象式总结385

13.7本章小结385

13.8参考资料385

13.8.1软件资源387

13.9习题387

第14章 文本分割与事件检测388

14.1导论388

14.1.1与话题检测和追踪的关系388

14.1.2本章内容组织结构389

14.2文本分割389

14.2.1TextTiling390

14.2.2C99方法390

14.2.3基于现成的分类器的有监督的分割392

14.2.4基于马尔可夫模型的有监督的分割393

14.3文本流挖掘395

14.3.1流式文本聚类395

14.3.2面向报道检测的应用  396

14.4事件检测397

14.4.1无监督的事件检测397

14.4.2把有监督的事件检测看作有监督的分割任务399

14.4.3把事件检测看作一个信息提取问题399

14.5本章小结402

14.6参考资料402

14.6.1软件资源402

14.7习题403

参考文献404















  内容简介

《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先,详细介绍了面向文本数据的预处理技术和经典的机器学习技术(如矩阵分解与主题建模、聚类与分类/回归等),并深入探讨了模型的原理和内在联系以及相应的性能评估;其次,详细介绍了结合异构数据的文本学习技术(如知识共享与迁移学习等),以及面向信息检索与排序的索引和评分等技术;末尾,详细介绍了一些文本应用相关的重要技术,包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用,综合梳理了文本机器学习的多个技术,深入分析了模型的优缺点和内在联系,并在每章结束时提供了详细的参考资料、软件资源和习题。

   《文本机器学习》不仅可以作为工具书供具有相关背景的人士使用,也可以作为教材帮助具有线性代数和概率论基础的初学者入门。


^_^:2b0e14953342a6df95270bff45d4fb44