Kaldi语音识别实战pdf下载

Kaldi语音识别实战百度网盘pdf下载

作者:
简介:Kaldi语音识别实战
出版社:电子工业出版社
出版时间:2020-03-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  Kaldi之父作序,实际操作, 读完即用
内容简介
  刚刚过去的十年是语音技术发展的黄金十年。2010年前后,从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手Siri开始,语音技术的发展转瞬进入了快车道。语音技术的基础算法不断推陈出新,语音任务Benchmark持续被刷新;语音产品的应用也从一开始很小众的语音输入,逐渐渗透到人们生活的方方面面。语音产业飞速发展,传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具Kaldi为切入点,深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。本书适合语音技术相关研究人员及互联网从业人员学习参考。
作者简介
  陈果果清华大学本科学位,约翰霍普金斯大学博士学位,主要研究方向是语音识别及关键词检索,师从语音识别开源工具Kaldi主要开发者Daniel Povey,以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google开发了Google的唤醒词Okay Google的原型,现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与开发语音识别开源工具Kaldi,以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI,专注于语音识别及自然语言处理,公司于2017年被百度收购,目前担任百度智能生活事业群组(SLG)主任架构师。都家宇本科毕业于大连理工大学,后于澳大利亚新南威尔士大学电子信息工程学院学习,取得信号处理专业硕士学位。研究生期间在导师 Julien Epps 指导下开始进行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部,以及阿里巴巴iDST、达摩院语音组,从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与 Kaldi 相关的工作有:Kaldi nnet1神经网络框架中 lstm 作者;发起并推动全球最大规模的中文开源数据集语音项目AISHELL-1、AISHELL-2,已服务于清华大学、北京大学、南洋理工大学、哥伦比亚大学等近200所国内外高校的科研项目。那兴宇本科和博士均毕业于北京理工大学,主要研究方向是语音识别和语音合成。先后任职于中国科学院声学研究所和阿里巴巴机器人,从事语音识别模型训练系统和语音交互系统的开发。目前就职于微软,担任资深应用科学家,从事语音识别算法和技术架构的开发及业务支持工作。2015年开始在Kaldi开源项目中贡献代码,参与了nnet3和chain模型的开发工作,并维护其中若干示例及OpenSLR的中文语音识别模型。张俊博博士毕业于中国科学院声学研究所,师从颜永红研究员。在小米公司从零起主导构建了整套语音算法研究框架,包括语音识别、智能设备语音唤醒、声纹识别、语音增强、用于语音应用的神经网络部署,均达到了当时的先进水平,并发表顶会论文若干篇,为后续的语音研发工作建立了基础。近期上线了用于外语学习的发音质量评测引擎,并给Kaldi贡献了发音良好度评分的代码。
目录
序1
序2
好评来袭
作者简介
前言
1 语音识别技术基础
1.1 语音识别极简史
1.1.1 语音识别早期探索
1.1.2 概率模型一统江湖
1.1.3 神经网络异军突起
1.1.4 商业应用推波助澜
1.2 语音识别系统架构
1.2.1 经典方法的直观理解
1.2.2 概率模型
1.2.3 端到端语音识别
1.3 一些其他细节
1.3.1 语音信号处理
1.3.2 发音和语言学
1.3.3 语音识别系统的评价
2 Kaldi概要介绍
2.1 发展历史
2.1.1 名字的由来
2.1.2 约翰霍普金斯大学夏季研讨会
2.1.3 Kaldi发展简史
2.2 设计思想
2.2.1 初衷
2.2.2 开源
2.2.3 训练脚本
2.3 安装
2.3.1 下载Kaldi代码
2.3.2 安装CUDA
2.3.3 安装编译依赖库
2.3.4 安装第三方工具
2.3.5 选择其他的矩阵库
2.3.6 编译Kaldi代码
2.3.7 配置并行环境
2.4 一个简单的示例
2.4.1 运行run.sh
2.4.2 脚本解析
2.5 示例介绍
2.5.1 数据示例
2.5.2 竞赛示例
2.5.3 其他示例
2.5.4 示例结构
3 数据整理
3.1 数据分集
3.1.1 Librispeech示例的数据处理过程
3.1.2 数据下载和解压
3.2 数据预处理
3.2.1 环境检查
3.2.2 生成表单文件
3.2.3 数据检查
3.3 输入和输出机制
3.3.1 列表表单
3.3.2 存档表单
3.3.3 读写声明符
3.3.4 表单属性
3.4 常用数据表单与处理脚本
3.4.1 列表类数据表单
3.4.2 存档类数据表单
3.4.3 数据文件夹处理脚本
3.4.4 表单索引的一致性
3.5 语言模型相关文件
3.5.1 发音词典与音素集
3.5.2 语言文件夹
3.5.3 生成与使用语言文件夹
4 经典声学建模技术
4.1 特征提取
4.1.1 用 Kaldi 提取声学特征
4.1.2 特征在 Kaldi 中的存储
4.1.3 特征的使用
4.1.4 常用特征类型
4.2 单音子模型的训练
4.2.1 声学模型的基本概念
4.2.2 将声学模型用于语音识别
4.2.3 模型初始化
4.2.4 对齐
4.2.5 Transition 模型
4.2.6 GMM 模型的迭代
4.3 三音子模型训练
4.3.1 单音子模型假设的问题
4.3.2 上下文相关的声学模型
4.3.3 三音子的聚类裁剪
4.3.4 Kaldi中的三音子模型训练流程
4.4 特征变换技术
4.4.1 无监督特征变换
4.4.2 有监督特征变换
4.5 区分性训练
4.5.1 声学模型训练流程的变迁
4.5.2 区分性目标函数
4.5.3 分子、分母
4.5.4 区分性训练在实践中的应用
5 构图和解码
5.1 N元文法语言模型
5.2 加权有限状态转录机
5.2.1 概述
5.2.2 OpenFst
5.3 用WFST表示语言模型
5.4 状态图的构建
5.4.1 用 WFST 表示发音词典
5.4.2 WFST 的复合运算
5.4.3 词图的按发音展开
5.4.4 LG 图对上下文展开
5.4.5 用 WFST 表示 HMM 拓扑结构
5.5 图的结构优化
5.5.1 确定化
5.5.2 最小化
5.5.3 图的stochastic性质
5.6 最终状态图的生成
5.7 基于令牌传递的维特比搜索
5.8 SimpleDecoder源码分析
5.9 Kaldi 解码器家族
5.10 带词网格生成的解码
5.11 用语言模型重打分提升识别率
6 深度学习声学建模技术
6.1 基于神经网络的声学模型
6.1.1 神经网络基础
6.1.2 激活函数
6.1.3 参数更新
6.2 神经网络在Kaldi中的实现
6.2.1 nnet1(nnet)
6.2.2 nnet2
6.2.3 nnet3
6.3 神经网络模型训练
6.3.1 输入特征的处理
6.3.2 神经网络的初始化
6.3.3 训练样本的分批与随机化
6.3.4 学习率的调整
6.3.5 并行训练
6.3.6 数据扩充
6.4 神经网络的区分性训练
6.4.1 区分性训练的基本思想
6.4.2 区分性训练的目标函数
6.4.3 区分性训练的实用技巧
6.4.4 Kaldi神经网络区分性训练示例
6.4.5 chain模型
6.5 与其他深度学习框架的结合
6.5.1 声学模型
6.5.2 语言模型
6.5.3 端到端语音识别
7 关键词搜索与语音唤醒
7.1 关键词搜索技术介绍
7.1.1 关键词搜索技术的主流方法
7.1.2 关键词搜索技术的主流应用
7.2 语音检索
7.2.1 方法描述
7.2.2 一个简单的语音检索系统
7.2.3 集外词处理之词表扩展
7.2.4 集外词处理之关键词扩展
7.2.5 集外词处理之音素/音节系统
7.2.6 一个实用的语音检索系统
7.3 语音唤醒
7.3.1 语音唤醒经典框架
7.3.2 语音唤醒进阶优化
7.3.3 语音唤醒的Kaldi实现思路
8 说话人识别
8.1 概述
8.2 基于i-vector和PLDA的说话人识别技术
8.2.1 整体流程
8.2.2 i-vector 的提取
8.2.3 基于余弦距离对 i-vector 分类
8.2.4 基于 PLDA 对 i-vector 分类
8.3 基于深度学习的说话人识别技术
8.3.1 概述
8.3.2 x-vector
8.3.3 基于 x-vector 的说话人识别示例
8.4 语种识别
9 语音识别应用实践
9.1 语音识别基本应用
9.1.1 离线语音识别与实时在线语音识别
9.1.2 语音识别应用模块
9.1.3 小结
9.2 话音检测模块
9.2.1 VAD算法
9.2.2 离线VAD
9.2.3 流式在线VAD
9.3 模型的适应
9.3.1 声学模型的适应
9.3.2 词表的扩展
9.3.3 语言模型的适应
9.3.4 小结
9.4 解码器的选择及扩展
9.4.1 Kaldi中的解码器
9.4.2 实际应用中的常见问题及扩展
9.4.3 小结
附录A 术语列表
附录B 常见问题解答
参考文献