智能语音处理pdf下载pdf下载

智能语音处理百度网盘pdf下载

作者:
简介:本篇主要提供智能语音处理pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2020-09
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐

适读人群 :本书可以作为高等院校人工智能、电子信息工程、物联网工程、数据科学与大数据技术、通信工程等专业高年级本科生以及智能科学与技术、信号与信息处理、网络空间安全、通信与信息系统等学科研究生的参考教材,也可供从事语音处理技术研究与应用的科研及工程技术人员参考。

十余年深耕智能语音处理的研究结晶

人工智能在语音处理领域的应用成果


内容简介

本书从智能化社会对语音处理提出的新要求出发,系统地介绍了智能语音处理涉及的基础理论、基本技术、主要方法以及典型的智能语音处理应用,理论与实际紧密结合,适合作为高等院校人工智能、电子信息工程、物联网工程、数据科学与大数据技术、通信工程等专业高年级本科生以及智能科学与技术、信号与信息处理、网络空间安全、通信与信息系统等学科研究生的参考教材,也可供从事语音处理技术研究与应用的科研及工程技术人员参考。


本书共11章,可分为四个部分。

第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。

第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。

第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。

第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。

本书共11章,可分为四个部分。

第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。

第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。

第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。

第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。


作者简介

本书编写组


主 编 张雄伟 孙 蒙 杨吉斌

副主编 曹铁勇 郑昌艳 吴海佳

参 编 曾 理 韩 伟 陈栩杉

闵 刚 孙 健 孙新建

周 彬 黄建军 苗晓孔

李嘉康 张星昱


目录

前言
第1章 智能语音处理导论1
 11 概述1
 12 经典语音处理2
   121 语音处理的发展2
   122 语音基本表示方法3
   123 语音处理基本方法3
   124 经典语音处理方法的不足4
 13 智能语音处理5
   131 智能语音处理的基本概念5
   132 智能语音处理的基本框架5
   133 智能语音处理的基本模型6
 14 语音处理的应用7
   141 语音处理的传统应用领域8
   142 语音处理的新应用领域11
 15 小结14
 参考文献14
第2章 稀疏和压缩感知15
 21 引言15
 22 稀疏和稀疏表示16
   221 稀疏16
   222 稀疏表示18
 23 冗余字典19
   231 基本概念19
   232 字典学习20
   233 字典学习算法22
   234 原子选择算法25
 24 压缩感知27
   241 基本概念27
   242 压缩感知模型29
   243 观测矩阵30
   244 信号重构32
 25 小结33
 参考文献33
第3章 隐变量模型36
 31 引言36
 32 高斯混合模型36
   321 基本概念37
   322 GMM参数估计37
 33 隐马尔可夫模型39
   331 基本概念39
   332 HMM关键问题42
 34 高斯过程隐变量模型48
   341 基本模型48
   342 GPLVM的理论来源49
   343 GPLVM模型训练50
 35 小结51
 参考文献51
第4章 组合模型52
 41 引言52
 42 主成分分析53
   421 基本模型53
   422 求解算法54
 43 非负矩阵分解56
   431 基本模型56
   432 求解算法57
   433 NMF与其他数据表示模型的关系58
 44 鲁棒组合模型60
   441 组合模型的鲁棒性分析61
   442 鲁棒主成分分析61
   443 鲁棒非负矩阵分解63
 45 小结64
 参考文献64
第5章 人工神经网络和深度学习65
 51 引言65
 52 神经网络基础66
   521 神经元模型66
   522 浅层神经网络67
   523 深度神经网络68
 53 深度学习69
   531 基本概念和形式69
   532 深度网络的学习方法70
 54 深度神经网络的典型结构71
   541 深度置信网络71
   542 自动编码器与栈式自动编码器72
   543 卷积神经网络74
   544 循环神经网络75
   545 生成式对抗网络77
 55 小结79
 参考文献79
第6章 语音压缩编码81
 61 引言81
 62 基于字典学习的语音信号压缩感知82
   621 语音信号的稀疏性82
   622 语音在常见变换域的稀疏化83
   623 基于K-L展开的语音非相干字典84
   624 基于K-L非相干字典的语音压缩重构87
   625 实验仿真与性能分析88
 63 基于梅尔倒谱系数重构的语音压缩编码93
   631 基于梅尔倒谱分析的抗噪语音编码模型94
   632 基于稀疏约束的梅尔倒谱合成96
   633 梅尔倒谱系数的量化算法99
   634 实验仿真与性能分析103
 64 基于深度学习的语音压缩编码107
   641 基于DAE的幅度谱编码和量化107
   642 基于DAE的低速率语音编码110
   643 实验仿真与性能分析111
 65 小结113
 参考文献113
第7章 语音增强115
 71 引言115
 72 语音增强技术基础116
   721 语音增强的估计参数116
   722 智能语音增强的语音特征117
   723 性能评价118
 73 基于非负矩阵分解的语音增强120
   731 基本模型121
   732 基于不相交约束非负矩阵分解的语音增强122
   733 基于CNMF字典学习的语音增强127
 74 基于深度学习的语音增强136
   741 基于听觉感知加权的深度神经网络语音增强方法136
   742 基于听觉感知掩蔽的深度神经网络语音增强方法141
 75 小结151
 参考文献152
第8章 语音转换155
 81 引言155
 82 语音转换基本原理155
 83 语音转换模型与评价156
   831 语音分析/合成模型156
   832 语音参数的选择157
   833 时间对齐157
   834 转换模型和规则158
   835 转换性能评价159
 84 基于非负矩阵分解的谱转换160
   841 概述160
   842 基于卷积非负矩阵分解的谱转换161
   843 声道谱转换效果164
 85 基于深度神经网络的谱转换168
   851 深度学习驱动下的语音转换168
   852 面向谱转换的神经网络模型选择168
   853 基于BLSTM和神经网络声码器交替训练的语音转换171
 86 小结176
 参考文献176
第9章 说话人识别178
 91 引言178
 92 说话人识别基础179
   921 说话人识别系统框架179
   922 典型的说话人识别模型180
 93 基于i-vector的说话人识别及其改进181
   931 基于i-vector的说话人识别概述181
   932 用于提高i-vector鲁棒性的帧加权方法182
   933 实验结果与分析187
 94 基于深度神经网络的说话人识别187
   941 基于深度神经网络的说话人识别概述187
   942 基于对比度损失函数优化说话人矢量189
   943 实验结果与分析191
 95 说话人识别系统的攻击与防御192
   951 攻击和防御的背景192
   952 说话人识别系统的攻击方法192
   953 说话人识别攻击的检测方法194
   954 实验结果与分析196
 96 小结196
 参考文献197
第10章 骨导语音增强200
 101 引言200
 102 骨导语音增强基础201
    1021 骨导语音的产生与特性201
    1022 骨导语音盲增强的特点202
    1023 骨导语音盲增强的典型方法203
 103 基于长短时记忆网络的骨导语音盲增强205
    1031 骨导/气导语音的谱映射206
    1032 基于深度残差BLSTM的骨导语音盲增强方法207
    1033 实验仿真及性能分析211
 104 基于均衡-生成组合谱映射的骨导语音盲增强215
    1041 均衡法215
    1042 基于均衡-生成组合谱映射的骨导语音盲增强方法216
    1043 实验仿真及性能分析218
 105 小结222
 参考文献223
第11章 智能语音处理展望224
 111 智能语音处理的未来224
 112 有待解决的关键技术225
    1121 语音识别226
    1122 语音合成228
    1123 语音增强229
    1124 语音处理中的安全问题230
 113 小结230
 参考文献230
缩略语232

前言/序言

语音是人类相互交流和通信的最方便快捷的手段。如何智能高效地实现语音传输、增强、识别、合成、存储、转换或通过语音实现人机交互,是现代语音信息处理领域的重要研究课题。智能语音处理涉及人工智能、数字信号处理、语音学、语言学、生理学、计算机科学等诸多学科,是目前智能科学与技术和信号与信息处理学科中发展最为迅速的一个研究领域。
近二十年来,随着人工智能技术的快速发展,智能语音处理技术及应用取得了一系列重大进展,语音编码、语音识别、语音合成、语音增强、说话人识别等方向的研究成果不断涌现,语音理解、语音转换、语音情感分析等新应用进展顺利。同时,迅猛发展的高性能计算设备(CPU、GPU等)、高性能数字信号处理(DSP)芯片为实时地实现更高复杂度的智能语音处理算法提供了可能。目前,市场上已有不少智能语音处理的应用产品,并且还在不断推出新产品。以智能手机为代表的智能终端产品以及以人机语音交互为代表的语音应用场景给智能语音处理提出了新的要求,智能语音处理技术的应用前景和市场潜力十分巨大。
本书以作者近十年来指导博士研究生开展语音信息智能处理研究取得的成果为基础,结合主持开展的国家自然科学基金、江苏省自然科学基金和江苏省优秀青年科学基金等语音处理科研项目,并参考相关文献资料编著而成。全书系统地介绍了智能语音处理的基本理论、方法和典型应用,并介绍了研究现状和发展趋势。
本书是按照导论—基础理论—应用实践的主线展开的,系统地介绍了智能语音处理涉及的基础理论、方法、技术以及典型的智能语音处理应用。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
本书的内容组织结构如下图所示。
张雄伟构建了全书的内容架构,并重点编写了第1章及第11章部分内容,孙蒙编写了第4、5、8、9章,杨吉斌编写了第2、3、6、7、10章及第11章部分内容。本书编写过程中,曾理、陈栩杉博士参与了第2章的编写,孙新建博士参与了第3章的编写,陈栩杉博士参与了第4章的编写,韩伟博士参与了第5章的编写,曾理、闵刚博士参与了第6章的编写,周彬、黄建军、韩伟博士参与了第7章的编写,孙健博士和博士生苗晓孔参与了第8章的编写,吴海佳博士以及博士生李嘉康、张星昱参与了第9章的编写,曹铁勇教授和郑昌艳博士参与了第10章的编写。
全书由张雄伟、杨吉斌、孙蒙审校,张雄伟对全书进行统校。
由于作者研究范围和水平所限,疏漏和错误之处在所难免,恳请广大读者批评指正。

作 者
2020年5月于陆军工程大学(南京)