语音信号处理(第3版)pdf下载

语音信号处理(第3版)百度网盘pdf下载

作者:
简介:语音信号处理(第3版)
出版社:清华大学出版社
出版时间:2019-05-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐
  语音交互是实现人工智能的基石!全面论述语音信号的生成、处理、压缩、传输、合成、识别与理解!清华、中科院、中国计算机学会、百度人工智能专家联袂推荐!本书适合作为丛书语音信号处理、音频处理等方向的工程技术人员,高校师生阅读,参考!
内容简介
  本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。第1章介绍语音信号处理及其发展过程;第2章介绍语音信号的产生与人类听觉的机理,传统的线性语音产生模型,以及非线性语音产生模型;第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,最后对广泛使用的倒谱特征以及同态解卷积进行介绍;第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法;第5章介绍语音编码的相关知识,包括语音的波形编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法;第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,从隐马尔可夫模型技术到基于深度学习的语音识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,最后还介绍新兴起的语音识别应用技术,以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等;第7章介绍说话人识别的基本内容,从基于GMM UBM的识别技术到基于支持向量机的识别技术,从基于联合因子分析的识别技术到基于i vector的识别技术,以及近年来受到关注的基于深度学习的识别技术等;第8章介绍顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术;第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及基于HMM的合成技术等内容。本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。
作者简介
  韩纪庆 现任哈尔滨工业大学计算机科学与技术学院二级教授、学校长聘岗教授、博士生导师。兼任中国中文信息学会理事及语音处理专委会副主任、全国人机语音通讯学术会议常设机构委员会副主席、《中文信息学报》编委、《数据采集与处理》杂志编委。长期从事语音信号处理、音频信息处理等领域的教学与科研工作。作为项目负责人,正在主持和已经完成“国家自然科学基金重点项目”2项、“面上项目”5项、“国家973计划”课题1项、教育部“跨世纪优秀人才培养计划”基金1项及其他科研项目10余项。获省部级科技二等奖3项、三等奖2项。获国家发明专利7项。已在国内外刊物和会议上发表论文200余篇,并出版图书5部。
目录
作者简介
内容简介
前言PREFACE
第1章 绪论
第2章 语音信号的声学基础及产生模型
第3章 语音信号的特征分析
第4章 语音信号的线性预测分析
第5章 语音编码
第6章 语音识别
第7章 说话人识别
第8章 顽健语音识别技术
第9章 语音合成
前言
  语音信号处理以语音为研究对象,涉及心理学、生理学、语言学、数字信号处理、模式识别、人工智能、机器学习等诸多研究领域,甚至还涉及人说话时的表情、手势等体态语言信息。由于语音是人们日常生活中的主要交流手段,因此语音信号处理在现代信息社会中占有重要地位。
  语音信号处理的研究工作最早可以追溯到19世纪70年代,在20世纪得到了长足的发展,并在20世纪90年代,随着IBM、Microsoft、Apple、AT&T、NTT等着名公司为语音识别的实用化开发投以巨资,掀起了语音信号处理技术的应用热潮。进入21世纪,伴随着以深度神经网络为代表的深度学习理论的全面突破、以通用图形处理器(GPU)为代表的硬件技术的迅猛发展,语音识别的性能得到显着提高,从而迎来了语音信号处理技术的蓬勃发展。
  目前在语音信号处理领域中不断有新的技术涌现。本书再版的目的就是将这些新的技术融合到已有的相关理论与技术中。全书以语音信号处理过程的总体框架为线索,全面阐述语音信号的前端处理技术、语音编码技术、语音识别和说话人识别技术,以及语音合成技术。相对于上一版,本书补充了基于深度学习的语音识别、基于i-vector的说话人识别等本领域的前沿理论和技术,以利于读者充分了解最新的学术发展动态,并能在学术思想上受到启发。同时,书中也介绍了当前深度学习方法中广泛采用的Kaldi工具的使用技巧,以帮助读者掌握相关的实践手段。
  本书涉及作者承担的多项国家自然科学基金项目的部分研究成果,在内容上既注重基本理论的系统性,又兼顾实用性和可读性,可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。
  本书的第1、2、4章由韩纪庆编写,第3、6、9章由张磊编写,第5、7、8章由郑铁然编写。韩纪庆负责全书的总体安排和审定。在新版增加的内容中,郑铁然在基于深度学习的语音识别部分、陈晨在说话人识别部分、史秋莹在Kaldi工具部分的撰写上作出了重要贡献。郑贵滨为书稿的完善做了大量工作,在此表示感谢!
  本书虽然是作者从事语音信号处理工作30年的理论与实践的结晶,但因作者水平有限、时间仓促,缺点和错误在所难免,敬请读者批评指正,提出宝贵意见。
精彩书摘
  在研究和分析各种语音信号处理技术之前,必须了解有关语音信号的一些基本特性。为了对语音信号进行数字处理,需要建立一个能够精确描述语音产生过程和语音全部特征的数学模型,即根据语音的产生过程建立一个既实用又便于分析的语音信号模型。本章将讨论这些问题。
  语音是在说话人和听者之间互相传递的,传递的媒介是声波。说话人的发音器官做出发音动作,接着空气振动形成声波,声波传到听者的耳朵里,立即引起听者的听觉反应,语音的传递就是这样的一个过程。其中发音动作属于生理现象,空气振动属于物理现象,而听觉反应属于心理现象。
  从语音的传递过程出发来研究语音,就产生了语音学的三个分支:①发音语音学(articulatory phonetics)。发音语音学是最早发展起来的语音学,它的目的是从生理的角度研究语音。在没有仪器的时候,通常只能直接观察发音器官的动作来分析语音。由于生理活动不能完全依靠直观分析,因而人们制造出一些仪器来进行辅助研究。这样直观分析和仪器分析的结合,就能够清楚地认识语音的发音部位和发音方法。②声学语音学(acoustic phonetics)。声学语音学是在20世纪40年代开始发展起来的学科。它的目的是从声学角度研究语音的物理性质,同时考察语音物理性质和发音器官之间的关系。随着“频谱仪”(sound spectrograph),以及其他电子声学仪器的发明,声学语音学也发展迅速,人们对语音的声学性质的认识也不断深入。于是,进一步出现了声音模拟、语音合成以及语音识别等研究。③听觉语音学和心理语言学(auditory phonetics and psycholinguistics)。听觉语音学和心理语言学是较新的学科。因为语言的传递从大脑开始,又到大脑结束,或者说,语言的传递起点和终点都在大脑,所以听觉语音学和心理语言学就以大脑作为研究对象。它的目的是要探索大脑通过什么步骤或者方式来处理语音的发出和接收,以及语言信息又是以什么形式在大脑的什么部位存储起来。声音到达大脑的第一关是人耳,即听觉系统的起点在人耳,因此听觉语音学和心理语言学还要研究人耳的构造,以及人耳是如何传递声波的。
  本章首先对语音的产生过程及人耳的听觉过程进行分析,接着给出传统的线性语音产生模型,以及目前广泛受到重视的非线性语音产生模型,这些都是从事语音信号处理研究的基础知识。