新一代人工智能与语音识别pdf下载pdf下载

新一代人工智能与语音识别百度网盘pdf下载

作者:
简介:本篇主要提供新一代人工智能与语音识别pdf下载
出版社:清华大学出版社
出版时间:2019-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析;建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

内容简介

本书系统介绍基于新闻语料的俄语连续语音识别方法。全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。

作者简介

马延周,男,博士研究生,主要研究方向为语音信息智能处理,主要承担计算机类、语言信息智能处理类本硕博课程的主讲与辅导任务,主持或参与的g家级、省部级、院校级各类项目多项,主编或参编的教材多部,科研成果主要集中在多语种语言信息处理及多语种语料的采集处理等领域。


目录

目录

第0章绪论1

0.1研究依据1

0.2研究对象与研究目标2

0.3研究方法3

0.4研究意义3

0.5本书的创新点4

0.6语料来源4

0.7本书的结构5

第1章语音识别技术研究综述7

1.1语音识别的定义与分类7

1.1.1语音识别的定义7

1.1.2语音识别的分类8

1.2语音识别技术的研究进展9

1.2.1语音识别技术的发展概况9

1.2.2国外俄语语音识别技术的研究进展10

1.2.3中国俄语语音识别技术的研究进展13

1.3语音识别系统的基本原理14

1.3.1特征提取15

1.3.2声学模型16

1.3.3语言模型17

1.3.4解码18

1.4语音识别技术研究所关注的关键问题19

本章小结21〖4〗新一代人工智能与语音识别〖2〗目录〖4〗第2章语音数据的加工处理22

2.1问题描述22

2.2众包的定义及内涵23

2.2.1众包的基本概念23

2.2.2众包的基本流程24

2.2.3众包的关键问题24

2.3解决方案25

2.3.1质量控制25

2.3.2语音标注平台的架构27

2.3.3标注平台的设计与实现28

2.4语音标注31

2.4.1语音有效性判断31

2.4.2语音转写规范32

2.4.3语音标注规范32

2.5实验设计与结果分析33

2.5.1实验设计33

2.5.2结果分析34

2.5.3结论36

本章小结36

第3章俄语声学模型的建立37

3.1连续语音识别37

3.1.1连续语音识别的整体模型38

3.1.2声学模型训练的HMMGMM方法40

3.1.3声学模型训练中的HMMDNN方法48

3.2俄语语音学概述52

3.2.1俄语的使用及分布情况52

3.2.2俄语语音的基本特点55

3.2.3俄语音素的发音特征56

3.2.4俄语元音音素的随位变化58

3.2.5俄语辅音音素的随位变化60

3.3俄语声学单元的选择61

3.3.1俄语SAMPA音素集61

3.3.2俄语音系表64

3.4实验设计与结果分析64

3.4.1实验设计65

3.4.2结果分析66

本章小结67

第4章俄语语言模型的建立68

4.1文本语料的准备与清洗68

4.1.1数据来源的筛选69

4.1.2数据爬取71

4.1.3数据的去重与清洗71

4.1.4格式化处理74

4.2语言模型简述75

4.2.1语言模型的平滑技术77

4.2.2语言模型的剪枝算法81

4.3语言模型的训练流程84

4.3.1语言模型的训练实现84

4.3.2词典的选择85

4.3.3LM的剪枝与优化87

4.4实验结果分析89

4.4.1词典规模测试89

4.4.2语料规模测试89

4.4.3语言模型剪枝测试90

本章小结91

第5章基于Kaldi的俄语语音识别原型系统92

5.1系统设计的目标与原则92

5.1.1系统设计的目标92

5.1.2系统设计的原则92

5.2系统的开发环境与整体架构93

5.2.1系统的开发环境93

5.2.2系统的整体架构93

5.3Kaldi环境的搭建94

5.3.1Kaldi及实验环境94

5.3.2Kaldi训练服务器的搭建96

5.3.3AM训练数据及参数设置98

5.3.4LM训练数据及参数设置107

5.4Kaldi训练优化111

5.4.1Kaldi声学建模111

5.4.2GPU加速113

5.5语音识别原型系统的设计114

5.5.1系统GUI的设计114

5.5.2在线识别功能114

5.5.3离线识别功能117

5.6实验设计与结果分析119

5.6.1实验设计119

5.6.2实验结果119

5.6.3结果分析120

本章小结121

第6章总结与展望122

6.1本书的主要成果122

6.2未来的研究计划123

附录A英汉术语对照表124

附录B其他相关资料126

B.1俄语发音词典(76277个词形)示例126

B.2俄语解码词表(189971个词形)示例127

B.3俄语字符Unicode编码对照表128

B.4俄语语音格式化程序(转换为16KB、16b)128

B.5俄语文本转Unicode编码程序129

B.6从https: //twitter.com网站上下载的部分网页文件

(json格式)示例131

B.7从http: //www.interfax.ru网站上下载的部分网页

文件(json格式)示例131

B.8俄语拉丁字母转写表132

参考文献134


精彩书摘

第5章

基于Kaldi的俄语语音识别原型系统

接正文本章主要根据前文的研究成果,基于Kaldi平台设计并实现一个俄语连续语音识别原型系统,属于理论方法探讨向工程应用的转化研究,涉及各类知识的综合运用,是本书的实践成果展示部分。主要内容为首先阐述系统设计的目标与原则,其次介绍设计与实现连续语音识别系统、优化声学模型和语言模型建模的方法及过程,最后对实验的结果进行详细分析,验证系统的有效性。

5.1系统设计的目标与原则〖*4/5〗5.1.1系统设计的目标基于标注新闻语料的连续俄语语音识别原型系统设计建立在前文研究的基础之上,旨在对前述算法及模型优化方法进行编码与实现,主要目标包括:

① 实现俄语语言模型的建模及优化,将Katz、KN等算法体现在训练过程中,用来测试语言模型的有效性,并检验算法的可靠性;

② 基于Kaldi进行二次开发,设计可复用的代码模块,为其他语种的语音识别研究提供示范应用和程序保障;

③ 设计一个开放平台,为成果转化提供一种可操作的技术方案。

5.1.2系统设计的原则

本书设计的基于Kaldi的俄语连续语音识别原型系统主要遵循如下原则。

① 代码复用性。系统的主界面的核心代码可以复用,以减少系统的工作量,只需要更改部分参数设置即可应用于不同语种的识别应用。

② 界面易用性。人机交互界面往往决定了系统的易懂度和易用度,对用户来说,主界面的易用性体现在用户的首次使用感受,界面能够反映系统的主体功能,能够使用户在最短时间内掌握其使用方法。

③ 平台兼容性。当前绝大多数用户对Windows系统界面比较容易接受,而对Linux系统界面的掌握尚有一定难度,因此在系统开发的过程中应考虑平台的兼容性,以达到用户最容易接受的程度。

以上原则的主要目的是降低系统开发的成本及难度,增强用户的使用体验。

〖4〗新一代人工智能与语音识别〖2〗第5章基于Kaldi的俄语语音识别原型系统〖4〗5.2系统的开发环境与整体架构〖*4/5〗5.2.1系统的开发环境基于Kaldi平台的二次开发;

服务器端ASR运行环境: Ubuntu 14.0;

客户端的操作系统: Windows 7;

软件开发环境: Microsoft Visual Studio 2010;

开发语言: C#、.NET Framework 4.0。

5.2.2系统的整体架构

基于Kaldi的俄语语音识别原型系统的整体架构如图51所示。

图51俄语语音识别原型系统Gstreamer用于搭建ASR服务器,供用户远程访问、传入语音文件、返回该语音文件的识别结果,Gstreamer ASR的架构如图52所示。

图52Gstreamer ASR的架构

5.3Kaldi环境的搭建〖*4/5〗5.3.1Kaldi及实验环境〖*2〗1. Kaldi简介2009年,在约翰霍普金斯大学的夏季研讨会上,Daniel Povey提出了一种新的子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM),同时发布了Kaldi语音识别系统。Kaldi是一个开源的语音识别系统,主要通过C++实现,通过Github发布更新,可以在通用的类UNIX环境和Windows环境下编译。

Kaldi语音识别系统主要基于带权有限状态转换器对模型进行训练和识别,同时使用OpenFst库实现语音识别功能。此外,声学模型训练有着大量的矩阵运算,Kaldi 封装了部分CLAPACK、ATLAS和TNT 库以满足上述需求。Kaldi的特征主要有: 与文本无关的LVCSR系统;基于FST的训练和解码;最大似然训练;有VTLN、SAT的脚本;Kaldi支持标准的机器学习训练模型和线性变换,如LDA HLDA,MLLT/STC;说话人自适应,如fMLLR、MLLR。声学模型方面支持GMM、SGMMs、DNN。其中,Kaldi的最大优点在于提供了多套DNN训练方法,以方便用户训练自己的DNN声学模型。

① 由Karel Vesely提供的训练方法,称为nnet1,该方法仅支持一个GPU或CPU进行训练,训练速度较慢。

② 由Daniel Povey提供的训练方法,称为nnet2,该方法同时支持多个GPU或者多个CPU,使用更加灵活,训练速度也有较大幅度的提高。识别率与nnet1相比有轻微的下降,但与其出色的训练效率相比,结果是可以接受的。该方法也是目前Kaldi最受欢迎的DNN训练方法。

③ 由Daniel Povey维护,持续更新中,称为nnet3,同样支持多个GPU或多个CPU,可训练LSTM声学模型,但还没有提供在线解码程序。

2. 实验环境

本实验环境的拓扑结构如图53所示。

图53实验室拓扑结构

其中,1号服务器硬件配置: 曙光云图W760G20高性能服务器,16核i7至强CPU,128GB内存,4块600GB硬盘,2块K40m 12GB的GPU,主要用来训练俄语声学模型。

2号服务器硬件配置: 曙光I620G20服务器,16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来进行俄语语言模型的训练。

3号服务器硬件配置: 曙光I620G20服务器, 16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来提供ASR引擎,实现俄语在线和离线语音识别。

客户端通过GUI远程登录服务器实现语音识别等功能。


前言/序言

自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理(Natural Language Processing,NLP)的一个重要领域。

世界上第一台能够自动识别语音的机器当属一种名为Radio Rex的玩具。这种玩具出现于20世纪20年代。Radio Rex是一个用赛璐璐材料制作成的玩具狗,它受到一根弹簧的控制,弹簧在500Hz的声音频率下会释放,弹簧一旦释放,玩具狗就会动起来。由于500Hz的频率粗略等于单词Rex中元音的第一个共振峰的频率,因此当人们说出Rex的时候,这只叫作Radio Rex的玩具狗就会在人们的呼唤声中自动走过来。

20世纪40年代末至50年代初,美国建立了一系列机器语音识别系统。早期,美国贝尔实验室中的系统可以识别一个单独说话人讲出的10个数字中的任何一个,这个系统存储了不依赖于说话人的10个模式,每个数字各有一个模式,每个模式都代表每个数字中的前两个元音的共振峰,研究人员通过选择与输入语音存在最高相关系数的方法使数字的语音识别正确率达到了97%~99%。

英国伦敦大学的Fry和Denes建立了一个音位识别系统,根据模式识别原则,该系统能够识别英语中的4个元音和9个辅音。Fry和Denes研发的系统首次使用了音位转移概率对语音识别系统进行约束。

20世纪60年代末至70年代初出现了许多重要的创新性研究成果。

首先,出现了一系列特征抽取算法,包括高效的快速傅里叶变换(Fast Fourier Transform,FFT)、倒谱(cepstrum)处理在语音中的应用以及语音编码中的线性预测编码(Linear Predictive Coding,LPC)的研制。

其次,提出了一些处理翘曲变形(warping)的方法,当与存储模式匹配时,通过展宽和收缩输入信号的方法处理说话速率和切分长度的差异。解决这些问题的最自然的方法是动态规划(dynamic programming)。在研究这个问题的时候,同样的算法被多次重新提出。 最早把动态规划应用于语音处理技术的人是Vintsyk,尽管他的成果没有被其他研究人员提及,但是后来有很多研究者都再次重复了他的发明。随后,Itakura把这种动态规划的思想和LPC系数相结合,并首次在语音编码中使用,他建立的系统可以抽取输入单词中的LPC特征,并使用动态规划的方法把这些特征与存储的LPC模板相匹配。这种动态规划方法的非概率应用是对输入语音进行模板匹配,称为动态时间翘曲变形(dynamic time warping)。

〖4〗新一代人工智能与语音识别〖2〗序〖4〗最后是隐马尔可夫模型(Hidden Markov Model,HMM)的兴起。1972年前后,美国的研究人员分别在两个实验室独立应用HMM研究语音问题。其中一部分的应用是由一些统计学领域的工作引起的,Baum和他的同事在普林斯顿国防分析研究所研究HMM,并把它应用于各种预测问题的解决。James Baker在于卡内基梅隆大学(CarnegieMellon University, CMU)攻读硕士期间研究了Baum等人的工作内容,并把他们的算法应用于语音处理。同时,在IBM公司的Thomas J. Watson研究中心,Frederick Jelinek、Robert Mercer、Lalit Bahl独立把HMM应用于语音研究,他们在信息模型方面的研究受到了Shannon的影响。IBM的系统和Baker的系统非常相似,都使用了贝叶斯(Bayes)算法,不同之处是早期的解码算法。Baker的DRAGON系统使用了维特比(Viterbi)动态规划解码,而IBM系统则应用了Jelinek的栈解码算法。Baker在建立DRAGON系统之前曾经短期参加过IBM小组的工作。IBM的语音识别方法在20世纪末期完全主导了语音识别领域,IBM实验室是把统计模型应用于自然语言处理的推动力量,他们研制了基于类别的多元语法模型,研制了基于HMM的词类标注系统,研制了统计机器翻译系统,他们还使用熵和困惑度作为评测系统的度量指标。

HMM逐渐在语音处理界流传开来,原因之一是美国国防部(U.S. Department of Defense)高级研究计划署(Advanced Research Projects Agency,ARPA)发起了一系列相关研究和开发计划。第一个“五年计划”始于1971年,目标是建立基于少数说话人的语音理解系统。这个系统使用了一个约束性语法和一个词表(包括1000个单词),要求语义错误率低于10%。ARPA资助了四个系统,并且对它们进行了比较,这四个系统是: 系统开发公司的系统(System Development Corporation,SDC)、Bolt,Beranek & Newman (BBN)的HWIM系统、卡内基梅隆大学的HearsayⅡ系统和Harpy系统。其中,Harpy系统使用了Baker基于HMM的DRAGON系统的简化版本,在评测系统时得到了最佳成绩。对于一般任务,Harpy系统的语义正确率达到了94%,是唯一一个达到了ARPA计划目标的系统。

自20世纪80年代中期开始,ARPA陆续资助了一些新的语音研究计划。第一个计划的任务是资源管理(Resource Management,RM),与ARPA早期的课题类似,其主要进行阅读语音(说话人阅读的句子的词汇量包含1000个单词)的转写(即语音识别),但这个系统还包括一个不依赖于说话人的语音识别装置。该计划的另一个任务是建立《华尔街杂志》(Wall Street Journal)的句子阅读识别系统,该系统的初始词汇量被限制在5000个单词以内,到最后,系统已经没有了词汇量的限制。事实上,大多数系统的词汇量都已经有了约6万个单词。后来的语音识别系统能够识别的语音已经不再是简单的阅读语音了,而是更加自然的语音。其中,广播新闻识别系统可以转写广播新闻,甚至转写那些非常复杂的新闻,如现场采访;还有CallHome系统、 CallFriend系统和Fisher系统,它们可以识别人们在电话交流中的自然对话。空中交通信息系统(Air Traffic Information System,ATIS)属于语音理解领域的课题之一,该系统可以帮助用户预订飞机票,回答用户关于航班、飞行时间、日期等方面的问题。

ARPA计划大约每年进行一次汇报,参加汇报的除了有ARPA资助的课题以外,还有来自北美和欧洲的其他“志愿者”系统,汇报时将分别测试各个系统的单词错误率和语义错误率。在早期测试中,营利型公司一般不参加比赛,但是随着时间的推移,很多公司开始积极参赛(特别是IBM公司和AT&T公司)。ARPA的比赛促进了各个实验室之间的借鉴和交流,因为在比赛中可以很容易地看出大家过去一年的研究进展和成果,这成为了HMM模型能够传播到每一个语音识别实验室的重要因素。ARPA的计划也造就了很多有用的数据库,这些数据库原来都是为了评估而设计的训练系统和测试系统(如TIMIT、RM、WSJ、ATIS、BN、CallHome、Switchboard、Fisher),但是后来却都在其他总体性研究中得到了应用。

中国在语音自动处理领域也取得了很不错的成绩。于1999年6月9日成立的安徽科大讯飞信息科技股份有限公司(简称科大讯飞)是一家专门从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞推出的产品包括大型电信级的应用到小型嵌入式的应用,电信、金融等行业到企业和家庭用户,PC到手机再到MP3、MP4、PMP和玩具,能够满足不同的应用环境。科大讯飞占有中文语音技术市场60%以上的市场份额,以科大讯飞为核心的中文语音产业链已经初具规模。

由以上介绍不难看出,自动语音识别是一个交叉学科,需要具备语言学、计算机科学、声学等领域的知识。

本书作者马延周不惧困难,他努力进行知识更新后的再学习,根据俄语语音的特点优化了声学层的HMM模型,采用较好的算法解决了训练数据不足和训练速度慢的问题;他还在具有较强背景噪声和多个说话人的环境下采用了降噪技术,增强了俄语语音识别的健壮性;此外,他还利用了各种能够辅助俄语语音识别的语言信息,除了俄语语音的频谱特征参数、能量参数、韵律参数以外,他还综合利用了俄语构词规则、变格变位规则、句法表现形式以及语义辨析和语境条件,有效地降低了俄语语音识别的错误率。

在研究过程中,作者建立了基于众包的俄语语音标注平台和语音语料库,设计了面向俄语新闻网页文本数据过滤清洗系统的俄语文本语料库,为俄语连续语音识别系统的研究开辟了新途径。作者还构建了一个具有一定规模的俄语发音词典,可以将俄语文本转写为相应的俄语标准发音,并对俄语语音识别中的音素集和字音转换规则进行了优化,降低了声学模型的训练难度,提高了模型的训练效果。最后,作者设计并实现的俄语连续语音识别原型系统同时具有在线识别功能和离线识别功能,这在一定程度上填补了中国俄语语音识别研究领域的空白。

本书详细阐述了作者的创新性研究,值得我们认真学习,是为序。


冯志伟2019年6月5日


前言

随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语言的功能已由人际交流延伸至人机交流和机机交流,而实现这一目标的重要前提是计算机能够听懂并识别和理解人类的语言。当前,作为人机交互的关键技术,语音信息智能处理已成为网络空间环境下世界各国研究者广泛关注的热点问题之一。尤其是随着新媒体的出现和大数据的兴起,人们迫切需要对具有多通道、多来源、多语言特征的海量语音信息技术进行深化研究与创新突破,此项技术的战略意义和安全价值日渐突显。

近年来,国内外众多科研院所和企业都对英文和中文语音识别进行了深入的探索和研究,开发了一系列实用化系统,但是在俄语语音识别领域,尤其是对连续语音识别的研究还相对薄弱。本书通过考察分析国内外语音识别技术的研究现状及存在的难题,重点研究俄语连续语音识别的基本原理和关键技术,尝试采用深度神经网络(DNN)的声学模型优化训练方法,设计俄语连续语音识别原型系统。

本书试图解决以下三个问题:

(1) 俄语新闻语音语料和文本语料的采集、过滤、清洗、标注及建库方法;

(2) 建立基于DNN的声学模型和基于SRILM的语言模型,分析两类模型的训练算法优化和训练结果,并通过对比预测生成适用于语音识别的俄语发音词典;

(3) 设计与实现兼具在线和离线识别功能的俄语连续语音识别原型系统,并对原型系统的性能进行测试验证。

本书取得的主要成果如下:

(1) 在俄语声学模型训练过程中设计了基于众包的语音标注平台,建立了360小时的俄语新闻标注语音语料库,形成俄语语音识别音素集,采用DNN的优化训练方法生成了大小为59.7MB的声学模型;

(2) 在俄语语言模型训练过程中设计了俄语新闻文本语料过滤清洗系统,建立了10GB规模的纯净可训练俄语文本语料库,采用SRILM的优化训练方法生成了大小为1.21GB的四元剪枝语言模型;

(3) 通过数据驱动的方法预测生成包含76277个词形的俄语发音词典,利用该词典的数据资源,并基于Kaldi进行二次开发,实现了具有在线识别和离线识别功能的俄语连续语音识别原型系统,可以为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。


马延周2019年7月〖4〗新一代人工智能与语音识别〖2〗前言〖4〗