《新一代人工智能与语音识别》[59M]百度网盘|亲测有效|pdf下载

书籍详情

新一代人工智能与语音识别
出版社:清华大学出版社
出版时间:2019-07
热度:8248
上架时间:2024-06-30 08:52:20
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

阐述了语音识别的基本类型，对近60年来国内外俄语连续语音识别研究现状进行评析；建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

内容简介

本书系统介绍基于新闻语料的俄语连续语音识别方法。全书共分以下几个部分：基于Kaldi设计实现俄语连续语音识别原型系统，使之具备在线识别和离线识别功能，以验证声学模型和语言模型优化算法的有效性，进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标，需要进行如下环环紧扣的操作步骤：俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元（音素集）的确定、声学模型和语言模型的优化等。

作者简介

马延周，男，博士研究生，主要研究方向为语音信息智能处理，主要承担计算机类、语言信息智能处理类本硕博课程的主讲与辅导任务，主持或参与的g家级、省部级、院校级各类项目多项，主编或参编的教材多部，科研成果主要集中在多语种语言信息处理及多语种语料的采集处理等领域。

精彩书摘

第5章

基于Kaldi的俄语语音识别原型系统

接正文本章主要根据前文的研究成果,基于Kaldi平台设计并实现一个俄语连续语音识别原型系统,属于理论方法探讨向工程应用的转化研究,涉及各类知识的综合运用,是本书的实践成果展示部分。主要内容为首先阐述系统设计的目标与原则,其次介绍设计与实现连续语音识别系统、优化声学模型和语言模型建模的方法及过程,最后对实验的结果进行详细分析,验证系统的有效性。

5.1系统设计的目标与原则〖*4/5〗5.1.1系统设计的目标基于标注新闻语料的连续俄语语音识别原型系统设计建立在前文研究的基础之上,旨在对前述算法及模型优化方法进行编码与实现,主要目标包括:

① 实现俄语语言模型的建模及优化,将Katz、KN等算法体现在训练过程中,用来测试语言模型的有效性,并检验算法的可靠性;

② 基于Kaldi进行二次开发,设计可复用的代码模块,为其他语种的语音识别研究提供示范应用和程序保障;

③ 设计一个开放平台,为成果转化提供一种可操作的技术方案。

5.1.2系统设计的原则

本书设计的基于Kaldi的俄语连续语音识别原型系统主要遵循如下原则。

① 代码复用性。系统的主界面的核心代码可以复用,以减少系统的工作量,只需要更改部分参数设置即可应用于不同语种的识别应用。

② 界面易用性。人机交互界面往往决定了系统的易懂度和易用度,对用户来说,主界面的易用性体现在用户的首次使用感受,界面能够反映系统的主体功能,能够使用户在最短时间内掌握其使用方法。

③ 平台兼容性。当前绝大多数用户对Windows系统界面比较容易接受,而对Linux系统界面的掌握尚有一定难度,因此在系统开发的过程中应考虑平台的兼容性,以达到用户最容易接受的程度。

以上原则的主要目的是降低系统开发的成本及难度,增强用户的使用体验。

〖4〗新一代人工智能与语音识别〖2〗第5章基于Kaldi的俄语语音识别原型系统〖4〗5.2系统的开发环境与整体架构〖*4/5〗5.2.1系统的开发环境基于Kaldi平台的二次开发;

服务器端ASR运行环境: Ubuntu 14.0;

客户端的操作系统: Windows 7;

软件开发环境: Microsoft Visual Studio 2010;

开发语言: C#、.NET Framework 4.0。

5.2.2系统的整体架构

基于Kaldi的俄语语音识别原型系统的整体架构如图51所示。

图51俄语语音识别原型系统Gstreamer用于搭建ASR服务器,供用户远程访问、传入语音文件、返回该语音文件的识别结果,Gstreamer ASR的架构如图52所示。

图52Gstreamer ASR的架构

5.3Kaldi环境的搭建〖*4/5〗5.3.1Kaldi及实验环境〖*2〗1. Kaldi简介2009年,在约翰霍普金斯大学的夏季研讨会上,Daniel Povey提出了一种新的子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM),同时发布了Kaldi语音识别系统。Kaldi是一个开源的语音识别系统,主要通过C++实现,通过Github发布更新,可以在通用的类UNIX环境和Windows环境下编译。

Kaldi语音识别系统主要基于带权有限状态转换器对模型进行训练和识别,同时使用OpenFst库实现语音识别功能。此外,声学模型训练有着大量的矩阵运算,Kaldi 封装了部分CLAPACK、ATLAS和TNT 库以满足上述需求。Kaldi的特征主要有: 与文本无关的LVCSR系统;基于FST的训练和解码;最大似然训练;有VTLN、SAT的脚本;Kaldi支持标准的机器学习训练模型和线性变换，如LDA HLDA,MLLT/STC;说话人自适应，如fMLLR、MLLR。声学模型方面支持GMM、SGMMs、DNN。其中，Kaldi的最大优点在于提供了多套DNN训练方法,以方便用户训练自己的DNN声学模型。

① 由Karel Vesely提供的训练方法,称为nnet1,该方法仅支持一个GPU或CPU进行训练,训练速度较慢。

② 由Daniel Povey提供的训练方法,称为nnet2,该方法同时支持多个GPU或者多个CPU,使用更加灵活,训练速度也有较大幅度的提高。识别率与nnet1相比有轻微的下降,但与其出色的训练效率相比,结果是可以接受的。该方法也是目前Kaldi最受欢迎的DNN训练方法。

③ 由Daniel Povey维护,持续更新中,称为nnet3,同样支持多个GPU或多个CPU,可训练LSTM声学模型,但还没有提供在线解码程序。

2. 实验环境

本实验环境的拓扑结构如图53所示。

图53实验室拓扑结构

其中,1号服务器硬件配置: 曙光云图W760G20高性能服务器,16核i7至强CPU,128GB内存,4块600GB硬盘,2块K40m 12GB的GPU,主要用来训练俄语声学模型。

2号服务器硬件配置: 曙光I620G20服务器,16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来进行俄语语言模型的训练。

3号服务器硬件配置: 曙光I620G20服务器, 16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来提供ASR引擎,实现俄语在线和离线语音识别。

客户端通过GUI远程登录服务器实现语音识别等功能。

查看全部↓

前言/序言

序

自动语音识别（Automatic Speech Recognition，ASR）是自然语言处理（Natural Language Processing，NLP）的一个重要领域。

世界上第一台能够自动识别语音的机器当属一种名为Radio Rex的玩具。这种玩具出现于20世纪20年代。Radio Rex是一个用赛璐璐材料制作成的玩具狗，它受到一根弹簧的控制，弹簧在500Hz的声音频率下会释放，弹簧一旦释放，玩具狗就会动起来。由于500Hz的频率粗略等于单词Rex中元音的第一个共振峰的频率，因此当人们说出Rex的时候，这只叫作Radio Rex的玩具狗就会在人们的呼唤声中自动走过来。

20世纪40年代末至50年代初，美国建立了一系列机器语音识别系统。早期，美国贝尔实验室中的系统可以识别一个单独说话人讲出的10个数字中的任何一个，这个系统存储了不依赖于说话人的10个模式，每个数字各有一个模式，每个模式都代表每个数字中的前两个元音的共振峰，研究人员通过选择与输入语音存在最高相关系数的方法使数字的语音识别正确率达到了97%～99%。

英国伦敦大学的Fry和Denes建立了一个音位识别系统，根据模式识别原则，该系统能够识别英语中的4个元音和9个辅音。Fry和Denes研发的系统首次使用了音位转移概率对语音识别系统进行约束。

20世纪60年代末至70年代初出现了许多重要的创新性研究成果。

首先，出现了一系列特征抽取算法，包括高效的快速傅里叶变换（Fast Fourier Transform，FFT）、倒谱（cepstrum）处理在语音中的应用以及语音编码中的线性预测编码（Linear Predictive Coding，LPC）的研制。

其次，提出了一些处理翘曲变形（warping）的方法，当与存储模式匹配时，通过展宽和收缩输入信号的方法处理说话速率和切分长度的差异。解决这些问题的最自然的方法是动态规划（dynamic programming）。在研究这个问题的时候，同样的算法被多次重新提出。最早把动态规划应用于语音处理技术的人是Vintsyk，尽管他的成果没有被其他研究人员提及，但是后来有很多研究者都再次重复了他的发明。随后，Itakura把这种动态规划的思想和LPC系数相结合，并首次在语音编码中使用，他建立的系统可以抽取输入单词中的LPC特征，并使用动态规划的方法把这些特征与存储的LPC模板相匹配。这种动态规划方法的非概率应用是对输入语音进行模板匹配，称为动态时间翘曲变形（dynamic time warping）。

〖4〗新一代人工智能与语音识别〖2〗序〖4〗最后是隐马尔可夫模型（Hidden Markov Model，HMM）的兴起。1972年前后，美国的研究人员分别在两个实验室独立应用HMM研究语音问题。其中一部分的应用是由一些统计学领域的工作引起的，Baum和他的同事在普林斯顿国防分析研究所研究HMM，并把它应用于各种预测问题的解决。James Baker在于卡内基梅隆大学（CarnegieMellon University, CMU）攻读硕士期间研究了Baum等人的工作内容，并把他们的算法应用于语音处理。同时，在IBM公司的Thomas J. Watson研究中心，Frederick Jelinek、Robert Mercer、Lalit Bahl独立把HMM应用于语音研究，他们在信息模型方面的研究受到了Shannon的影响。IBM的系统和Baker的系统非常相似，都使用了贝叶斯（Bayes）算法，不同之处是早期的解码算法。Baker的DRAGON系统使用了维特比（Viterbi）动态规划解码，而IBM系统则应用了Jelinek的栈解码算法。Baker在建立DRAGON系统之前曾经短期参加过IBM小组的工作。IBM的语音识别方法在20世纪末期完全主导了语音识别领域，IBM实验室是把统计模型应用于自然语言处理的推动力量，他们研制了基于类别的多元语法模型，研制了基于HMM的词类标注系统，研制了统计机器翻译系统，他们还使用熵和困惑度作为评测系统的度量指标。

HMM逐渐在语音处理界流传开来，原因之一是美国国防部（U.S. Department of Defense）高级研究计划署（Advanced Research Projects Agency，ARPA）发起了一系列相关研究和开发计划。第一个“五年计划”始于1971年，目标是建立基于少数说话人的语音理解系统。这个系统使用了一个约束性语法和一个词表（包括1000个单词），要求语义错误率低于10%。ARPA资助了四个系统，并且对它们进行了比较，这四个系统是: 系统开发公司的系统（System Development Corporation，SDC）、Bolt，Beranek & Newman (BBN)的HWIM系统、卡内基梅隆大学的HearsayⅡ系统和Harpy系统。其中，Harpy系统使用了Baker基于HMM的DRAGON系统的简化版本，在评测系统时得到了最佳成绩。对于一般任务，Harpy系统的语义正确率达到了94%，是唯一一个达到了ARPA计划目标的系统。

自20世纪80年代中期开始，ARPA陆续资助了一些新的语音研究计划。第一个计划的任务是资源管理（Resource Management，RM），与ARPA早期的课题类似，其主要进行阅读语音（说话人阅读的句子的词汇量包含1000个单词）的转写（即语音识别），但这个系统还包括一个不依赖于说话人的语音识别装置。该计划的另一个任务是建立《华尔街杂志》（Wall Street Journal）的句子阅读识别系统，该系统的初始词汇量被限制在5000个单词以内，到最后，系统已经没有了词汇量的限制。事实上，大多数系统的词汇量都已经有了约6万个单词。后来的语音识别系统能够识别的语音已经不再是简单的阅读语音了，而是更加自然的语音。其中，广播新闻识别系统可以转写广播新闻，甚至转写那些非常复杂的新闻，如现场采访；还有CallHome系统、 CallFriend系统和Fisher系统，它们可以识别人们在电话交流中的自然对话。空中交通信息系统（Air Traffic Information System，ATIS）属于语音理解领域的课题之一，该系统可以帮助用户预订飞机票，回答用户关于航班、飞行时间、日期等方面的问题。

ARPA计划大约每年进行一次汇报，参加汇报的除了有ARPA资助的课题以外，还有来自北美和欧洲的其他“志愿者”系统，汇报时将分别测试各个系统的单词错误率和语义错误率。在早期测试中，营利型公司一般不参加比赛，但是随着时间的推移，很多公司开始积极参赛（特别是IBM公司和AT&T公司）。ARPA的比赛促进了各个实验室之间的借鉴和交流，因为在比赛中可以很容易地看出大家过去一年的研究进展和成果，这成为了HMM模型能够传播到每一个语音识别实验室的重要因素。ARPA的计划也造就了很多有用的数据库，这些数据库原来都是为了评估而设计的训练系统和测试系统（如TIMIT、RM、WSJ、ATIS、BN、CallHome、Switchboard、Fisher），但是后来却都在其他总体性研究中得到了应用。

中国在语音自动处理领域也取得了很不错的成绩。于1999年6月9日成立的安徽科大讯飞信息科技股份有限公司（简称科大讯飞）是一家专门从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞推出的产品包括大型电信级的应用到小型嵌入式的应用，电信、金融等行业到企业和家庭用户，PC到手机再到MP3、MP4、PMP和玩具，能够满足不同的应用环境。科大讯飞占有中文语音技术市场60%以上的市场份额，以科大讯飞为核心的中文语音产业链已经初具规模。

由以上介绍不难看出，自动语音识别是一个交叉学科，需要具备语言学、计算机科学、声学等领域的知识。

本书作者马延周不惧困难，他努力进行知识更新后的再学习，根据俄语语音的特点优化了声学层的HMM模型，采用较好的算法解决了训练数据不足和训练速度慢的问题；他还在具有较强背景噪声和多个说话人的环境下采用了降噪技术，增强了俄语语音识别的健壮性；此外，他还利用了各种能够辅助俄语语音识别的语言信息，除了俄语语音的频谱特征参数、能量参数、韵律参数以外，他还综合利用了俄语构词规则、变格变位规则、句法表现形式以及语义辨析和语境条件，有效地降低了俄语语音识别的错误率。

在研究过程中，作者建立了基于众包的俄语语音标注平台和语音语料库，设计了面向俄语新闻网页文本数据过滤清洗系统的俄语文本语料库，为俄语连续语音识别系统的研究开辟了新途径。作者还构建了一个具有一定规模的俄语发音词典，可以将俄语文本转写为相应的俄语标准发音，并对俄语语音识别中的音素集和字音转换规则进行了优化，降低了声学模型的训练难度，提高了模型的训练效果。最后，作者设计并实现的俄语连续语音识别原型系统同时具有在线识别功能和离线识别功能，这在一定程度上填补了中国俄语语音识别研究领域的空白。

本书详细阐述了作者的创新性研究，值得我们认真学习，是为序。

冯志伟2019年6月5日

前言

随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语言的功能已由人际交流延伸至人机交流和机机交流,而实现这一目标的重要前提是计算机能够听懂并识别和理解人类的语言。当前,作为人机交互的关键技术,语音信息智能处理已成为网络空间环境下世界各国研究者广泛关注的热点问题之一。尤其是随着新媒体的出现和大数据的兴起,人们迫切需要对具有多通道、多来源、多语言特征的海量语音信息技术进行深化研究与创新突破,此项技术的战略意义和安全价值日渐突显。

近年来,国内外众多科研院所和企业都对英文和中文语音识别进行了深入的探索和研究,开发了一系列实用化系统，但是在俄语语音识别领域,尤其是对连续语音识别的研究还相对薄弱。本书通过考察分析国内外语音识别技术的研究现状及存在的难题,重点研究俄语连续语音识别的基本原理和关键技术,尝试采用深度神经网络(DNN)的声学模型优化训练方法,设计俄语连续语音识别原型系统。

本书试图解决以下三个问题:

(1) 俄语新闻语音语料和文本语料的采集、过滤、清洗、标注及建库方法;

(2) 建立基于DNN的声学模型和基于SRILM的语言模型,分析两类模型的训练算法优化和训练结果,并通过对比预测生成适用于语音识别的俄语发音词典;

(3) 设计与实现兼具在线和离线识别功能的俄语连续语音识别原型系统,并对原型系统的性能进行测试验证。

本书取得的主要成果如下:

(1) 在俄语声学模型训练过程中设计了基于众包的语音标注平台,建立了360小时的俄语新闻标注语音语料库,形成俄语语音识别音素集,采用DNN的优化训练方法生成了大小为59.7MB的声学模型;

(2) 在俄语语言模型训练过程中设计了俄语新闻文本语料过滤清洗系统,建立了10GB规模的纯净可训练俄语文本语料库,采用SRILM的优化训练方法生成了大小为1.21GB的四元剪枝语言模型;

(3) 通过数据驱动的方法预测生成包含76277个词形的俄语发音词典,利用该词典的数据资源,并基于Kaldi进行二次开发,实现了具有在线识别和离线识别功能的俄语连续语音识别原型系统,可以为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。

马延周2019年7月〖4〗新一代人工智能与语音识别〖2〗前言〖4〗

查看全部↓

相关推荐

Rust编程：入门、实战与进阶

软件测试的艺术原书第3版

ApacheSkyWalking实战吴晟高洪涛赵禹光曹奕

新一代人工智能与语音识别