语音识别的声学模型

作者&投稿：庾昆（若有异议请与网页底部的电邮联系）

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。
上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。
英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

语音识别系统的原理
语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大...

马尔可夫模型的应用
主要应用于语音识别、音字转换、词性标注。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题--一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，人们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。比如一个典型的通信系统中：其中...

浅谈语音测试方案(一)
目前的测试方案是事先标注一批语音的文本内容，与识别出的文本内容做对比，获取识别的准确率。但是这种准确率统计脱离了实际使用场景，比如车载模式下的噪音、与麦克风的距离都会影响识别准确率。另外，从上图流程可以看出，识别准确率还会受声学模型、解码器的影响。语音信号经过特征提取得到声学特征，再通过...

如何通过仪器辨别某个人的声音
从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等。根据不同的任务需求,声纹识别还面临一个特征...

语音识别的原理是什么
语音识别的原理可以从两方面理解，分别是数据库、算法与自学习。1、数据库，其实语音识别的原理是非常好理解的，它是和指纹识别定位原理一样的，设备会把目标语音收集起来，接着对这些收集来的语音实施处理，然后会得到目标语音的一些信息，下面就会把这些特征信息和数据库中已经存在的数据进行相似度的搜索...

语音识别的最新进展
近几年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。1、技术新发展1）将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM预训练的多层神经网络，极大提高了声学模型的准确率。在此方面，微软公司的研究人员率先取得了突破...

深度学习在语音识别方面主要的难题和困难是什么?
深度神经网络的建模技术，在实际线上服务时，能够无缝地和传统的语音识别技术相结合，在不引起任何系统额外耗费情况下，大幅度提升了语音识别系统的识别率。其在线的使用方法具体如下：在实际解码过程中，声学模型仍然是采用传统的HMM模型，语音模型仍然是采用传统的统计语言模型，解码器仍然是采用传统的动态...

语音识别技术的发展历史
这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也...

为什么语音可以识别字?
目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成...

语音识别的系统实现
英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言...

昌都县15844386295： 语音识别的声学模型 - ？
汗卢云可： 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算.本节和下一节分别介绍声学模型和语言模型方面的技术.HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自...

昌都县15844386295： 语音识别系统的声学建模原理是什么? ？
汗卢云可： 对语音识别系统,输出值通常就是从各个帧计算而得的声学特征

昌都县15844386295： 语音识别的声学特征 - ？
汗卢云可： 声学特征的提取与选择是语音识别的一个重要环节.声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分.由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析.这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3.通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响.

昌都县15844386295： 语音识别的最新进展 - ？
汗卢云可： 近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展. 1、技术新发展 1)将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神...

昌都县15844386295： 语音识别芯片的语音识别系统的结构 - ？
汗卢云可： 一个完整的基于统计的语音识别系统可大致分为三部分: (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理选择识别单元是语音识别研究的第一步.语音识别单元有单词(句)、音节和音素三种,具体...

昌都县15844386295： 语音识别声学特征是什么 ？
汗卢云可： 这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3.通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响.

昌都县15844386295： 汉语连续语音识别用什么声学基元比较好? - ？
汗卢云可： 汉语连续语音的话还是用声韵母基元比较好比较适合汉语的特点用matlab实现起来也比其他工具方便

你可能想看的相关专题

星空见康网

语音识别的声学模型

你可能想看的相关专题