语音识别原理五分钟就能弄懂

作者&投稿：邵虏（若有异议请与网页底部的电邮联系）

~ 1、首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。
2、在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。
3、每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
4、分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。
5、至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。
6、接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。
7、语音识别是怎么工作的呢？实际上一点都不神秘，无非是：第一步，把帧识别成状态（难点）；第二步，把状态组合成音素；第三步，把音素组合成单词。

方法/步骤

首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。
在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现，这里不详述。帧与帧之间一般是有交叠的。
每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，声学特征也不止有MFCC这一种，具体这里不讲。
至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。
接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。
语音识别是怎么工作的呢？实际上一点都不神秘，无非是：第一步，把帧识别成状态（难点）；第二步，把状态组合成音素；第三步，把音素组合成单词。

遂川县13059662113： 简述语音识别原理. - ？
赧徐恒康： 语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别.但无论那种语音识别系统,其基本原理和处理方法都大体类似. 语音识别...

遂川县13059662113： 语音识别的原理是什么? - ？
赧徐恒康： 推荐使用YQ5969,该模组系列可以支持1--8个咪头,该语音芯片可以根据客户具体需求提供单核--4核 32bit ARM核心的不同方案,可以支持本地和云端识别不同需求.5米内本地识别率 93%以上,云端识别率97%.YQ5969 语音识别模块可以实现固定词汇,非特定人的语音识别.固定词汇并非指词条永远无法改变,而是用户不可以自行更改,但开发者可以根据需求更换词条,之后将词条存储到 YQ5969-24SS 语音芯片里或是外挂的 SPI Flash 里

遂川县13059662113： 语音输入系统的原理 - ？
赧徐恒康： 语音输入是根据操作者的讲话,电脑识别成汉字的输入方法(又称声控输入).它是用与主机相连的话筒读出汉字的语音,利用语音识别系统分析辩识汉字或词组,把识别后的汉字显示在编辑区中,再通过“发送”功能将编辑区的文字传到其他...

遂川县13059662113： 语音识别芯片原理是什么? ？
赧徐恒康： 语音识别芯片的原理语音识别芯片有哪些语音识别芯片的原理嵌入式语音识别系统都采用了模式匹配的原理.录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数.

遂川县13059662113： 语音识别的原理 - ？
赧徐恒康： 简单说的话就是提取声波文件之后进行对比,如同文件校验一样. 详细的手打比较麻烦请自行搜索^_^

遂川县13059662113： 语音识别是如何实现的呢? ？
赧徐恒康： 语音识别声学特征编辑语音识别LPC线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计

遂川县13059662113： 语音识别一般要经过哪些步骤? ？
赧徐恒康： 语音识别是()的过程.+标记+A.编码+B.通信+C.解码+D.传输语音识别是C、解码的过程喔.语音识别是就解码然后转化为语音喔.

遂川县13059662113： 语音识别是什么 - ？
赧徐恒康： 语音识别系统,用于识别你的话语执行程序

遂川县13059662113： 什么是语音识别技术? - ？
赧徐恒康： 音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,...

遂川县13059662113： 谁给讲讲语音识别中的CTC方法的基本原理 - ？
赧徐恒康： CTC 全称是Connectionist Temporal Classification,是一种改进的RNN模型.RNN模型可以用来对两个序列之间的关系进行建模.但是,传统的RNN,标注序列和输入的序列是一一对应的.语音识别中的序列建模问题不是这样:识别出的字符序列或者音素序列长度远小于输入的特征帧序列.所以不能直接用RNN来建模.

你可能想看的相关专题

星空见康网

语音识别原理 五分钟就能弄懂

你可能想看的相关专题

语音识别原理五分钟就能弄懂