第三章语音信号特征分析

作者&投稿：庾柴（若有异议请与网页底部的电邮联系）

语音合成音质的好坏，语音识别率的高低，都取决于对语音信号分析的准确度和精度。例如，利用线性预测分析来进行语音合成，其先决条件是要用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数和成的语音音质就较好。例如，利用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值，个数，频率范围及其分布情况。

语音信号特征的分析可以分为时域，频域和倒谱域。

时域分析简单直观，清晰易懂，物理意义明确。

更多有效的分析是围绕频域进行的，因为语音中最重要的感知特性反应在其功率谱中，其相位变化只起着很小的作用。

常用频域分析有带通滤波器组，傅里叶变换法和线性预测分析法。频谱具有很明显的声学特性，利用频域分析获得的特征具有实际的物理意义，如共振峰参数，基音参数周期等。

倒谱域是对对数功率谱进行傅里叶反变换得到的，可以将声道特性和激励特性有效的分开，更好的揭示语音信号的本质特征。

可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型，来分析和提取表征这些模型的特征参数；共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法，包括上面提到的时域分析法，频域分析法及同态分析法。

贯穿语音信号分析全过程的是“短时分析技术”。短时间内特性基本保持不变，相对稳定，准稳态过程。10~30ms内保持相对平稳。

实际信号常有一些低能量的信号分量超过采样频率的一半，如浊音的频谱超过4khz的分量至少比峰值低40db，而清音，超过8khz，频率分量也没有显著下降，因此语音信号所占的频率范围可以达到10khz以上，但对语音清晰度的有明显影响部分的最高频率为5.7kHZ左右。

电话系统为8kHZ，而时间中，采样频率为8-10kHZ，而语音合成或者语音识别，获得更高的质量，采样频率一般为15——20kHZ。

在一般的识别系统中，采样率最高为16kHZ，当继续增加采样率是，识别率几乎没有增加。

量化： 有三种方式，零记忆量化，分组量化和序列量化。

假设语音信号在10~30ms内是平稳的，后面所有的分析都是在这个假设下进行的。

为了得到短时的语音信号，要对语音信号进行加窗的操作，窗函数平滑的在语音信号上滑动，将语音信号分成帧。分帧可以连续，也可以采用交叠分段，交叠部分称为帧移，一般为窗长的一般。

加窗时，不同窗口将影响到语音信号分析的结果

窗的长度对能否反映语音信号的幅度变化起决定性作用。如果N特别大，即等于几个基因周期量级，则窗函数等效于很窄的低通滤波器，此时信号短时信息将缓慢的变化，因而不能充分反映波形变化的细节。如果N特别小，即等于或小于一个基因周期的量级，则信号的能量将按照信号波形的细微状况而很快的启发，但如果N太小，滤波器的通带变宽，则不能获得平滑的短时信息，因此窗口的长度要选择合适。窗的衰减基本与窗的持续时间无关，因此当改变宽度N时，会使带宽发生变化。

窗口长度是相对于语音信号的汲引周期而言，通常认为一个语音帧内，应含有1~7个基音周期，然而不同人的基音周期变化范围很大，基音周期的持续时间会从高音的约20个采样点变化到低音调250个采样点，这意味着可能需要多个不同的N值，所以N的选择比较困难，通常在采样频率10kHZ的情况，N选择100~200量级（10~20ms)持续时间是比较合适的。

有声（V）无声（S）清音（U）判决。

能够实现这些判决的依据再于，不同性质的语音各种短时参数具有不同的概率密度函数，以及相邻的若干帧具有一致的语音特性，不会再S , U, V之间快速变化。

每个语音的输入起点和重点，利用短时平均幅度参数M和短时过零率可以做到这一点。

浊音情况下短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数M_H.根据M_H可以确定前后两个点A_1和A_2 后肯定是语音段，但精确起点，还要仔细查找。

为此，再设定一个较低的阈值参数M_L, 然后确定B_1 和 B_2，从这两个点之后用短时过零率搜索。清音的过零率高于无声段，但是能量低。

但是在研究结果中表明，利用短时平均过零率区分无声和清音在有些情况下不是很可靠，由于清音的强度会比无声段高一下，将门限提高一些对清音的影响不大，但在没有背景噪声的情况下，无声段将不会穿越这一提高的电平，因为可以正确区分清音和无声段。

因此采用这种过零率，具有抗干扰能力

滤波器可以是宽带带通滤波器，具有平摊的特性，粗略求语音的频谱，频率分辨率低，可以是窄带滤波器，频率分辨率较高。

现在一般都在用数字滤波器，其中如何将模拟滤波器数字化，涉及到零点极点的内容，需要参考DSP的内容。极点波峰，零点波谷。

为窗口函数。

两种方式来理解物理意义

在实际计算时，一般用离散傅里叶变换代替连续傅里叶变换，则需要对信号进行周期延拓。(非周期->连续谱，周期->离散谱)，这时候得到的是功率谱 。如果窗长度为 , 那么的长度为 , 如果对以进行周期拓展，则自相关就会出现混叠现象，即这个周期的循环相关函数在一个周期中的值就与线性相关的值不同，这样得到的功率谱就是一组前采样，若想得到全部的个值，可以补充L个零，扩展成2L的信号，并做离散傅里叶变换，这时的循环相关与现行相关是等价的。（ 后面这句话对我来说暂时是天书 ）

在对窗函数的分析中，我们知道对于任何一个窗函数都存在旁瓣效应，这时候有谐波效应。

语谱图的时间分辨率和频率分辨率是由所采用的窗函数决定的。假设时间固定，对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应的通带宽度为 ,那么语谱图中的频率分辨率的宽度即为。即卷积的作用将使任何两个相隔间隔频率小于的谱峰合并为一个单峰。对于窗函数而言，通带宽度与窗长成反比，如果希望频率分辨率高，则窗长应该尽量长一些。

对于时间分辨率，假设频率固定，相当于对时间序列做低通滤波，输出信号的带宽就是的带宽b，根据采样定理，只需要以的采样率就可以反映出信号的所有频率成分，这时候所具有的时间分辨率的宽度为 . 因此如果希望时间分辨率高，则窗长应该短一些。因此时间分辨率和频率分辨率是相互矛盾的，这也是短时傅里叶变换本身固有的缺点。

点评：

1.26新增理解：

这类线性主要有短时傅里叶变换与Gabor变换和小波变换，其中STFT和Gabor变换是一种加窗的傅里叶变换，使用固定大小的时频网格，时频网格在时频变换只限于时间平移和频率平移，窗函数固定的，只适用于分析带宽固定的非平稳信号，实际应用中，希望对低频分析，频率分辨率高，高频时间分辨率高，要求窗函数宽度能随之频率变化而变化。小波分析的视频分析网格变化除了时间平移外，还有时间和频率轴比例尺度的改变。适用于分析具有固定比例带宽的非平稳信号。

这类时频由能量谱或功率谱演化而来，其特点是变换为二次的。双线性关系可以表示为

其中为能量谱，而表示取共轭操作。

点评： 好像没见过，先跳过。。。。。

在信号分析与信号处理中，信号的“时间中心”及“时间宽度”以及频率中心与频率宽度是非常重要的概念，分别说明信号在时域和频域中心位置在两个域的扩展情况。

信号再这两个物理量的测量上有一个重要的约束原则，就是著名的“不确定性原理”。它的意义是，信号波形在频率轴上的扩张和时间轴上的扩张不可能同时小于某一界限，即若函数和构成一堆傅里叶变换，则不可能同时是短宽度的,即

等号成立的充分必要条件是为高斯函数，即 . 证明，用Cauchy-Schwarts不等式可得。

窗函数为高斯函数的短时傅里叶变换称为Gabor变换。

是大于0的固定常数。由于 , 因此 . 这表明，信号的gabor 变换是对任何在时间附近对傅里叶变换的局部化（在说什么？？），达到了对的精确分解。

Gabor变换是具有最小时频窗的短时傅里叶变换。但进一步研究发现，这两种变换都没有离散的正交基, 所以没有像离散傅里叶变换FFT那种快速算法。而且窗函数固定不变，不能随着所分析信号的成分是高频还是低频做相应的变化。所以这时候有小波变换，能够自动调节窗口长度。

小波理论采用多分辨率的分析的思想，非均匀地划分时频空间，为非平稳信号的分析提供了新途径。

定义： 小波是函数空间中满足下述条件的一个函数或者信号

其中表示全体非零实数，为的频域表示形式。称为小波母函数。对于任意实数对，称如下形式的函数为右小波母函数生成的依赖于参数（a,b）的连续小波函数，称为小波，其中a必须为非零实数。

的作用是把基本小波做伸缩，的作用是确定对分析的时间位置，也即是实践中心。在的附近存在明显的波动，而且波动范围的大小完全依赖于尺度因子的变化。时，一致，时，范围比原来小波函数范围大些，小波的波形变得矮宽，变化越来越缓慢，当时，在附近波动范围药效，小波波形尖锐而消瘦。

给定平方可积的信号，即 , 则的小波变换定义为

与傅里叶变换不同，小波变换是一个二元函数。另外，因为母函数只在原点附近才会有明显偏离水平轴的移动，远离原点，迅速衰减为0.

假设小波函数及傅里叶变换都满足窗口函数的要求，他们的窗口中心和半径分别记为和和和 , 可以证明对于任意任意参数对，连续小波变换和其傅里叶变换都满足窗口函数的要求，他们的窗口中心和宽度分别为

则时频窗是平面一个可变的矩形，面积为 . 这个面积只与小波的母函数有关，与无关，但形状随着a变换。

如果按照线性模型理论，语音信号是由激励信号和声道响应卷积产生。解卷就是将各卷积分量分开。解卷算法分为两大类，一类称为“参数解卷”，即线性预测分析，另一类算法称为“非参数解卷”，即同态解卷积，对语音信号进行同态分析后，将得到语音信号的倒谱参数，此时同态分析也称为 倒谱分析或者同态处理。

同态处理是一种较好的解卷积方法，它可以较好的将语音信号中的激励信号和声道响应分离，并且只需要用十几个倒谱系数就能相当好的描述语音信号的声道特性，因此占很重要的位置。

通常的加性信号可以用线性系统处理，满足线性叠加原理。然后很多信号是由乘性信号或者卷积信号组合的信号。这样的信号不能用线性系统处理，得用非线性系统处理。但是非线性系统分析起来困难，同态语音辛哈就是将非线性问题转换为线性问题处理。语音信号可以看做是声门激励信号与声道响应的卷积结果，所以下面仅讨论卷积同态信号的处理问题。

同态语音信号处理的一个通用的系统如图3-23所示，其符号表示由卷积组合规则组合起来的空间，即该系统的输入和输出都是卷积性信号。同态系统的一个最主要理论结果是同态系统理论分解，分解的目的是用两个特征系统和一个线性系统来代替非线性的同态系统。分解的情形如下面所示。

分别对应声门激励信号（excitation 和 vocal tract），特征信号是将卷积信号转化为加性信号，这时候进行Z变换，将卷积信号转化为乘积信号（疑问1），这时候得到的就是频谱,然后通过对数运算，变成加性信号，但是这个时候是对数频谱，使用不便。最后再变换回时域信号。

是在倒谱域对信号处理，常见处理方式是将语音声源信号与声道信号分离。在倒谱域，总可以找到一个，当时，声道滤波器的倒谱为0，当时，激励的倒谱接近于0.

如果想再恢复语音信号，用d所示的逆特征系统运算即可。

MFCC (Mel Frequency cepstrum coefficient)，MFCC是将人耳的听觉感知特性和语音产生机制相结合，因此目前大多数语音识别系统广泛使用这种特征。

耳蜗的滤波作用是在对数频率尺度进行的，在1000Hz以下为线性，在1000Hz以上为对数，这就使得人耳对低频比高频更敏感

对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点，变换到Mel域后，Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的，实际应用中，MFCC计算过程如下

MFCC有效利用的听觉特性，因此改变了识别系统的性能，如果倒谱位数增加，对识别性能影响不大。但采用动态特征，误识率有20%的下降。

点评2019.01.30：第三四次囫囵吞枣的看完MFCC，即使知道了倒谱，但最后按个离散余弦变换还是比较不能联系上，反正感觉乱乱的吧，包括差分之类的，想被打回哪门语音信号处理课上回炉了，Mark一下，始终有一天会懂其中的深意的。

内乡县15394523441： 语音信号特征 - ？
宏到普立： 一般在识别说话人时,采用元音强度与元音间隔作为说话人识别的基础参数.具体参见:勾轶,刘晓丽,陈长征.基于小波与神经网络的说话人身份识别[M].

内乡县15394523441： 语音识别的声学特征 - ？
宏到普立： 声学特征的提取与选择是语音识别的一个重要环节.声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分.由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析.这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3.通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响.

内乡县15394523441： 如何分析语言的多余机制? - ？
宏到普立： 内容简介本书是供大学中文专业基础课“语言学概论”使用的教材,第一版于1993年出版,十几年来为许多高校采用,也是许多学校招收研究生的指定参考书.全书分为九章:语言与语言学,语言的构造与机制,语音,语法,语义,语言的变异...

内乡县15394523441： 简述语音识别原理. - ？
宏到普立： 语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别.但无论那种语音识别系统,其基本原理和处理方法都大体类似. 语音识别...

内乡县15394523441： 语音识别声学特征是什么 ？
宏到普立： 这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3.通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响.

内乡县15394523441： 语音识别一般需要得到语音信号的哪些特征?谢谢! - ？
宏到普立： 一般是把每一个字的声音变换成一组数据,和再次接受的声音做数据比较,符合便有指令发出.这一组数据包含所有特征.

内乡县15394523441： 语音输入系统的原理 - ？
宏到普立： 语音输入是根据操作者的讲话,电脑识别成汉字的输入方法(又称声控输入).它是用与主机相连的话筒读出汉字的语音,利用语音识别系统分析辩识汉字或词组,把识别后的汉字显示在编辑区中,再通过“发送”功能将编辑区的文字传到其他...

内乡县15394523441： MATLAB 语音信号处理 - ？
宏到普立： 1.改变声音播放速度所谓改变声音的播放速度也就是改变采样间隔(sampling interval)(即改变了采样频率),但是这个频率依然要在2f(Nyquist rate)之上,否则就会产生失真(distortion). 2.实现对声音信号放大和衰减功能所谓放大或者衰...

内乡县15394523441： 基于matlab的语音信号时域特征分析需要做出实物来吗？
宏到普立： 语音信号采集录制一段课程设计学生的语音信号并保存语音信号分析在MATLAB软件平台下绘出采样后的语音时域波形直接plot,频域波形可以plot(abs(fft())

你可能想看的相关专题

星空见康网

第三章 语音信号特征分析

你可能想看的相关专题

第三章语音信号特征分析