语音信号

更新时间:2022-08-25 12:39

语音信号处理的目的就是在复杂的语音环境中提取有效的语音信息。

介绍

语音作为一种搭载着特定的信息模拟信号,已成为人们社会生活中获取信息和传播信息的重要的手段。语音信号处理的目的就是在复杂的语音环境中提取有效的语音信息。环境干扰在语音传播过程中对信号的影响不容小觑,因此语音信号处理的抗噪声能力已经成为一个重要的研究方向。

基本概念

语音产生的过程

语音的形成过程:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

声音的分类

1、浊音:声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,造成周期性的激发气流,如a,o;

(由声带震动产生的音),包括所有的元音和一些辅音。

2、清音:声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;

(不由声带震动产生的音)

3、爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放,如b,p。

语音的两个重要声学特性

基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数(此处去掉就是基音周期的定义)。人类基音频率的范围在80~500Hz左右。

共振峰(Fn,n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。

共振峰特性

共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。

语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。

元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。

完整的语音信号产生的数字模型

我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型。

语音信号模型

激励模型

a.浊音激励:气流在通过绷紧声带时,冲激声带产生振动,使声门处形成周期性的脉冲串,并用它去激励声道。由于脉冲串类似于斜三角形的脉冲,故以基音周期为周期的单位取样序列串作为激励。

b.清音激励:声带松弛而不振动,气流通过声门直接进入声道。由于发清音时,声道被阻碍形成湍流,可将激励模拟成随机白噪声。

声道模型

a.声管模型:将声道视为由多个不同截面积的管子串联而成的系统。

b.共振峰模型:声道视为一个谐振腔,共振峰就是这个腔体的谐振频率。

级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器,用一个全极点模型。

并联型:适用于非一般元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零极点模型。

混合型:我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特性。

辐射模型

在发音腔道内形成的气流经由嘴唇端辐射出来到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性常用一个一阶的数字高通滤波器来模拟。

倒谱分析

其可以采集到频谱包络信息用来表现音韵的特征参数,也可以采集到细微的结构信息。声道特性和声门特征可以通过频谱分析得到有效的参数,这些参数的获取可以通过语音来精确地分辨一个人。对语音信号进行频谱分析,可以提取到声道和声门参数,以便通过声音来区分不同的人。倒谱分析在各类信号分析中经常使用,要获取倒谱需要先取得信号的频谱,再对频谱的对数进行快速傅里叶变换,然后可得信号倒谱。频谱图展示了采集的语音信号在不同频率上所携带的能量的状况,而倒谱是检测采样信号频谱周期性的工具。倒谱图存在多个峰值表示主要频率成分,通过对语音倒谱的峰值提取得到的共振峰对人的声音具有较高的辨识度。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}