声码器

更新时间:2023-12-24 17:46

声码器(vocoder)语音信号某种模型的语音分析合成系统。在传输中只利用模型参数,在编译码时利用模型参数估计和语音合成技术的语音信号编译码器,一种对话音进行分析和合成的编、译码器,也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。

定义

声码器在发送端对语音信号进行分析,提取出语音信号的特征参量加以编码和加密,以取得和信道的匹配,经信息通道传递到接受端,再根据收到的特征参量恢复原始语音波形。分析可在频域中进行,对语音信号作频谱分析,鉴别清浊音,测定浊音基频,进而选取清-浊判断、浊音基频和频谱包络作为特征参量加以传送。分析也可在时域中进行,利用其周期性提取一些参数进行线性预测,或对语音信号作相关分析。根据工作原理,声码器可以分成:通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。

它主要用于数字电话通信,特别是保密电话通信。

原理

人讲话时,气流经过喉头形成声源信号,然后激励由口、鼻腔构成的声道,产生话音信号。声码器发信端的分析器首先对话音信号进行分析,提取主要话音参数:①声源特性,如声带“振动-不振动”(浊-清音)、声带振动时的基本频率(基频□□);②声道传输声源信号的特性。这些话音参数变化很慢,它们所占的总频带比话音本身的频带窄得多,因而对这些参数采样编码时总数码率只有几千甚至几百比特/秒,只有直接 由话音信号采样编码的数码率的十几分之一,可以通过一个普通电话信道来传输。收信端的合成器利用这些参数来合成话音。

起源

声码器最早出现在美国贝尔实验室。这个实验室的H.W.达得利在1928年提出合成话音的设想,并于1939年在纽约世界博览会上首次表演了他取名为声码器的话音合成器。此后,话音合成的原理被用来研究压缩话音频带。声码器的研究工作不断取得进展,数码率已降到2400或1200比特/秒,甚至更低。合成后的话音质量有较大提高。在售价、结构、耗电等诸方面符合商用的声码器已经出现。中国于50年代末开始研制声码器,并已用于数字通信。

压缩频带 声码器能压缩频带的根本依据是话音信 号中存在信息多余度。话音信号只要保留声源和声道的主要参量,就能保证有较高的话音清晰度。

类型 采用频谱包络和基频作为参数的声码器称为信道声码器。除信道声码器外,还有多种其他类型的声码器。它们在合成话音质量、数码率和复杂程度等方面不大一样,主要的差别在于话音参数和提取这些参数的方式不同。例如,用共振峰的位置、幅度和宽度表示频谱包络的,称为共振峰声码器;利用同态滤波技术,如对话音信号进行积分变换、取对数和反变换以获得各参数的,称为同态声码器;直接编码和传输话音的基带(如取200~600赫的频带)以表征声源特性的,称为声激励声码器。此外,还有相位声码器、线性预测声码器(见线性预测编码)等。

模型

语音模型是声码器技术的基础。在声码器所用的模型中,语音被看成是一个快变化的激励信号送入一个慢变化的声道滤波器后所得的输出。激励信号在清音时为噪声,在浊音时为具有基音周期的脉冲串。按照这种模型,语音信号可以用两组参数表示。一组是激励源的参数,包括清浊音指示、基音频率和幅度。另一组参数代表声道滤波器的响应。这些参数,特别是代表声道滤波器响应的参数所取的不同的具体形式就构成了各种不同的声码器。由于声码器只传递模型参数,完全去除了语音模型所揭示的语音信号中的多余性,因而可得到巨大的压缩效果。波形编码器虽然也可利用语音模型对语音进行压缩,但不管怎样它总还需要传送按语音模型无法预测的那部分信号波形或信号频谱。这些按模型预测后的误差信号代表了我们尚未了解的、在模型中尚未得到反映的语音细节。声码器舍去了这些细节,给语音信号的自然度带来较大的损害。

大部分声码器都利用了人耳对相位不敏感这一特性,在进行语音分析和合成时只对语音信号的幅度谱有所要求。所以合成语音与原始语音在波形上很难加以比较。由于这一原因,声码器的语音质量一般不用信噪比进行度量,而用主观制定的平均评价分(MOS)度量。现代声码器的平均评价分一般在3.0以下。

类型

1939年以后,已经制出的声码器主要有:通道声码器、共振峰声码器、同态声码器、线性预测声码器和音素声码器。

通道声码器 在这种声码器中,输入语音信号的幅度谱通过由14~20个带通滤波器所组成的滤波器组进行分析,滤波器组把频率范围分成许多相邻频带或通道,每个滤波器的输出都是一个包络缓慢变化的信号,包络的大小反映了该频带内信号的功率。所以各带通滤波器输出的包络总起来就能近似表示语音信号的幅度谱。另一方面基音检测和清浊音鉴别器提供基音周期和清油音指示。在译码端,有与编码端相同的滤波器组。淸浊音指示用于选择滤波器组的激励源,浊音时用脉冲串,清音时用噪声。脉冲串的频率由基音控制,谱包络信息则用来控制各滤波器输出的大小,因而最终能合成与原始谱包络相近的语音信号。通道声码器的语音质量,即使在2.4kbit/s速率下也可以达到相当高的清晰度,且抗背景噪声的能力强,稳定性好,因而得到了广泛的应用,对它的兴趣多年不衰。

共振峰声码器 是通道声码器的一种变型,它在编码的是共振峰频率和带宽。根据听觉试验的结论,一般只需传送3~4个共振峰,因此可以达到很低的数据率。当共振峰提取正确时,共振峰声码器可以在语音质量上超过通道声码器而速率只需后者的一半。只是由于正确跟踪共振峰频率在实现时相当困难,阻碍了这种声码器的实用,但对它的研究始终不断。

同态声码器 又称倒谱声码器,它传送的模型参数是语音的倒谱和语音的幅度谱一样,可以反映声道的响应,但是在理论上,利用倒谱可以使语音模型中激励源和声道响应的参数得到理想的分离,在理论上虽是一种完美的方法,但在实际实现时同态声码器需要很大的计算量,数据率在相同的语音质量下高于通道声码器,而且抗语音背景噪声的能力差,所以只获得有限的应用。

线性预测声码器 是应用最多的一种声码器。其最主要的特点是利用线性预测对声道的响应进行建模。声码器传送的参数除激励参数外,就是线性预测系数。典型的线性预测系数代表了声道的冲激响应,但是语音质量对这些系数的量化非常敏感,每个参数要求的比特数也较多,所以在实用时往往使用各种等价的但要求量化比特数少且对比特数不敏感的参数,如反射系数和线谱对等。线性预测声码器的激励模型现已得到改进,如采用浊音声门波激励模型或多脉冲激励模型等。在进行这些改进后,线性预测声码器的语音质量在声码器中居于前列。

音素声码器 声码器中速率最低的一种,主要由音素识别器与音素综合器组成。但实际使用的语音单位一般不是音素而是复合音素等较大的语音单位,因为不考虑上下文影响而连接的音素串是不可懂的。这种声码器的语音质量基本上已完全失去自然度,声码器所需的数据速率则可在200bit/s以下。

在声码器历史上还出现过相关声码器、相位声码器以及由F.莫策提出的莫策声码器等。其中相位声码器,虽然在一般文献上把它归入声码器,实际上属于子备编码。它和相关声码器都没有得到实际应用,只有莫策声码器获得一些应用。

特点

声码器的明显优点是数码率低,因而适合于窄带、昂贵和劣质信道条件下的数字电话通信,能满足节约频带、节省功率和抗干扰编码的要求。低数码率对话音存储和话音加密处理也都很有利。声码器的缺点是音质不如普通数字电话好,而且工作过程较复杂,造价较高。现代声码器主要用于军队、政府以及那些值得付出代价以换取通信安全(保密)的场合。随着对人类发声机构和听觉机理的深入研究以及计算机技术和大规模集成电路的发展,声码器的音质和设备小型化将不断得到改进,并将在数字通信中得到更广泛的应用。

声码器对话音存储和话音加密处理很有利、有算法,速度快、质量好且结构简单、适合于窄带、昂贵和劣质信道条件下的数字电话通信。但工作过程复杂,价格高,音质有点差。

CDMA系统

第三代移动通信系统中,WCDMA使用自适应多速率(AMR)声码器来传送话音,该声码器包括8种不同的声码器速率。因为WCDMA是针对GSM系统而设计的,这种声码器在传输速率的选择上有所限制,通常AMR语音活动因素大约为0.67,所以AMR声码器对CDMA的环境并非完全合适。因此R5要引入新的宽带多速率(WB-AMR)声码器来进一步改善话音质量。

为提高系统的容量,同时又兼顾话音质量,CDMA2000移动通信系统采用3种话音压缩编码标准来实现移动终端的话音编解码处理:EVRC(IS-127)、8K QCELP(IS-96)和13K QCELP(IS-733)。EVRC声码器的语音活动因素只有0.4左右,可使话音质量大幅度的提高,基本达到有线电话的水平。Qualcomm码激励线性预测(QCELP)话音编译码器包括8 kbps和13 kbps的标准。QCELP声码器采用全双工工作方式和可变数据压缩比率以及话音激活检测技术,在话音间隙期,根据不同的信噪比背景分别选择1、1/2、1/4或1/8传输速率,可以使平均速率比最高速率下降2倍以上。CDMA还使用了确定声码器速率的自适应门限,自适应门限根据背景音噪声电平的变化改变声码器的数据速率,这些门限的使用压制了背景音噪声,因而在噪声环境下也能提供清晰的话音。另外,3GPP2已经选用了一种新的声码器可变模式的声码器。与EVRC比较,这种声码器能提供与EVRC相同的或更好的语音质量,同时可使语音容量最多可以增加75%。

语音合成

声码器合成模块的开启状态也各不相同.语音类为浊音则只合成浊音,语音类为清音则只合成清音,混合音时两者都合成,静音时输出为零.

浊音在时域合成,其过程由下式表示:

运行条件

声码器需要两个声音信号才可以工作,一个是载波器(carrier),另一个是信号需要两个Reas的模块发出,当然使用同一个设备也是可以的,但是总之要有两个信号。

应用与前景

声码器的应用,早期主要在军事通信上,但随着声码器质量的提高和通信业务种类的增加,声码器的应用已经扩大。如移动通信、话音存储转发系统、分组化话音、自动翻译电话、可视电话伴音等都是声码器即将或已经进入的应用领域。

就声码器本身而言,进一步提高语音质量是声码器的主要问题。20世纪80年代以来,线性预测声码器的语音质量有了很大的提高,但除了线性预测混合编码器的质量达到电话通信要求外,严格意义上的线性预测声码器的语音质量仍基本上是合成语音的质量,平均评价分在3.5以下。为了进一步提高质量,语音模型特别是激励模型的改进以及矢量量化的合理应用,将仍然是主要的途径。在20世纪末,速率在4.8kbit/s以下的声码器的语音质量能达到电话通信的质量要求。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}