更新时间:2023-12-24 19:30
基音周期是一种用于记录基音的时间波长的检测方法。基音周期是机械波一个完整波长的时间。
语音是语言的口语形式,语言是人类交流信息最自然、最有效、最方便的手段。在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
语音信号分析是语音信号处理的前提和基础,只有分析出可表征语音信号本质特征的参数,才有可能利用这些参数进行高效的语音合成、语音识别、语音压缩编码等处理,其中基音周期是最重要的语音信号的特征参数之一 。
人在发浊音时,气流通过声门,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分机械波能量。这种机械波的波长称为基波,相应的周期就称为基音周期。
基音周期的估计称为基音检测 (fundamental tone detection),基音检测的最终目标是画出和波长完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。
在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的参数,才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,所以,准确可靠地估计并提取基音周期对语音信号处理至关重要 。它直接影响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。
由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在不同时间下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情,基音提取的主要困难反映在 :
(1)语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的头尾部并不具有那样的周期性,对有些清浊音的过渡帧很难判定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。
(2)从语音信号中去除声道的影响,直接取出有关的声源信息并非易事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号的谐波结构,会给基音检测造成困难。
(3)语音信号是准周期的,且共振峰结构和噪声有时会影响波峰位置,很难准确定位基音周期的开始和结束。
(4)区分清音语音和低电平浊音段是导致基音检测困难的另一个重要因素。在许多情况下,清音语音与低电平浊音段之间的过度段是非常细微的,确认它是极其困难的。
(5)在实际应用中,背景噪声强烈影响基音检测的性能。
(6)基音周期变化范围较大,从2ms到10ms,接近五倍,这也给基音周期的检测带来了一定的困难。另外,浊音信号可能包括很多谐波分量,而基波分量往往不是最强的分量,这些谐波成分叠加在一起,使语音信号的波形变得很复杂,给基音检测带来困难,经常发生基波估计结果比实际基音波长短很多。
由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法可以对各类人群(包括不同语种)和各种环境条件情况下都能获得满意的检测结果。
尽管基音周期检测有许多困难,但因为它的重要性,基音周期检测一直是一个研究的重要课题。为了从语音波形中准确地提取基音的工作,使全世界的科学家忙了几十年,从20世纪60年代以来出现了很多种基音周期检测方法,特别是在有噪环境下的语音信号的基音周期检测方面更是提出了许多有效的方法。进行基音检测方面早期研究工作的国家主要有美国等欧美国家,之后,我国在基音检测方面,尤其是对汉语的基音检测工作也取得了很大进展。
为了提高基音检测的准确性,降低计算复杂度,人们已经从基于时间的检测方法和非基于时间的检测方法出发 ,开发了许多基音检测算法 。
按照是否基于时间分为:
(1)非基于时间的基音周期检测方法
非基于时间的方法一般都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,相比基于时间的基音周期检测方法来说,它的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别。这些方法有:自相关函数法 、平均幅度差函数法 和倒谱方法 。
传统的自相关函数法(ACF)是Ross等人于1977年提出的 ,自相关函数法的原理是周期信号的自相关函数将在时延等于函数周期的地方产生一个极大值,因此通过计算语音信号的自相关函数可以估计信号的基音。自相关函数方法适合于噪声环境下,但单独使用经常发生基波估计结果为其实际基音波长的二分之一波长或二倍波长的情况;
传统的平均幅度差函数法(AMDF)是Ross等人于1974年提出的 ,平均幅度差函数法无需乘法运算,因而算法复杂度小。倒谱法是由Noll等人于1967年提出的 ,这种算法的优点是对纯净语音的基音检测精度较高,可以较好地从语音信号中分离出基音信息和声道信息,缺点是算法比较复杂。
平均幅度差法、倒谱法在静音环境下或噪声较小时都可以取得较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的结果下降较快,难以让人满意 。基于此,本文提出了一种抗噪性很好的自相关能量函数(ACEF)和幅度差能量函数(MDEF)相结合的基音周期检测算法,这种方法有效弥补了传统基音周期检测算法的缺点,它继承了自相关函数的抗噪性能,抑制了自相关函数不必要的峰值,进一步加重了用于基音周期判断的基音峰值点,提高了基音周期提取的准确性。
然而,由于非基于时间的基音周期检测方法都是建立在语音信号在一帧内是短时平稳的基础上的,因此,从本质上说,这些方法都无法检测帧内的基音周期的非平稳变化,检测精度不高,对于需要检测出一帧内每一个基音峰值点的语音合成系统来说,无法得到很好的效果。于是需要能够检测出一帧内每一个基音峰值点的基于时间的基音周期检测方法。
(2)基于时间的基音周期检测方法
相比非基于时间的基音周期检测方法而言,基于时间的基音周期检测方法并不多见,如:小波变换方法 和Hilbert-Huang变换方法 ,这两种方法都具有跟踪基音周期变化的能力,能将微小的周期变化检测出来。
小波变换在时域和波长域都具有良好的局部性特性,它是一种信号的时间-尺度分析方法,具有多分辨分析的特点,能有效的从信号中提取信息。小波就像一种共轭镜象滤波器,每一次变换,就是把信号分成短波和长波分量,如果对变换后的长波分量再进行变换,得到的将是更为长波的分量,逐次进行下去,就可以得到去除了高次短波谐波,保留了基波的成分的长波分量,这样就得到近似于只有基波成分的波形,因此可以在时域上得到所有的基音峰值点。
按照具体检测方法
从具体检测方法上来看,大致可以分为三类:
(1)波形估计法。直接有声音波形来估计基音周期,分析出波形上的周期峰值。包括并行处理法、数据减少法等。
(2)相关处理法。这种方法在语音信号处理中广泛使用,这是因为相关处理法抗波形的相位失真能力强,另外它在硬件处理上结构简单。包括波形自相关法、平均幅值差分函数法(AMDF)、简化逆滤波法(SIFT)等。
(3)变换法。将语音信号变换到波长域或者倒谱域来估计基音周期,利用同态分析方法将声道的影响消除,得到属于激励部分的信息,进一步求取基音周期,比如倒谱法。虽然倒谱法分析算法比较复杂,但是基音周期估计效果好。