声学模型 - 知识百科

声学模型

更新时间：2022-06-13 23:54

声学模型是语音识别系统中最为重要的部分之一，主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

输出概率

声学模型的输入是由特征提取模块提取的特征。一般来说，这些特征是多维的向量，并且其取值可以是离散或连续的。早期的声学模型常常采用矢量聚类(Vector Quantification)的方法，将信号直接映射到某个码本k，而后再计算某个模型j输出该码本的概率bj(k)。但是这一方法是比较粗糙的，其性能受到VQ算法的极大影响，如果VQ本身性能就很差，声学模型的估计就会很不准确。因此，对于连续取值的特征应当采用连续的概率分布。由于语音信号特征的分布并不能用简单的概率分布，例如高斯分布等来直接描述，故而常用混合高斯模型或混合拉普拉斯模型等方法对语音信号的分布进行拟合。在此，混合高斯分布可以表示为若干高斯分量Gi的加权组合。即：

其中Gi(x)是均值为μi方差为σi的高斯分布。从数学角度看，当i趋向于无穷时，任何连续分布都可以用混合高斯模型来逼近。但是，高斯混合模型也存在着问题，那就是其计算量偏大。假设对于一个包含n个混合分量的混合高斯模型，其维度为m维，那么至少要进行次运算才能得到结果，如果有i个模型需要计算，那么时间复杂度就是O(mnk)。相比之下，离散HMM就相对简单，只需要进行一次VQ，再进行i次查表操作，就能够计算所有模型的概率值。因此，也出现了将二者结合起来的半连续隐马模型。其思路是输出概率不仅仅由bj(k)来决定，还乘上了VQ的概率，亦即该信号属于次码本的概率。

从精确度上看，连续隐马模型要优于半连续隐马模型，而半连续隐马模型又优于离散隐马模型。从算法复杂度上来看则正好相反。

高斯混合模型（Gaussian Mixture Model, GMM）是语音信号处理中的一种常用的统计模型，该模型的一个基本理论前提是只要高斯混合的数目足够多，一个任意的分布就可以在任意的精度下用这些高斯混合的加权平均来逼近。一个包含M个分量的高斯混合分布的概率密度函数是M个高斯概率密度分布函数的加权组合，定义为：

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}