一种基于非负矩阵分解的语音增强算法_隋璐瑛(2)

时间：2026-01-21

　第1期　　　隋璐瑛等:一种基于非负矩阵分解的语音增强算法

[2]

是仍需要VAD过程。子空间方法通过空间分解,将整个空间划分为两个独立的子空间,即噪声子空间和叠加噪声的信号子空间,然后对噪声子空间和信号子空间进行处理以实现语音增强。广义子空间法[3]通过对语音信号和噪声信号的协方差进行同时对角化将子空间法推广到有色噪声的语音增强之中。此方法不需要对噪声频谱信息进行估计,能够有效抑制音乐噪声,但在低信噪比条件下,增强效果难以令人满意。当目标信号与噪声具有不同的频率特征时,维纳滤波器是最好的消噪方法。然而,当语音和噪声都为半固定的宽带信号,即大部分的能量都集中在低频时,此方法性能下降。隐马尔可夫模型[4]和矢量量化[5,6]都是基于源模型的信号分离算法,这些算法可以对语音和噪声信号的所有区域进行建模,但在信号分离前须对所有独立信号进行建模。

非负矩阵分解NMF(NonnegativeMatrixFactorization)算法[7]是目前国际上提出的一种新的矩阵分解方法。该算法采用简单有效的乘法迭代公式,在矩阵中所有元素均为非负的条件下实现分解。相对于传统的矩阵分解算法,NMF算法具有实现上的简便性,分解形式和分解结果的可解释性,占用较小存储空间等诸多优点,为处理大规模数据提供了一种新途径。

本文在Lee和Seung方法的基础上,提出了基于KL(Kullback-Leibler)目标函数和LS(LeastSquares)

目标函数的非负矩阵分解语音增强方案,即KL-NMF算法和LS-NMF算法语音增强方案。该方案分为训练阶段和增强阶段。训练阶段,采用非负矩阵分解算法对噪声频谱进行分离,提取噪声字典,保存其作为增强阶段的先验信息。增强阶段采用此算法对带噪语音频谱进行分解,通过相应的迭代公式对语音字典和语音编码进行估计,结合带噪语音相位信息重建增强后的语音。仿真结果验证了在非平稳噪声环境及低信噪比条件下,本文所提出的改进算法不仅具有更好的噪声抑制性能并且语音失真更小。

1　NMF算法

非负矩阵分解算法的主要思想是:对于任意给定的一个i×j的非负矩阵V,NMF算法可以分解产生i×r的非负矩阵W和r×j的非负矩阵H,使得W和H的乘积近似于矩阵V,即

d=WHV≈V

(1)

其中,r满足(i+j)r<ij。矩阵W是原始矩阵V中包含的所有可能的激励源信息,我们称之为字典矩阵,

矩阵H表示激励源在矩阵V中的对应位置,称为编码矩阵。非负性的限制使得算法成为基于部分的表示方法,因为算法只允许加性组合而不允许减性组合。NMF算法的数学模型可以理解为待分解的非负矩阵V可以近似地用非负矩阵W和非负矩阵H的乘积来表示,故称为非负矩阵分解。1.1　目标函数

NMF算法的目标就是寻找一系列的非负矩阵W和H,使其乘积结果尽可能地逼近原始分解矩阵V。定义一个用于度量的代价函数D,使得分解得到最佳的近似结果,即

dij)D(VûWH)=d(VijûV(2)

∑∑

其中,d是标量差,满足对于P(a,b)∈R,d(aûb)≥0,当且仅当a=b时,d(aûb)=0。自非负矩阵算法

诞生起,学者们纷纷提出各种不同的目标函数。本文主要考虑参考文献[8]中提出的B差异目标函数中两种常用的度量函数,即B=1时的KL目标函数和B=2时的LS目标函数,分别定义为

dB(xûy)=x(logx-logy)+(y-x)当B=1时