一种基于非负矩阵分解的语音增强算法_隋璐瑛(4)

时间：2025-07-01

　第1期　　　隋璐瑛等:一种基于非负矩阵分解的语音增强算法

21　(11)

V=Vs+Vn≈[Ws　Wn]

HsH=WH

式中,V是带噪语音的频谱信息,Vs和Vn分别是纯净语音和噪声的频谱信息。由于NMF算法具有不明确置换性,即W中的列信息变化时只要H中的行信息也做相应的变化即可。因此,我们需要通过采取措施来确定成分信息。一种方法是通过安静环境中录制的资源信号提前训练字典矩阵[10],另一种方法是使用参考文献[11]中提出的自动分组规则。本文中,通过训练阶段对噪声字典进行学习,作为增强阶段的已知信息,从而有效避免了增强阶段矩阵分解的不明确性。因此,本文的增强方法不依赖于说话者。在增强阶段,通过对NMF算法进行改进,使得增强阶段仅对Ws,Hs和Hn进行迭代更新计算,其迭代公式如下所示:

WsT[B-2]õV)WnT[B-2]õV)

Hs←Hsõ,　Hn←HnõWs(WH)Wn(WH)

ss[B-2]õV)HsT

Ws←Wsõ(WsHs)Hs

阵。然后,使用式(12)、式(13)对语音字典和编码矩阵进行推导,估算得到的增强语音为:ds=WsHsV　　最后,结合带噪语音的相位信息,对式(14)进行FFT反变换,得到时域上的增强语音信号。

(12)(13)

　　本文提出的增强方案中,首先使用式(7)、式(8)对噪声进行分解,丢弃编码矩阵,保留训练得到的字典矩

(14)

3　算法性能评估

实验中,取干净语音为8kHz采样、16bit量化的标准女生汉语语音信号。噪声取自Noisex-92噪声库中的Babble噪声,M109坦克噪声和Machinegun枪噪声。通过MATLAB将干净语音信号与噪声信号进行混合,分别生成信噪比为-5dB、0dB、5dB和10dB的带噪语音信号。

将本文提出的基于KL-NMF和LS-NMF的语音增强算法与多带谱减法MSS(Multi-bandSpectralSubtraction),广义子空间增强算法GSA(GeneralizedSubspaceApproach)进行比较。分别采用对数频谱距离LSD(LogSpectralDistance)和客观质量评估方法PESQ(PerceptualEvaluationofSpeechQuality)对语音增强算法的性能进行比较。这两种指标与语音的主观测量有较高的相关度。LSD是反映语音频谱失真的度量,其计算方法为:

d22DLS=10lg(15)∑∑Ml∈MLk∈Ld(k,l)分别为s(n)和sd其中,M表示语音信号的帧数,S(k,l)和S(n)短时傅立叶变换后的第k帧的第l个

频谱分量,LSD的值与语音质量成反比。PESQ是2001年国际电信联盟(ITU-T)推出的P.862标准,用来评价语音的主观试听效果,能够很好地反映语音信号的感知质量,PESQ得分越高表示语音质量越好。

表1、表2分别给出了四种算法在不同信噪比条件下增强语音的LSD值和PESQ值的改善情况,由表可以看出,相比于多带谱减法和广义子空间法,本文提出的基于KL-NMF和LS-NMF的增强算法具有更好

表1　LSD值改善情况

输入Machinegun噪声

信噪比/dBMSSGSAKL-NMFLS-NMF

-51.681.481.231.1801.541.381.201.1451.421.211.171.11

Babble噪声

MSS

2.642.371.90GSA2.572.372.00KL-NMF2.612.181.67LS-NMF2.572.061.72MSS2.311.971.65

M109噪声GSAKL-NMF

2.211.921.811.551.511.34