一种基于非负矩阵分解的语音增强算法_隋璐瑛(4)

发布时间:2021-06-07

 第1期   隋璐瑛等:一种基于非负矩阵分解的语音增强算法

21 (11)

V=Vs+Vn≈[Ws Wn]

HsH=WH

式中,V是带噪语音的频谱信息,Vs和Vn分别是纯净语音和噪声的频谱信息。由于NMF算法具有不明确置换性,即W中的列信息变化时只要H中的行信息也做相应的变化即可。因此,我们需要通过采取措施来确定成分信息。一种方法是通过安静环境中录制的资源信号提前训练字典矩阵[10],另一种方法是使用参考文献[11]中提出的自动分组规则。本文中,通过训练阶段对噪声字典进行学习,作为增强阶段的已知信息,从而有效避免了增强阶段矩阵分解的不明确性。因此,本文的增强方法不依赖于说话者。在增强阶段,通过对NMF算法进行改进,使得增强阶段仅对Ws,Hs和Hn进行迭代更新计算,其迭代公式如下所示:

WsT[B-2]õV)WnT[B-2]õV)

Hs←Hsõ, Hn←HnõWs(WH)Wn(WH)

ss[B-2]õV)HsT

Ws←Wsõ(WsHs)Hs

阵。然后,使用式(12)、式(13)对语音字典和编码矩阵进行推导,估算得到的增强语音为:ds=WsHsV  最后,结合带噪语音的相位信息,对式(14)进行FFT反变换,得到时域上的增强语音信号。

(12)(13)

  本文提出的增强方案中,首先使用式(7)、式(8)对噪声进行分解,丢弃编码矩阵,保留训练得到的字典矩

(14)

3 算法性能评估

实验中,取干净语音为8kHz采样、16bit量化的标准女生汉语语音信号。噪声取自Noisex-92噪声库中的Babble噪声,M109坦克噪声和Machinegun枪噪声。通过MATLAB将干净语音信号与噪声信号进行混合,分别生成信噪比为-5dB、0dB、5dB和10dB的带噪语音信号。

将本文提出的基于KL-NMF和LS-NMF的语音增强算法与多带谱减法MSS(Multi-bandSpectralSubtraction),广义子空间增强算法GSA(GeneralizedSubspaceApproach)进行比较。分别采用对数频谱距离LSD(LogSpectralDistance)和客观质量评估方法PESQ(PerceptualEvaluationofSpeechQuality)对语音增强算法的性能进行比较。这两种指标与语音的主观测量有较高的相关度。LSD是反映语音频谱失真的度量,其计算方法为:

1

d22DLS=10lg(15)∑∑Ml∈MLk∈Ld(k,l)分别为s(n)和sd其中,M表示语音信号的帧数,S(k,l)和S(n)短时傅立叶变换后的第k帧的第l个

频谱分量,LSD的值与语音质量成反比。PESQ是2001年国际电信联盟(ITU-T)推出的P.862标准,用来评价语音的主观试听效果,能够很好地反映语音信号的感知质量,PESQ得分越高表示语音质量越好。

表1、表2分别给出了四种算法在不同信噪比条件下增强语音的LSD值和PESQ值的改善情况,由表可以看出,相比于多带谱减法和广义子空间法,本文提出的基于KL-NMF和LS-NMF的增强算法具有更好

表1 LSD值改善情况

输入Machinegun噪声

信噪比/dBMSSGSAKL-NMFLS-NMF

-51.681.481.231.1801.541.381.201.1451.421.211.171.11

Babble噪声

MSS

2.642.371.90GSA2.572.372.00KL-NMF2.612.181.67LS-NMF2.572.061.72MSS2.311.971.65

M109噪声GSAKL-NMF

2.211.921.811.551.511.34

LS-NMF

1.901.491.30

表2 PESQ值改善情况

输入Machinegun噪声信噪比/dBMSSGSAKL-NMFLS-NMF

-50510

1.802.082.452.79

1.201.592.022.57

2.913.103.233.41

3.033.053.233.45

MSS1.682.072.442.73

Babble噪声GSAKL-NMF1.752.062.382.68

1.702.092.452.85

LS-NMF1.752.152.472.86

MSS

M109噪声GSAKL-NMF

2.362.873.053.43

LS-NMF2.382.963.123.58

2.242.292.662.592.942.873.173.16

的噪声抑制性能,且LS-NMF算法的增强效果总体上要优于KL-NMF。LS-NMF和KL-NMF增强效果的差异主要在于两种算法在噪声分布假设上是不同的,KL-NMF假设噪声服从泊松分布,这与实际的背景噪声特性不相符,而LS-NMF假设噪声服从高斯分布,更加符合背景噪声的特性。

主观测试也验证了上述结果。图2、图3给出了纯净语音以及信噪比为0dB的Machinegun枪噪声环境下不同算法得到的增强语音时域图和语谱图。由图示也可以看出,本文算法的处理效果要明显优于传统

谱减法以及多带谱减法。

4 结束语

本文提出了一种基于NMF算法的语音增强方案,该方案通过训练阶段得到的先验知识对带噪语音进行增强,在非平稳噪声环境下能够有效地抑制背景噪声,取得了较好的语音增强效果。仿真结果表明,该算法要明显优于传统谱减法和多带谱减法,在较低信噪比条件下仍具有较好的性能。

(下转第30页)

一种基于非负矩阵分解的语音增强算法_隋璐瑛(4).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219