语音信号特征提取中Mel倒谱系MFCC的改进算法
时间:2025-04-03
时间:2025-04-03
54
2008,44(22)
co,印Ⅱ御’E,铆船ering肌dA即比越幻瑚计算机工程与应用
语音信号特征提取中Mel倒谱系MFCC的改进算法
张震,王化清
ZHANG
Zhen,WANGHua—qing
郑州大学,郑州45000l
ZhengzhouUnive侣ity,zhengzhou45000l,China
Z姒NG
Zhen.WANGH岫一qing.IIIIproved
based蚰voi∞si印aI.Compu钯r
Abstmct:Extr∞tingindividual
E咖ri呜and
of
the
algori岫I
ofMeI-F他que眦eCepstral
C∞mcie吣inchaⅢteris6璐extraction
AppIicaljo璐,2∞8,44(22):54-55.
the
traits
speake璐fmmthe打voice8
is
key
ofVoiceprint
recongIlition.nis
count
paperchieny
intlloducesMel—FrequenceCepstImCoemcientsand“’simpmvedalgorithm(3(7+1),analyzesandgivesdetailed
pmcess,and
al∞givesthedifferencesf而mthenomal
algorithm
byexperiment.
Key帅rds:voice
recogIIition;characteristics
ex咖ti叩;Mel—FrequenceCep涮C∞佑cieIlts(MFCC)
摘要:从说话人的语音信号中提取说话人的个性特征是声纹识别的关键。主要介绍语音信号特征提取方法中的Mel倒谱系数(Mel—Frequence
cepstral
coemcients,MFcc)的特点及其改进算法(3Q+1),分析给出了较详细的计算过程并通过实验比较了其和
传统算法在语音识别系统中的差别。关键词:语音识别;特征提取;MFCCDoI:10.3778,j.issn.1002—8331.2008.22.015
文章编号:l002—8331(2008)22—0054-02
文献标识码:A
中图分类号:TN912.3
语音信号的特征矢量在频域上主要有线性预测系数(LPC),LPC倒谱系数(LPcc),MEL频率倒谱系数(MFCc)。LPCc逼近人类发声机理但对于辅音的描述能力较差,抗噪声性能较差。MFcc充分考虑人耳听觉结构和人类发声和接受声
厶=2
595lg(1+二)如图l所示(其中横坐标为线性频率,纵
350030002500
坐标为Mel频率)。
音的机理特性具有很好的鲁棒性。而且在没有任何假设前提条件,其具有较好的识别性能和抗噪能力。但标准的MFcc只反
映r语音参数的静态特性,而人耳对语音的动态特性更为敏感,
气2000蓦l500
l0()05000
Frequen。y,Hz
本系统特色是引入一阶差分(埘彤c),二阶差分(△△M粥c)再
加E时域特征信息的帧能量参数构成了(3p+1)维的特征矢量,更好地消除了语音帧之间的相关性,更优的逼近语音的动态特征,大大提高了识辨率。
根据生理学的研究成果表明,人耳对不同频率的声波有不同的听觉灵敏度。从200—5
000
图lMel标度与频率的关系
Hz之I’日】的语音的清晰度影响
1传统特征提取计算方法
MFcc特征参数提取及计算如图2所示。特征提取及计算过程:
(1)原始语音信号s(n)经过预加重、分帧、加窗等处理得到每个语音帧的时域信号x’(n)。预加重目的是为了对语音的高频部分进行加重增加其高频分辨率,一般通过传递函数为Ⅳ(:)=l-0澎~,n取0.97;根据语音信号短时平稳的特性,通过分帧操作提取语音短时特性便于建模,一般取帧长30ms此时帧移lOms;为了平滑信号以减少每帧信号两端的预检测误差。避免频谱出现“破碎”现象采用加窗处理。每帧用窗函数相乘以减少帧起始和结束处的信号不连续性。在语音信号的时域分析
Hen锄PmvinceunderGmntNo.03244l0092)。
最大。听觉系统有两个关键特征:
(1)人耳对于声波频率的感觉呈现对数关系;
(2)一个声音月被感知的域值由于另一个声音B的出现而提高。即所谓的掩蔽效应。也就是说.当两个频率相近的音调同时发出时,人只能听到—个音调。掩蔽效应的生理依据是频率群,在20 ̄16000Hz范围内的频率可以分成24个频率群。
因此在进行声学测量时,频率刻度常取为非线性刻度。实验表明,人类在对约l …… 此处隐藏:6666字,全部文档内容请下载后查看。喜欢就下载吧 ……
上一篇:艺考广播影视编导专业必看电影