语音信号特征提取中Mel倒谱系MFCC的改进算法
发布时间:2024-08-27
发布时间:2024-08-27
54
2008,44(22)
co,印Ⅱ御’E,铆船ering肌dA即比越幻瑚计算机工程与应用
语音信号特征提取中Mel倒谱系MFCC的改进算法
张震,王化清
ZHANG
Zhen,WANGHua—qing
郑州大学,郑州45000l
ZhengzhouUnive侣ity,zhengzhou45000l,China
Z姒NG
Zhen.WANGH岫一qing.IIIIproved
based蚰voi∞si印aI.Compu钯r
Abstmct:Extr∞tingindividual
E咖ri呜and
of
the
algori岫I
ofMeI-F他que眦eCepstral
C∞mcie吣inchaⅢteris6璐extraction
AppIicaljo璐,2∞8,44(22):54-55.
the
traits
speake璐fmmthe打voice8
is
key
ofVoiceprint
recongIlition.nis
count
paperchieny
intlloducesMel—FrequenceCepstImCoemcientsand“’simpmvedalgorithm(3(7+1),analyzesandgivesdetailed
pmcess,and
al∞givesthedifferencesf而mthenomal
algorithm
byexperiment.
Key帅rds:voice
recogIIition;characteristics
ex咖ti叩;Mel—FrequenceCep涮C∞佑cieIlts(MFCC)
摘要:从说话人的语音信号中提取说话人的个性特征是声纹识别的关键。主要介绍语音信号特征提取方法中的Mel倒谱系数(Mel—Frequence
cepstral
coemcients,MFcc)的特点及其改进算法(3Q+1),分析给出了较详细的计算过程并通过实验比较了其和
传统算法在语音识别系统中的差别。关键词:语音识别;特征提取;MFCCDoI:10.3778,j.issn.1002—8331.2008.22.015
文章编号:l002—8331(2008)22—0054-02
文献标识码:A
中图分类号:TN912.3
语音信号的特征矢量在频域上主要有线性预测系数(LPC),LPC倒谱系数(LPcc),MEL频率倒谱系数(MFCc)。LPCc逼近人类发声机理但对于辅音的描述能力较差,抗噪声性能较差。MFcc充分考虑人耳听觉结构和人类发声和接受声
厶=2
595lg(1+二)如图l所示(其中横坐标为线性频率,纵
350030002500
坐标为Mel频率)。
音的机理特性具有很好的鲁棒性。而且在没有任何假设前提条件,其具有较好的识别性能和抗噪能力。但标准的MFcc只反
映r语音参数的静态特性,而人耳对语音的动态特性更为敏感,
气2000蓦l500
l0()05000
Frequen。y,Hz
本系统特色是引入一阶差分(埘彤c),二阶差分(△△M粥c)再
加E时域特征信息的帧能量参数构成了(3p+1)维的特征矢量,更好地消除了语音帧之间的相关性,更优的逼近语音的动态特征,大大提高了识辨率。
根据生理学的研究成果表明,人耳对不同频率的声波有不同的听觉灵敏度。从200—5
000
图lMel标度与频率的关系
Hz之I’日】的语音的清晰度影响
1传统特征提取计算方法
MFcc特征参数提取及计算如图2所示。特征提取及计算过程:
(1)原始语音信号s(n)经过预加重、分帧、加窗等处理得到每个语音帧的时域信号x’(n)。预加重目的是为了对语音的高频部分进行加重增加其高频分辨率,一般通过传递函数为Ⅳ(:)=l-0澎~,n取0.97;根据语音信号短时平稳的特性,通过分帧操作提取语音短时特性便于建模,一般取帧长30ms此时帧移lOms;为了平滑信号以减少每帧信号两端的预检测误差。避免频谱出现“破碎”现象采用加窗处理。每帧用窗函数相乘以减少帧起始和结束处的信号不连续性。在语音信号的时域分析
Hen锄PmvinceunderGmntNo.03244l0092)。
最大。听觉系统有两个关键特征:
(1)人耳对于声波频率的感觉呈现对数关系;
(2)一个声音月被感知的域值由于另一个声音B的出现而提高。即所谓的掩蔽效应。也就是说.当两个频率相近的音调同时发出时,人只能听到—个音调。掩蔽效应的生理依据是频率群,在20 ̄16000Hz范围内的频率可以分成24个频率群。
因此在进行声学测量时,频率刻度常取为非线性刻度。实验表明,人类在对约l000Hz以上的声音频率范围的感知遵循在对数坐标上的近似线性关系,Mel刻度是根据丰观音高均匀划分是最合理的频率刻度。Mel频率与线性频率的转换关系为
摹食项日:河南省科技攻关摹金项目(111P
science舳d‰hnology
Foundationof
作嚣简介:张震(1966一),男,副教授,硕士生导师,主研通信与信息t程、图像处理与模式识别等;王化清,男,研究生.主研信号处理、声纹识别。
收稿U期:2007一l㈣9
万方数据
修叫U期:2007一12—24
张震,王化清:语音信号特征提取中Mel倒谱系MFCC的改进算法2008,44(22)55
图2MFCc计算漉程
来i兑,窗函数的形状很重要。虽然矩形窗平滑比较好,但容易使波形细节丢失.并且会产生泄露现象,而Hamming窗则能有效地克服泄露现象,所以,在声纹认汪中加窗的方法大致以Ham—ming窗最为常见,本系统也采用Hamming窗(系统采用^,=410
/,^,n\
点):埘(,1)=o.54_o.46‘:osI:jI\,V—l
l(o≤n≤肛1)。,
(2)端点检测是语音识别中的一个重要环节,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰使语音识别更为准确.在众多的方法中采用传统的基于短时能量和短时过零率的检测算法(双fJ限比较法)。无声段的短时能量为零,清音段的短时能量又比浊音段短时能量大,而在过零率方面理想的情况是无声过零率为零。浊音比清音过零率大的多。根据语音的特点设置较低较高两个门
限值,低门限(%%)数值较小,对信号的变化较敏感很容易被
超过。高¨限(70%)数值较大,信号必须达到一定的强度该门
限才可能被超过。低门限被超过可能是时I’日J很短的噪声引起
的.高门限被超过则可以基本确定是语音信号引起的。由此即
可准确的监测出语音的起始端点。示意图如图3所示。
静
盼
翅删
翟鲁鹾
70(7k)
%(%)
(3)为便于计算F
F-I',在序列后补零以构成悄12点再进行
^一
一韭竺皇.
离散FFl’变换。则第i帧语言的频谱为:x(||},i)=∑x(n)e“。
(4)将上述线性频谱x(J|I.i)通过在频率范围内设置的若干个具有三角滤波特性的带通滤波器Ⅳ。(七)的Mel滤波器组
得到Mel频谱(三角滤波器特性在此不再详叙)。为了使结果对
噪声和谱估计误差有更好的鲁棒性,将得到的Mel频谱取对数能量得到能量谱再经滤波器输出。总传递函数为s(蠡,f)=
ln(乞Ⅸ(I|},i)阳。(七))。
(5)将对数能量谱s(_|}.i)经过离散余弦变换(DTc)到倒谱域即可得到Mel倒谱系数c肫f(n),肘为滤波器的个数。c俐(,1)=
篓姒川c叫型等堕)(o≤…)。
2对传统算法的改进
以上即为传统标准算法。标准的MFcC只反映了语音参数
的静态特性。而入耳对语音的动态特性更为敏感。为更好地拟
合人发声和人耳听觉的动态特性,本系统引入MFcc的一阶差分(△肘,℃c),MFCc的二阶差分(△△删叼c),再加卜时域特征信息的帧能量参数即构成了(Q维MFcc参数+帧能量)的特征
万
方数据矢量。更好地消除了语音帧之间的相关性。更好地逼近语音的动态特征大大提高了识辨率。差分参数的计算如下:
d(n)=—告∑及‰(肘£)
^
、佳i:…‘T…^
式中c,d都是一帧语音参数.I|}为常数通常取2,用以上公式求得的参数是当前帧的前两帧和后两帧的线性组合.即是一阶差分MFcc差分倒谱参数.把结果再代入上式就可以得到二阶参
数。时域能量特征用短时(帧)平均幅度表征。计算如下【埘(,1)
为窗函数即Hamming窗):肘产∑k(m)b(几—m)=k(厅)b(乃),
这样就构成了(3Q+1)维的特征矢量(即M}℃c的一阶,二阶差分参数+帧能量)。
3实验及结果
在MAlrIAB中,语音信号工具箱中提供了计算MFCC参
数的函数为脚如e芦f(s。届)。s表示语音信号。声表示采样率。本
文取ll
025
Hz,语音帧长度为256点,求24阶的MFcc。其中
计算肘个滤波器的系数调用了函数胱艮e_p观m。该滤波器组
包含24个滤波器。语音帧长度为256。信号的采样频率为
ll025
Hz。然后再调用差分汁算函数如丘m计算一阶二阶差分
参数。
本文所采用的数据是实验室条件下用麦克风录制的单声道采样率为16
Hz,16
bit量化语音,本系统包括10个说i舌人,
其中每个说活人的10个语音段用于构成训练样本集。6个语音段作为测试集。对所有语音段进行预加重(系数0.97)加窗
(H踟ming窗)处理,取帧长256点帧移lOms分别提取舰陀C,
M盹C+&MFCc,MFCC+幽FCC+&&MFCc+Mn特,证参数.说话
人的模型采用HMM(隐马尔科夫模型)模型,状态数取4。每个高斯元个数取3。
识别结果为:M叼C+△M叼C+△△肘阳C+朋『n识别率为
95.83%,肘彤c+埘阳c识别率为93.33%,肘心℃识别率为
91.67%,识别率肘胁△肘彤C+△△肼咒’c+朋h明显最高。
此法缺点在于计算量较大,但随着汁算机技术的飞速发
展,为大计算量l’ul题的解决提供了较多简洁的方法,大计算量已经不成I.uJ题。以牺牲计算量和汁算时间为代价,明显提高声音信号的i}}别率。在声纹识别系统中已得到了广泛的应用。
4结论
通过实验比较得知:改进算法后肘阳“△/M化“△△肘彤“
朋h(3p+1)特征提取的识别率高达95.8%,识别率得到明显改善。此法从很大程度上拟合了人耳对语音处理的动态特点,而且具有一定的控噪性,在同等条件下大大提高了说话人语音识别率,其在声纹识别领域有广阔的应用前景。
(下转58页)
582008,44(22)
comp姚rE嚼舶e矗昭∞d却,)肠以协邶计算机工程与应用
4.2
Co¨e2eFootballNetworkl7I
colle胛Fo()thaIlNetwork模型是美国大学生足球联赛抽象出来的一个复杂}c对络模型。足球联赛中有若干支球队,网络中的节点代表一只足球队.两个节点之间的边表示两只球队之I’日J进行过一场比赛。该I嘲络模型收集于2000赛季的比赛数据情况.由Girv粕M与NewmanM收集整理而成。存在115只球队(节点)及616场比赛(边).包含了12个联盟。通过Ps0算
(4)
法解决球队联盟划分的问题,再次表现出为一种切实可行的方法。根据实验结果,比照联赛的真实情况,划分正确率超过80%。
各节点的边数应该远远大于社区外部连接各社区之I'日J的边数。
因此。与—个节点相连的节点(邻居节点)与该节点在同一个社区内的可能性是很大的。通过分析每个节点的社ⅨID值及其邻居节点的社区ID值来增强划分结果的准确性。定义M71(i)表示节点i的错误rJ限值,假如肼r(i)大于某个fJ限值。则该节点的划分呈现明显的错误状态。
乞(I.『)“iJ)
肘烈i)=1——T_
oeg陀e~l,
其中
,。。d’2I
。..、fO
l
co,黼,D(i)=comm,D(J)
com,,l,D(i)≠comm,D(i)
按照节点号的顺序分析所有节点的肘烈i)值,假如肘丁(i)大于某个门限值,那么查找该节点的邻居节点的社区ID。用出现次数最多的社区ID替代该节点原有的社区ID。经过对模型的分析所得结果显示,该纠错步骤相当行之有效,极大地解决了节点错误分配的情况,弥补了Ps0算法的一些固有缺陷所带来的错误。
5结束语
复杂网络的社区结构发现已经成为当今一个非常具有挑战性的研究领域。本文中尝试用Psr)微粒群算法来分析网络社区结构的划分情况。研究结果表明,用该算法对复杂I碉络的分析是行之有效的。比较其他算法而言,本方法的优点在于无需预先知道复杂网络的社区数量或者社区内的节点数量。
4实验结果
为了测试本文中所提出算法的可行性,针对两个经典模型
zacharyKamte
参考文献:
【l】Girv蛐M,NewmanMEJ.CommunitystⅢc£u陀insocialandbio—
Io矛caInetworks【CJ,/Pmceedin铲ofNational
2002.99:782l一7826.
Academy0f
club和collegeFootballNetwork进行了验证。
CIub旧
【21
scie眦e。
4.1
ZacharvKarate
Clausetin
very
20世纪70年代初期,zachanr用了两年的时间来观察美国一所大学中的空手道俱乐部成员问的相互社会关系。基于这些成员在俱乐部内部及外部的社会关系。他构造了他们之间的关系网。在调查过程中,该俱乐部的主管与校长之间凶是否抬高俱乐部收费的问题产生了争执。结果,该俱乐部分裂成了两个分别以主管和校长为核心的小俱乐部。在复杂网络的社团结构分析中zacha珂l(aratecIub网络已经成为—个经典的问题。
用算法去分析zachary
Kamte
A,Ne’哪anMEJ,MooreC.FindingcommunitystⅢctu陀
large
networksfJJ.PhysicalReviewE,2004.70.
【3JNewmanMEJ.F鹄ta190rithmR'rdetectingcom咖nity8tmctIIre
in
networⅥJ1.PIly9icalRe“州E,2004.69.
J,EberhanIEEE
RC.ParticIe
吲Kennedy
ings
swa册叩timi龃tion【C∥PM eed—
on
ofIntematio眦IConfe地nceNeuml
Networks,Pis—
catway.NJ,1995:1942一1948.
f5】Eberhan
RC,Kennedy
J.A
new
opIiIIIi跚using
panicle
swa唧
on
Club网络,在很多次的计
theorylC】,,Pmceedin轳“theSixlhIntemationalSymposiumMi(!mmachine彻d[61ZacharyWW.An
insmall452—473.
算中,除了部分进化失败的情况(如模块度p=1)以外.对该复杂网络的社区结构划分准确性超过90%。个别不准确的情况中,节点10被分配到了错误的社区中去,见图l。
Hum柚science。N哪ya。Japan.1995:39-43.
info咖tion
flowmodeIforconnictandfission
Research,1977,33:
groups【JJ.JoumalofAnthmpologicaI
【71GirvanM,NewmnMEJ.Communitystmctureinsocialandbio—
lo酊calnetworks【CJ,,Proceedin伊ofNalionaI
2()02.99:782l一7826.
Academy
ofScience。
181
New眦n
in
M
EJ.F触talgorithmfordetectingcommunity
8tmcture
networks【J1PhysicaJReviewE,2004,69.
【9】曾建潮.微粒群算澍MJ.北京:科学出版社,2004.
【lOJTk舀n
M.Community
detecti∞删池l
its
usinggenetic
algorithmin
complexnerwork6Gmduate
鲫d
印pIicati伽in
浏一I如
networks【D】.
UniVersity,
Pmg咖in
ComputerEngineeriⅡg,Bog犯ici
圈t臣m菜次计算时的社区炳分结果
2005.
(上接55页)
【4】杨行峻.语音信号数字处理【M1.j匕京:电子工业出版社,l995.
参考文献:
【11王炳锡,屈单.实用语音识别基础lMJ.北京:国防工业出版社,2()04.【21蔡莲红,黄得志,蔡锐.现代语音技术基础与应用【MJ.|匕京:清华大
学出版社,2003.【3】张雄伟,陈亮,杨吉斌.现代语音技术及应用【M】.北京:机械工业出
版杜,2003.
【51邵央.刘阿哲.李宗葛.基于MFcc和加权矢量化的i兑话人识别【J】.
计算机工程与应用,2002,38(5):127一128.
『6】Fakhr
W,saI枷AA,H枷dyN.Enhancem朋t
on
of
mis咖tche(1
rondi—
tionsin
speaker”ecogrIiti佣f葫舢ltimedia印plications【JJIEEE
Ac叫stics,Speech,粕d
Signal
Process-
IntemationalConferenceing,2004.
万方数据
语音信号特征提取中Mel倒谱系MFCC的改进算法
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
张震, 王化清, ZHANG Zhen, WANG Hua-qing郑州大学,郑州,450001
计算机工程与应用
COMPUTER ENGINEERING AND APPLICATIONS2008,44(22)11次
参考文献(6条)
1.王炳锡;屈单 实用语音识别基础 2004
2.蔡莲红;黄得志;蔡锐 现代语音技术基础与应用 20033.张雄伟;陈亮;杨吉斌 现代语音技术及应用 20034.杨行峻 语音信号数字处理 1995
5.邵央;刘丙哲;李宗葛 基于MFCC和加权矢量化的说话人识别[期刊论文]-计算机工程与应用 2002(05)6.Fakhr W;Salam A A;Hamdy N Enhancement of mismatched conditions in speaker recognition formultimedia applications 2004
本文读者也读过(4条)
1. 张晶.范明.冯文全.董金明.ZHANG Jing.FAN Ming.FENG Wen-quan.DONG Jin-ming 基于MFCC参数的说话人特征提取算法的改进[期刊论文]-电声技术2009,33(9)
2. 袁正午.肖旺辉.YUAN Zheng-wu.XIAO Wang-hui 改进的混合MFCC语音识别算法研究[期刊论文]-计算机工程与应用2009,45(33)
3. 鲁五一.吴德华.谢志明.刘建.LU Wuyi.WU Dehua.XIE Zhiming.LIU Jian 基于听觉掩蔽效应的改进MFCC特征提取算法[期刊论文]-信息化研究2009,35(9)
4. 叶庆云.蒋佳.YE Qing-yun.JIANG Jia 基于语音MFCC特征的改进算法[期刊论文]-武汉理工大学学报2007,29(5)
引证文献(11条)
1.高建 基于HMM的连续小词量语音识别系统的研究[期刊论文]-现代电子技术 2011(11)
2.关耀铧.申凌.吴云.赵勇 音频指纹搜索中数据预处理的改进算法[期刊论文]-计算机工程与应用 2010(21)3.李建文.张晋平 基于改进语音特征提取方法的语音识别[期刊论文]-微电子学与计算机 2009(7)4.王大巍 基于Windows CE的语音口令识别系统的设计[期刊论文]-电子技术 2010(11)5.李健.戴天虹 说话人识别特征提取中改进算法的研究[期刊论文]-森林工程 2009(2)
6.于晓明.柏松 基于前向-后向HMM的连续语音识别系统的研究[期刊论文]-计算机工程与设计 2009(18)7.袁正午.肖旺辉 基于频率段的语音识别算法设计与实现[期刊论文]-计算机工程与设计 2011(2)8.袁正午.肖旺辉 改进的混合MFCC语音识别算法研究[期刊论文]-计算机工程与应用 2009(33)
9.李文.莫鸿强.田联房.阳国清.郑则广 采用MFCC和DTW的咳嗽干湿性自动分类技术[期刊论文]-计算机工程与应用2010(13)
10.石锐.郑晓平.何庆华 基于HMM-ANN的咳嗽音识别[期刊论文]-世界科技研究与发展 2012(5)11.周燕 遗传算法与BP神经网络相结合的说话人识别系统[期刊论文]-传感器与微系统 2009(6)
本文链接:http://www.77cn.com.cn/Periodical_jsjgcyyy200822015.aspx
上一篇:艺考广播影视编导专业必看电影