汉语连续语音识别系统的研究与实现(20)
发布时间:2021-06-08
发布时间:2021-06-08
语音信号处理相关论文
第二章语音识别系统概述
语音信号的短时能量E定义如下【14】:
E=∑[z仰)似力一所)】2(2.6)
其中x(m)为语音序列,w(n一棚)为对应帧上的窗函数。
短时能量反映了语音的振幅或能量随时间变化的规律,一般情况下,浊音的幅度比清音的幅度大很多,浊音段的能量远大于清音段,因此短时能量可以用来判断浊音和清音。同时,在高信噪比环境下,可以用短时能量来判断有声与无声以及声韵母、连字的分界等。
信号的幅度值由正变负或由负变正时要经过零值,称为过零,信号的过零率是指在单位时间内信号过零的次数。语音信号的短时过零率定义如下【14】:
乙=∑Isgn[x(n)]-sgn[x(n-0]tw(n-m)(2.7)
其中x(m)为语音序列,sgn[]是符号函数:
L
sgn(,z):lls(行)2o;x(疗)<ox!咒:≥竺(2.8)【2 子)
从玎):』嘉,o≤刀≤N—l(2.9)
l0,其他
过零率间接反应了语音的频谱特性,可以用来进行语音的清音和浊音、有声和无声基于能量.过零率的双门限端点检测算法流程图如图2-6所示。在端点检测开始之语音信号可以分为静音段、过渡段、语音段和结束四个阶段。在静音段,如果某一
16判断。前,首先为短时能量和短时过零率分别确定高、低两个门限。帧的能量或过零率超过了低门限,则该帧可能是语音的起始帧,标记该帧并进入过渡段;在过渡段中,如果能量或过零率超过了高门限,就可以确定进入语音段了,语音段的起始帧就是能量或过零率超过低门限的帧。如果能量与过零率都回落到低门限以下,则此段不是语音段,恢复到静音状态,继续判断后面的语音信号;在语音段中,如果能量与过零率都降低到了低门限以下并且持续时间超过了最大静音时间,则语音段结束,语音段的结束帧就是能量与过零率都回落到低门限以下的帧。对于检测出的语音段,如果时长小于语音最短时间门限,则认为这不是语音,而是一段噪声。汉字“去"的双门限端点检测如图2.7所示。