基于DSP的语音识别系统研究与实现
时间:2025-07-13
时间:2025-07-13
基于DSP的语音识别系统研究与实现
孙爱中1,刘
(1.中国航空计算技术研究所,陕西西安摘
冰1,张琬珍1,栾前进2
710068;2.陆航驻西安地区军代室,陕西西安710068)
要:语音识别是人机语音通信的关键技术之一,也是难题之一。介绍了一种语音识别系统,主要介绍了该系统的
语音处理流程,阐述了系统使用Mel频标倒谱参数作为特征提取的方法,采用隐马尔科夫模型算法的测度估计技术。通过严格测试,该系统达到实用化要求。该语音识别系统较好的实现了在移动电子设备上资源有限条件下方便快捷的汉字语音输入,具有重大现实意义。
关键词:语音识别;特征提取;带通滤波;隐马尔科夫模型中图分类号:TN911.7 34
文献标识码:A
文章编号:1004 373X(2013)09 0076 03
RealizationofspeechrecognitionsystembasedonDSP
SUNAi zhong1,LIUBing1,ZHANGWan zhen1,LUANQian jin2
(1.AeronauticsComputingTechniqueResearchInstitute,Xi’an710068,China;2.ArmyAviationForceRepresentativeOfficeStationedinXi’anDistrict,Xi’an710068,China)
systemanditsvoiseprocessingprogramflowareintroduced.ThewaythatMelfrequencycepstrumparametersareusedtoextractfeatures,andthemeasurementestimationalgorithmbasedonhiddenmarkovmodel(HMM)areelaborated.Thestricttestingresultsinputundertheconditionofresourcelimitedinelectrommunicationequipments.Thissystemhasgreatpracticalsignificance.
Keywords:speechrecognition;featureextraction;band passfiltering;HMM
showthatthesystemcanmeettherequirementofpracticability.ThespeechrecognitionsystemrealizedChinesecharactersvoice
Abstract:Speechrecognitionisoneofthekeytechnologiesinhuman machinespeechcommunication.Aspeechrecognition
语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。本文从实现原理入手,介绍语音识别系统的实现方式。1
概述
本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的400多个调音节(不考虑声调)以及一些常用的词组。识别系统主要用于手持设备,如手机、掌上电脑。这些设备的CPU一般是DSP,硬件资源十分有限,而且大多不支持浮点运算。那么,对系统各个部分的设计首要考虑的是系统对硬件资源的开销必须尽量的小,不能超过这些设备的限制。硬件资源的开销包括存储模型参数的开销,以及识别过程中对内存、DSP的运行时间的开销。
收稿日期:2013 01 05
2实现流程
一般的语音处理流程图如图1
所示。
图1语音识别系统的处理流图
在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。
3特征提取
目前通用的特征提取方法是基于语音帧的,即将语
m表示第m维。式中下标l与l-k表示第l与l-k帧;
音信号分为有重叠的若干帧,对每一帧提取语音特征。由于本技术方案采用的语音库采样率为8kHz,因此采用帧长为256个采样点(即32ms),帧步长或帧移(即每一帧语音与上一帧语音不重叠的长度)为80个采样点(即10ms)。
现有语音识别系统采用的最主要的两种语音特征包括:
efficient,LPCC),该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。Mel频标倒谱参数(MelFrequencyCepstrumCoeffi 线性预测倒谱参数(LinearPredictionCepstrumCo
为Mel频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器Hm(n),m=0,1,2, ,M-1,n=0,1,2, ,N2-1。M为滤波器个数,N为一帧
MFCC参数计算的要点是将线性功率谱S(n)转换成
语音信号的点数。每个滤波器具有三角形特性,其中心频率为fm,它们在Mel频率轴上是均匀分布的。在线性频率上,当m较小时相邻的fm间隔很小,随着m的增加相邻的fm间隔逐渐拉开。Mel频率和线性频率的转换关系如下:
föæMel=lnç1+÷
øè
cient,MFCC),该特征考虑了人耳的听觉特性,将频谱转
这些带通滤波器的参数是事先计算好的。图2给出了滤波器组的分布图,其中M选择为26,FFT点数N
为256,语音信号的采样频率为8000Hz。
化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在汉语数码语音识别中MFCC参数的性能明显优于LPCC参数,因此本技术方案采用MFCC参数为语音特征参数。
求MFCC参数的大致过程为:
对输入语音帧加Hamming窗后做快速傅里叶变换(FastF …… 此处隐藏:3386字,全部文档内容请下载后查看。喜欢就下载吧 ……
下一篇:国美并购永乐案例分析