汉语连续语音识别系统的研究与实现(2)

发布时间:2021-06-08

语音信号处理相关论文

摘要

语音识别是利用计算机对人类的语音进行处理,将语音信号转化为文字符号的一种技术。国内外对汉语语音识别的研究已经有了近60年的历史,取得了很大的进展,但仍存在很多问题。现有的语音识别技术还达不到人与机器通过自然语言交互的目标,大词汇量、非特定人的连续语音识别仍是语音识别研究的难点与重点。

本文主要研究汉语连续语音识别的关键技术。首先介绍了语音识别的原理、语音识别系统的组成以及汉语语音的基本知识。然后分别介绍了语音识别的预处理、特征参数提取、模式匹配和后处理阶段的功能及其关键技术,并针对传统方法中存在的问题提出了改进方案。本文的主要工作有:

1)在个人电脑平台下,用MicrosottVisualC++,MATLAB,MicrosoftSQLServer等工具实现了一个中等词汇量、非特定人的汉语连续语音识别系统,并对系统进行了实验。系统选择声韵母作为识别基元,特征参数采用Mel频标倒谱系数,识别模型选用动态时间规整模型。

2)识别基元分割的准确度对系统的识别性能影响很大,现有的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中分割准确度大幅度降低。针对这一问题,本文结合汉语连续语音的特性,利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法,有效提高了声韵母分割的准确度。

3)采用传统动态时间规整技术的语音识别系统在识别时计算量较大,系统响应时间长。针对这一问题,本文提出了基于模板阈值的DTW改进算法和基于待测语音特征矢量阈值的DTW改进算法,有效减少了计算量,提高了系统的实时性。关键词:语音识别,端点检测,Mel频标倒谱系数,动态时间规整

精彩图片

热门精选

大家正在看