汉语连续语音识别系统的研究与实现(2)

时间：2026-04-23

语音信号处理相关论文

摘要

语音识别是利用计算机对人类的语音进行处理，将语音信号转化为文字符号的一种技术。国内外对汉语语音识别的研究已经有了近６０年的历史，取得了很大的进展，但仍存在很多问题。现有的语音识别技术还达不到人与机器通过自然语言交互的目标，大词汇量、非特定人的连续语音识别仍是语音识别研究的难点与重点。

本文主要研究汉语连续语音识别的关键技术。首先介绍了语音识别的原理、语音识别系统的组成以及汉语语音的基本知识。然后分别介绍了语音识别的预处理、特征参数提取、模式匹配和后处理阶段的功能及其关键技术，并针对传统方法中存在的问题提出了改进方案。本文的主要工作有：

１）在个人电脑平台下，用ＭｉｃｒｏｓｏｔｔＶｉｓｕａｌＣ＋＋，ＭＡＴＬＡＢ，ＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ等工具实现了一个中等词汇量、非特定人的汉语连续语音识别系统，并对系统进行了实验。系统选择声韵母作为识别基元，特征参数采用Ｍｅｌ频标倒谱系数，识别模型选用动态时间规整模型。

２）识别基元分割的准确度对系统的识别性能影响很大，现有的声韵母分割方法在非连续语音中分割准确度较高，但在连续语音中分割准确度大幅度降低。针对这一问题，本文结合汉语连续语音的特性，利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法，有效提高了声韵母分割的准确度。

３）采用传统动态时间规整技术的语音识别系统在识别时计算量较大，系统响应时间长。针对这一问题，本文提出了基于模板阈值的ＤＴＷ改进算法和基于待测语音特征矢量阈值的ＤＴＷ改进算法，有效减少了计算量，提高了系统的实时性。关键词：语音识别，端点检测，Ｍｅｌ频标倒谱系数，动态时间规整

汉语连续语音识别系统的研究与实现(2).doc 将本文的Word文档下载到电脑

精彩图片