汉语连续语音识别系统的研究与实现(9)

时间：2026-04-23

语音信号处理相关论文

西北大学硕士学位论文

与机器通过自然语言交流的目标，离人们最初设想的还相差很远，大词汇量、非特定人连续语音识别仍然是一个难度很大的课题。

在声学层面上，各个单词之间的发音会相互影响，同一个单词在不同的语音序列中，发音会产生变化，致使语音信号的声学特征也随之改变；在连续语音中，单词与单词之间没有明显的间隔，很难选取适当的声学特征对其进行分割；即便是同一个人，在生理状况、心理状况、精神状况等主观因素的影响下，语音信号也会产生差异，无法保持一致；同时，语音录入设备的类型、录音时的位置以及环境噪声等都会对语音信号产生干扰，影响语音特征的准确提取。

在语言学层面上，一个词、句所要表达的真正含义与其上下文内容、说话时的环境条件以及说话人的身份背景等密切相关。在人们的日常交流当中，使用的语言并不严格遵守词法、语法等规则，语言结构的随意性随处可见，自然语言中的不规范现象如次序颠倒、反语、局部重复、语言插入等也给语音识别处理带来很大困难。

对于汉语连续语音识别来说，除具有上述特点外还有其独特的方面：汉语以单音节为单位，一个汉字对应一个音节。在汉语连续语音中，部分音节发音时间很短，很容易被漏检；汉语有大量的同音字，以国标一、二级汉字为例，有调音节有１２００多个，汉字则有６７００多个，其中音节“ｙｌ＂对应的同音汉字就有６０个。大量同音字的存在使得系统的处理变得复杂，也很容易混淆；中国是一个多民族国家，不同地区之间发音差异很大，不同地方的人在讲普通话时或多或少都带有方言特性，也给识别带来很多困难。

本文的主要研究内容是汉语连续语音识别的基本原理和关键技术。在分析、研究当前汉语连续语音识别技术的基础上，选择声韵母作为识别基元、Ｍｅｌ频标倒谱系数为特征参数、用动态时间规整技术实现了一个中等词汇量、非特定人的汉语连续语音识别系统。随后进行了实验分析，针对系统存在的问题进行改进：针对传统声韵母分割算法在汉语连续语音中分割正确率不高的问题，在考虑汉语连续语音特点的基础上，利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法；采用传统动态时间规整技术的识别系统计算量较大，响应时间过长。针对这一问题，提出了两种带阈值的动态时间规整改进算法。利用本文设计和改进的算法对原有系统进行改进，并将改进后的系统与原有系统进行实验对比，验证改进算法的有效性。

１．４本文的内容结构

本文的结构安排如下：

第一章绪论，主要介绍了语音识别的基本概念、语音识别和语音识别系统的分类、５

汉语连续语音识别系统的研究与实现(9).doc 将本文的Word文档下载到电脑

下载这篇word文档