汉语连续语音识别系统的研究与实现(9)
发布时间:2021-06-08
发布时间:2021-06-08
语音信号处理相关论文
西北大学硕士学位论文
与机器通过自然语言交流的目标,离人们最初设想的还相差很远,大词汇量、非特定人连续语音识别仍然是一个难度很大的课题。
在声学层面上,各个单词之间的发音会相互影响,同一个单词在不同的语音序列中,发音会产生变化,致使语音信号的声学特征也随之改变;在连续语音中,单词与单词之间没有明显的间隔,很难选取适当的声学特征对其进行分割;即便是同一个人,在生理状况、心理状况、精神状况等主观因素的影响下,语音信号也会产生差异,无法保持一致;同时,语音录入设备的类型、录音时的位置以及环境噪声等都会对语音信号产生干扰,影响语音特征的准确提取。
在语言学层面上,一个词、句所要表达的真正含义与其上下文内容、说话时的环境条件以及说话人的身份背景等密切相关。在人们的日常交流当中,使用的语言并不严格遵守词法、语法等规则,语言结构的随意性随处可见,自然语言中的不规范现象如次序颠倒、反语、局部重复、语言插入等也给语音识别处理带来很大困难。
对于汉语连续语音识别来说,除具有上述特点外还有其独特的方面:汉语以单音节为单位,一个汉字对应一个音节。在汉语连续语音中,部分音节发音时间很短,很容易被漏检;汉语有大量的同音字,以国标一、二级汉字为例,有调音节有1200多个,汉字则有6700多个,其中音节“yl"对应的同音汉字就有60个。大量同音字的存在使得系统的处理变得复杂,也很容易混淆;中国是一个多民族国家,不同地区之间发音差异很大,不同地方的人在讲普通话时或多或少都带有方言特性,也给识别带来很多困难。
本文的主要研究内容是汉语连续语音识别的基本原理和关键技术。在分析、研究当前汉语连续语音识别技术的基础上,选择声韵母作为识别基元、Mel频标倒谱系数为特征参数、用动态时间规整技术实现了一个中等词汇量、非特定人的汉语连续语音识别系统。随后进行了实验分析,针对系统存在的问题进行改进:针对传统声韵母分割算法在汉语连续语音中分割正确率不高的问题,在考虑汉语连续语音特点的基础上,利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法;采用传统动态时间规整技术的识别系统计算量较大,响应时间过长。针对这一问题,提出了两种带阈值的动态时间规整改进算法。利用本文设计和改进的算法对原有系统进行改进,并将改进后的系统与原有系统进行实验对比,验证改进算法的有效性。
1.4本文的内容结构
本文的结构安排如下:
第一章绪论,主要介绍了语音识别的基本概念、语音识别和语音识别系统的分类、5