汉语连续语音识别系统的研究与实现(5)

时间：2026-04-23

语音信号处理相关论文

西北大学硕士学位论文

第一章绪论

在日常生活中，语言是人们进行思想、观点和情感交流的主要方式。语言交流简捷方便且易于理解，在人际交往中扮演着非常重要的角色。近几十年来，随着计算机技术的飞速发展，计算机已成为人们生活、学习和工作中不可缺少的工具之一。当前的计算机通常以屏幕、键盘和鼠标作为主要的交互工具，操作较为简便但仍不够理想。为了使人与计算机的交互方式更加友好、自然，科学家们致力于寻找更加易学易用、简捷方便的交互方式。语音对话是人们最自然的交流方式，因此语音识别技术从发展初期就被人们寄予厚望。

１．１语音识别概述

语音识别（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＳＲ）就是利用计算机对人们的语音信号进行处理，识别出所说的是什么【１，２１。通俗地讲，就是让计算机具备人类的听觉功能，使人可以通过语音对话来与计算机进行交流。计算机通过识别和理解，可以把语音信号转变为相应的文本或命令。语音识别是一门涉及很广的交叉学科，它以人类的语音为研究对象，是语音信号处理的一个重要研究方向；语音识别本质上是一种模式识别，是模式识别的一个分支，同时还涉及到生理学、心理学、语言语音学、物理学、计算机科学、概率论和信息论等诸多领域。

近二、三十年来，语音识别技术研究取得了显著进步，各种语音识别产品开始从实验室逐步走向市场，如语音拨号系统、语音录入软件、声控玩具等。语音识别的应用领域非常广阔，有声控电话、信息网络查询、家庭服务、宾馆服务、医疗服务、计算机控制、工业控制、语音通信、翻译系统等，基本上覆盖了人类社会的各个行业、各个方面。汉语是世界上使用人口最多的语言，全球有十几亿的汉语使用者，因此汉语语音识别的市场需求和应用前景都非常可观。

按照识别任务的不同，语音识别可以分为说话人识别（ＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ）、关键词检出（ＫｅｙｗｏｒｄＳｐｏｔｔｉｎｇ）、语种识别（ＬａｎｇｕａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎ）和连续语音识别（ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）四种ｔ２，３】。

说话人识别也称为声纹识别（ＶｏｉｃｅｐｒｉｎｔＲｅｃｏｇｎｉｔｉｏｎ），是通过语音来对说话人进行区分，根据语音中能够反映说话人生理和行为特征的参数来确定说话人的身份【３１。人类的语音是由发声器官的振动产生的，发声器官包括舌、唇、喉、鼻腔、声带、气管和肺等，不同人的发声器官在尺寸和形态方面差异很大，所发出的声音也不同，因此能利用

汉语连续语音识别系统的研究与实现(5).doc 将本文的Word文档下载到电脑

下载这篇word文档