汉语连续语音识别系统的研究与实现(6)
发布时间:2021-06-08
发布时间:2021-06-08
语音信号处理相关论文
第一章绪论
语音中包含的个性信息来区别不同的人,或者判断是否是同一个人所发的声音。在说话人识别中,主要关注语音信号中能反映说话人特征的个性信息而忽略其语义。
关键词检出也称为关键词识别(KeywordRecognition),是从连续语音中检测出指定关键词的技术。关键词检出并不需要识别和理解整个语句,而只关注那些包含指定关键词的句子。关键词检出应用于一些特殊场合,一般对系统的检测准确率和实时性要求较高,如对特定地名和事件名进行电话监听、通过人名进行电话分机转接等。
语种识别是根据语音中包含的不同语种的声学特性,来判别出该语音所属语种的技术。各种语言都有其特征化的声音模式,人类只需要听一小段语音就可以判别出该语音属于哪个语种,即便是不熟悉的语种也可以根据发音的相似性做出判断。语种识别要求尽量消除语音中个体发音的差异,提取出各语种特有的声学特征,从而达到更好的识别效果。
连续语音识别则是要求识别和理解任意的连续语音,如一个句子、一段话等,并将语音转化为相应的文本或命令。连续语音识别对系统的识别率、实时性等要求很高,实现起来也很困难,是语音识别研究的难点与重点。
语音识别系统按照不同的角度可以分为不同的类别儿2,4】:
根据说话人说话方式的不同,可以将语音识别系统分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。对于孤立词识别系统,说话人说话时词组之间有明显的停顿,每个词组在字典中都是一个独立的词条,如声控玩具的控制系统可以识别用户的“行走”、“向左转’’、“向右转”、“停止"等命令;对于连接词识别系统,一般是指由单个数字连接成的数字串或由少数指令构成的连接指令的识别,如语音拨号系统等;对于连续语音识别系统,识别对象是人们日常生活、工作中的自然交流语音,说话人说话时词、句之间无特定停顿。连续语音识别系统在识别时还要综合考虑词法、语法、上下文关系等相关语言学信息。
根据对说话人的依赖程度可以分为特定人语音识别系统和非特定人语音识别系统。特定人语音识别系统是指说话人只有一个或者特定数目个,特定人语音识别较为简单,只要特定用户在训练阶段提供足够的训练语音,识别时就可以获得很高的准确度;非特定人语音识别系统不限定说话人的数目,因此实用性好、应用范围广,但实现起来比较困难,难以取得高识别率。
根据语料规模可以分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。小词汇量语音识别系统是指能够识别几十个词的语音识别系统,中等2