汉语连续语音识别系统的研究与实现(16)
发布时间:2021-06-08
发布时间:2021-06-08
语音信号处理相关论文
第二章语音识别系统概述
第二,识别基元要具有稳定性,在不同的发音环境下也能体现语音的共性,从而保证对不同环境具有良好的适应能力。
识别基元的选择还应综合考虑系统的词汇量、计算复杂度、存储量、训练所需的数据量以及基元在连续语音中的稳定性等因素。一般来说,小词汇量系统的识别基元可以选的大一些,如词或短语等;大词汇量系统的识别基元则应该选的小一些,如音素或者声韵母等。
对于汉语连续语音识别,可以选择的基元包括:句子、词、音节(字)、声韵母、音素等【11,121。
词、句基元广泛应用于中小词汇量语音识别系统或者命令与控制系统,但不适合大词汇量语音识别系统。词、句的数量非常庞大,接近于无限个,选择词、句作为识别基元会使得系统的声学模型库过于庞大,训练任务繁重,同时还会增加系统搜索、匹配算法的复杂度,难以满足实时性要求。
汉语是单音节结构的语言,有412个无调音节和1282个有调音节,数量相对较少,由音节字组成词语和句子非常灵活。选择音节字作为识别基元符合人们的思维习惯,同时还有很多相关的语言学知识可以利用,因此目前的中、大词汇量汉语语音识别系统很多都以音节作为识别基元。
声韵母结构是汉语所特有的结构,所有的汉语音节都是由声母加韵母构成或仅有韵母构成。汉语有21个声母和38个韵母,基元数目少,而且声韵母之间声学特性相差大,区分能力强。
音素基元在英语语音识别中得到了广泛应用,取得了很好的识别性能。但音素并没有反映出汉语语音的特点,而且,相对于声韵母,音素更不稳定,给标注与训练带来了困难,进而影响声学建模。
本文选用扩展声母和带调韵母集合作为识别基元,扩展后的声韵母基元如表2.5所示[71。选择声韵母作为识别基元还具有以下优点:声韵母结构是汉语的独特音节结构,基元数目和语音段长度比较恰当,而且声韵母的上下文关系比较确定,声母可以接哪些韵母都是确定的;同时,选取声韵母作为识别基元还有许多相关的汉语语音学知识可以利用。12