会话语音中说话人识别的研究
时间:2025-05-15
时间:2025-05-15
有关声纹识别的基本技术及其应用
重庆大学
硕士学位论文
会话语音中说话人识别的研究
姓名:刘大鹏
申请学位级别:硕士
专业:计算机软件与理论
指导教师:朱庆生
20070420
有关声纹识别的基本技术及其应用
重庆大学硕士学位论文中文摘要
摘要
说话人识别,也叫声纹识别,是利用话音对说话人进行区分,从而进行身份
鉴别与认证的技术。说话人识别能够广泛的应用到各种身份认证、安全保密、电话购物等系统中。会话语音,是包含有多个说话人声音的语音,例如:会议录音、电话对话语音、广播电视新闻语音等,会话语音中的说话人识别就是判断是谁在哪个时刻说了话。会话语音中的说话人识别是语音识别一个难点,要用到分段、聚类等技术,对于信息检索、说话人标注、说话人跟踪有重要的意义。
本文首先概述了说话人识别技术的发展历史及现状、研究的意义和应用领域,
然后详细研究了特征提取,包括端点检测、光谱分析、音素分析,分析了模式识别的几种方法:高斯混合模型(GMM)、隐马尔可夫模型(aMM)、矢量量化(vQ)、人工神经网络(ANN),最后介绍了自适应模型,并采用美倒谱系数(MFCC)+GMM+最大后验概率(MAP)技术实现了一个完整的说话人识别系统。本论文的工作主要包括:
①建立了音素持续时间模型,验证了音素持续时间信息对于说话人识别的有
效性。并针对训练语音数据量小的情况,提出了2种改进模型。
②基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段
法。相对与固定长度分段和纯音节步长,该方法保证了音节的完整性,恰当的切分了测试段的数据,提高了说话人识别率。
③利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中
聚类的方法,比较了多种聚类,有效的降低了计算时间,并为某些低配置环境提供了以牺牲少量识别率来换取系统正常运行的有效方法。
④采用了MAP在线自适应模型方法,提高了模型的健壮性,并改进了概率自
适应测量标准,给用户以更为精确的百分比识别率代替0,1确定的识别结果,进一步提高了识别率。关键词:说话人识别,会话语音,端点检测,说话人聚类
有关声纹识别的基本技术及其应用
重庆大学硕士学位论文英文摘要
ABSTRACT
SpeakerRecognition(SR),also
identifycalledVoiceprintRecognition,isakindoftechnologywhichisusedto
canthespea.kcrbyhis(her)voice.TheSRtechnologybewidelyusedinspcakoridentificationcard,security,telephoneshoppingere.
oneConversationalspeechisthespeechthatcontainsmorethanperson,suchasthe
conferencerecord,thetelephonedialogandthebroadcastnews.Speakerrecognitioninconversationalspeechistodecidewhoistalkingwhen.Risadifficultyinspeechrecognition,inwhichsegmentationandclusteringtechniquewere
ininformationindexing,spfiakcrtracking,contentextractionetc.
Inthisused.It啪beuseddissertation,Firstlythedevelopmentandapplicationofthespeakcr
recognitionwasintroduced.Andthenthefeatureextractionwagdiscnssed,whichincludesendpointdetection,spectralanalysisand
patternmatchtechniquewhichcontainsphon锄edurationanalysis;ThentheGaussianMixtureModel(GM岣,HiddenMark
NeuralNetworkModel(HM~耽VectorQuantization(vQ)andArtificial
discussed;FinallytheCANN)wasMAPadapfionWaSused.Themainworkisasfollows:
to①Thephonemedurationmodelwasbuildtestifytheusofulnesso …… 此处隐藏:12138字,全部文档内容请下载后查看。喜欢就下载吧 ……