多特征融合的中文问答系统答案抽取算法

发布时间:2021-06-05

第28卷第5期2011年10月贵州大学学报(自然科学版)

JournalofGuizhouUniversity(NaturalSciences)Vol.28No.5

Oct.2011

文章编号1000-5269(2011)05-0080-04

多特征融合的中文问答系统答案抽取算法

唐朝霞

*

(淮阴工学院计算机工程学院,江苏淮安223003)

要:随着互联网的迅速发展和Web2.0概念的提出,问答系统以直接返回给用户精确的答案

而逐渐成为一种新的信息检索技术。由于问句都是自然语言的形式,涉及到对问句的语义理解

及相似度的判断。本文提出了一种基于问句的表层和语义相似度计算方法,通过聚类去除冗余信息,再通过熵的特征计算权值,最后融合多种特征计算问句相似度,进行答案抽取。实验证明,这种方法能够有效地提高答案抽取的精度和效率。关键词:问答系统;问句相似度;聚类;答案抽取中图分类号:TP311

文献标识码:A

问答系统是指不需要用户把问题分解成关键词,而直接以自然语言的形式提问,经过系统处理,再从知识库或者互联网上快速搜索出和用户问题对应的答案,然后把答案直接返回给用户,而不是相关的网页。因此问答系统大大降低了用户的使用难度,它比传统的搜索引擎更加方便和高效,是未来搜索引擎发展的一大方向。

国外对于问答系统的研究相对较早,已经开发

如麻省理工的出一些相对成熟的问答系统,

START系统是第一个基于Web的问答系统、密歇DavidWarthen和根州立大学的AnswerBus系统、

GarrettGruener创建的AskJeeves系统等[1]。国内也有许多科研院所投入到问答系统的研

究中,如哈尔滨工业大学秦兵等人开发了基于常问问题集的中文问答系统、清华大学黄寅飞等开发的

北京理工大学樊孝忠等开校园导航系统EasyNav、

[2]

发的银行领域汉语自动问答系统BAQS等。

随着国内外学者的深入研究,目前的问句相似

以抽取答案。相似度,

1

1.1

问句的表层相似度

词形相似度

词形相似度通过计算两个问句的词形即相同

Q2,词的个数来比较相似度。设两个问句Q1、则Q1和Q2的词形相似度为[3]:

WordSim(Q1,Q2)=2×

Same(Q1,Q2)

Len(Q1)+Len(Q2)

(1)

Q2)为Q1、Q2中所含相同词其中:Same(Q1,

Q2中出现多次则算一次;若一个词在Q1、的个数,

Len(Q1)为Q1中词的个数;Len(Q2)为Q2中词的

个数。1.2

长度相似度

问句长度相似度在一定程度上反映了问句形态上的相似性,两问句长度相差越小,相似的可能Q2的长度相似度为[4]:性越大。问句Q1、

|Len(Q1)-Len(Q2)|

LenSim(Q1,Q2)=1-

Len(Q1)+Len(Q2)

(2)

1.3

词序相似度

词序相似度从词的顺序来标注问句的相似性,反映两个问句中所含相同词或同义词在位置关系上的相似程度,以两个问句中所含相同词或同义词

度计算有基于词形词序匹配的方法、基于语义计算

的方法、基于编辑距离的方法等,但答案抽取的准确率不高。本文提出了一种基于多特征融合的方

充分利用问句之间存在的相似信息,在表层和法,

语义两大层次上同时考察问句与候选问句的相似度,对这些特征进行融合,更加准确地衡量问句的

*

收稿日期:2011-07-05

基金项目:江苏省高校自然科学基金(06KJD520024)

Email:zx-tang@163.com.作者简介:唐朝霞(1978-),女,江苏洪泽人,讲师,硕士,研究方向:算法与程序设计,*通讯作者:唐朝霞,Email:zx-tang@163.com.

多特征融合的中文问答系统答案抽取算法.doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219