多特征融合的中文问答系统答案抽取算法(2)

发布时间:2021-06-05

Q2的词的相邻顺序逆向的个数来衡量。问句Q1、

[5]

序相似度为:

OrdSim(Q1,Q2)=1-

Rev(Q1,Q2)

(3)

MaxRev(Q1,Q2)

2.2词语语义聚类

由于一些词语可能具有相同或相似的意思,本

文选取一个作为特征词语来代替它们,这样可以减提高计算效率。设问句的词语小语义空间的维度,

W2,…,Wn),词语语义聚类算法集合为W=(W1,如下:

For

i=1

tonj=i+1

to

n

计算Wi和Wj语义相似度Max_ijIfMax_i<Max_ijthen

Max_i=Max_ijk=j

Endif

NextIf

j

then

‘f为阀值

Max_i>f

Q2)表示Q1中关键词在Q2中其中,Rev(Q1,

的位置构成的自然数序列的逆序数;MaxRev(Q1,Q2)表示Q1与Q2相同关键词的个数的自然数序列的最大逆序数。

For

2问句的语义相似度

问句的语义相似度计算需要语义知识资源做基础,本文采用HowNet作为语义知识资源,先计算词语的语义相似度,然后计算用户问句与候选问句的语义相似度。2.1

词语相似度计算

定义1义原之间的语义距离

在HowNet中,一个词对应n个概念,每个概念

x2,对应m个义原,假设两个义原x1、义原之间的语义距离为:

Dis(x1,x2)=

w

d+w

(4)

Next

i

合并Wi和Wk作为一代表特征n=n-lEnd

if

d是x1和x2在义原层次体系中的路径长其中,

w是一个可调节的参数。度,定义2

概念之间的语义相似度在HowNet中,把概念的语义分为:第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式

[6]

经过词语的语义聚类后,所有的代表词语就构

成了问句的最终语义空间。2.3

基于熵特征的权值计算

词语的特征权值是依据它们的重要性而定,本文采用基于熵的方法来对特征词语赋权值。设fijni表示第i个特征词语在第j个类别中出现的次数,

表示第i个特征词语在所有类别中一共出现的次N表示类别的个数,数,那么第i个特征词语的嫡定义为:

N

。假设两个概念s1、s2,概

4

i

念之间的语义相似度为:

Con_Sim(s1,s2)=

x2)βi∏Disj(x1,∑i=1j=1

(5)

其中,βi表示第i类义原描述式在概念相似度

计算中的权重,反映了四类义原在语义相似度计算中的重要程度,一般要求β1≥β2≥β3≥β4,根据刘群等人的经验,参数设为β1=0.5,β2=0.2,β3=0.17,β4=0.13定义3

[7]

Hi=-

∑j=1

fijfij

×lognini

(7)

当第i个特征词语对区分类别没有作用时,它

的熵最大为log(N);当第i个特征词语对区分类别有重要作用时,它的熵最小为0.因此,第i个特征词语权值定义为:

Wi=1-2.4

HilogN

(8)

词语之间的语义相似度对于两个词语W1和W2,如果W1有n概念:S11,S12,…,S1n,W2有m个概念:S21,S22,…,S2m,则W1和W2的相似度为各个概念之间的相似度的最大值:

WSem_Sim(W1,W2)=s2j)

i=1.n,j=1.m

问句的语义相似度计算

Q1有n个词语:Q11,Q12,设两个问句Q1和Q2,

maxCon_Sim(s1i,

(6)

……,Q1n,Q2有m个词语:Q21,Q22,……,Q2m,则有

如下矩阵:

多特征融合的中文问答系统答案抽取算法(2).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219