多特征融合的中文问答系统答案抽取算法(2)

时间：2026-04-28

Q2的词的相邻顺序逆向的个数来衡量。问句Q1、

［5］

序相似度为：

OrdSim（Q1，Q2）=1－

Rev（Q1，Q2）

（3）

MaxRev（Q1，Q2）

2．2词语语义聚类

由于一些词语可能具有相同或相似的意思，本

文选取一个作为特征词语来代替它们，这样可以减提高计算效率。设问句的词语小语义空间的维度，

W2，…，Wn），词语语义聚类算法集合为W=（W1，如下：

For

i=1

tonj=i+1

计算Wi和Wj语义相似度Max_ijIfMax_i＜Max_ijthen

Max_i=Max_ijk=j

Endif

．

NextIf

then

‘f为阀值

Max_i＞f

Q2）表示Q1中关键词在Q2中其中，Rev（Q1，

的位置构成的自然数序列的逆序数；MaxRev（Q1，Q2）表示Q1与Q2相同关键词的个数的自然数序列的最大逆序数。

For

2问句的语义相似度

问句的语义相似度计算需要语义知识资源做基础，本文采用HowNet作为语义知识资源，先计算词语的语义相似度，然后计算用户问句与候选问句的语义相似度。2．1

词语相似度计算

定义1义原之间的语义距离

在HowNet中，一个词对应n个概念，每个概念

x2，对应m个义原，假设两个义原x1、义原之间的语义距离为：

Dis（x1，x2）=

d+w

（4）

合并Wi和Wk作为一代表特征n=n－lEnd

d是x1和x2在义原层次体系中的路径长其中，

w是一个可调节的参数。度，定义2

概念之间的语义相似度在HowNet中，把概念的语义分为：第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式

［6］

经过词语的语义聚类后，所有的代表词语就构

成了问句的最终语义空间。2．3

基于熵特征的权值计算

词语的特征权值是依据它们的重要性而定，本文采用基于熵的方法来对特征词语赋权值。设fijni表示第i个特征词语在第j个类别中出现的次数，

表示第i个特征词语在所有类别中一共出现的次N表示类别的个数，数，那么第i个特征词语的嫡定义为：

。假设两个概念s1、s2，概

念之间的语义相似度为：

Con_Sim（s1，s2）=

x2）βi∏Disj（x1，∑i=1j=1

（5）

其中，βi表示第i类义原描述式在概念相似度

计算中的权重，反映了四类义原在语义相似度计算中的重要程度，一般要求β1≥β2≥β3≥β4，根据刘群等人的经验，参数设为β1=0．5，β2=0．2，β3=0．17，β4=0．13定义3

［7］

Hi=－

∑j=1

fijfij

×lognini

（7）

当第i个特征词语对区分类别没有作用时，它

的熵最大为log（N）；当第i个特征词语对区分类别有重要作用时，它的熵最小为0．因此，第i个特征词语权值定义为：

Wi=1－2．4

HilogN

（8）

．

词语之间的语义相似度对于两个词语W1和W2，如果W1有n概念：S11，S12，…，S1n，W2有m个概念：S21，S22，…，S2m，则W1和W2的相似度为各个概念之间的相似度的最大值：

WSem_Sim（W1，W2）=s2j）

i=1．n，j=1．m

问句的语义相似度计算

Q1有n个词语：Q11，Q12，设两个问句Q1和Q2，

maxCon_Sim（s1i，

（6）

……，Q1n，Q2有m个词语：Q21，Q22，……，Q2m，则有

如下矩阵：

多特征融合的中文问答系统答案抽取算法(2).doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：四年级音乐教案我的家乡日喀则

下一篇：【儿童教育】【文献综述】大班幼儿早期阅读兴

精彩图片

大家正在看

依法纳税是公民基本的义务入党的综合性政审材料(模板) 中国明清佛像鉴定 Autocad2008全中文64位系统安装方法浅谈在音乐课教学中培养学生的创 2012年属虎人运程高中物理必修二一课一练(第2章：【原卷版】2015年普通高等学校招

多特征融合的中文问答系统答案抽取算法(2)

精彩图片

猜你喜欢

热门精选

经典双语美文：加油为了心中的梦想

美文赏析：花开向暖，素锦留香

经典美文：花开向暖，素锦留香

经典美文：青春如歌，携一份懂得同行

在雨中静听自己的心跳美文

浅谈当今大学教育的含金量双语美文

大家正在看