多特征融合的中文问答系统答案抽取算法(3)
发布时间:2021-06-05
发布时间:2021-06-05
Q21)WSem_Sim(Q11,Q22)…WSem_Sim(Q11,Q2m)WSem_Sim(Q11,
F(Q1,Q2)=
WSem_Sim(Q12,Q21)WSem_Sim(Q12,Q22)…WSem_Sim(Q12,Q2m)…
WSem_Sim(Q1n,Q21)WSem_Sim(Q1n,Q22)…WSem_Sim(Q1n,Q2m)
则问句Q1和Q2的语义相似度为:
Sem_Sim1(Q1,Q2)=
n
4答案抽取算法
(Wi∑i=1
×max(WSem_Sim(W1i,W2j))
j=1.m
设用户问句Qt以及候选问句集合Q={Q1,
Q2,..Qm},返回相关答案的个数k:
(9)
Step1:对问句进行分词等预处理,并利用同义词词库进行关键词扩展,得到各个问句的关键词集;
Step2:遍历所有候选问句按以下方法计算相似度;
(10)
For
i=1
to
m
读入候选问句Qi;
按公式(1)-(3)计算Qt和Qi的词形
(11)
相似度、词序相似度和句长相似度
按公式(4)-(6)计算Qt和Qi词语的概念相似度
词语语义聚类
按公式(7)-(8)计算聚类后词语的权值按公式(9)-(11)计算Qt和Qi的语
义相似度
按公式(12)-(13)计算两个问句Qt
和Qi的相似度
Nexti
Step3:按候选问句的相似度排序,取前k个候选问句的答案。
n
同理问句Q2和Q1的语义相似度为:Sem_Sim2(Q1,Q2)=
m
(Wi∑i=1
×max(WSem_Sim(W1j,W2i))
j=1.n
m
最后求平均得到两个问句的语义相似度:Sem_Sim(Q1,Q2)=Sem_Sim1(Q1,Q2)+Sem_Sim2(Q1,Q2)
2
3基于多特征融合的问句相似度计算
由上分析可知:问句的相似度包括表层相似度和语义相似度。表层相似度从词形、长度和词序分别反映了问句的不同侧面信息,语义相似度反映问句与候选问句之间的深层语义特征的相关程度,因此,本文先采用线性融合方法,融合三种表层特征:
Sur_Sim(Q1,Q2)=λ1×WordSim(Q1,Q2)+Q2)+λ3×OrdSim(Q1,Q2)λ2×LenSim(Q1,
(12)其中:λ1、λ2和λ3分别表示词形、长度和词序三种特征的权值,经过在问题集中的测试,取λ1=0.6,λ2=0.2,λ3=0.2.
再将表层特征融合语义特征,问句的相似度为:
Sim(Q1,Q2)=a1×Sur_Sim(Q1,Q2)+a2×Sem_Sim(Q1,Q2)
(13)
a2为表层和语义特征的权值,其中:a1、经过
a2=0.6.在问题集中的测试,取a1=0.4,
表1
候选问句
Q1Q2Q3Q4
WordSim0.3670.40.40.4
LenSim0.909111
0.50.50.50.75OrdSim
5实验结果及分析
以人工分词的100个汉语语句作为测试集,以
:“淮阴工学院究竟在哪招生领域为例,设问句Qt,Q2,Q3,Q4},Q1:里?”候选问句集合Q={Q1,
“淮阴工学院的联系方式是什么?”,Q2:“淮阴工,Q3:“淮阴工学院地址是多学院就业情况如何?”
,Q4:“淮阴工学院在什么地方?”。按本文的少?”
答案抽取算法,测试结果如表1所示:
实验结果
Sur-Sim0.5020.540.540.59
Sem-Sim0.7010.6990.8370.903
Sim0.6210.6350.7180.778
上一篇:四年级音乐教案我的家乡日喀则