基于改进VSM的句子相似度研究

时间:2025-04-20

第 1。第璺 9卷期.

计算机技术与发展( M PUTER X) TECHN0LOGY AND DEVEL P D ME NT

20 0 9年 8月

V0 . 9 No 8 11 . Au . 2 0 g 09

基于改进 V M的句子相似度研究 S苏小虎(安徽工业大学计算机学院,安徽马鞍山 2 30 ) 40 2摘要:空间模型是以特征项权重为核心的算法,征项权重对文本分类、向量特检索等的效果起着至关重要的作用。文中

提出了一个新的权重概念——领域权重,并利用它改进传统向量空间模型。改进后的模型综合考虑原有特征项权重和文

档中特征项自的领域权重。在特定领域 F Q的检索中作测试实验,果表明,身 A结改进的方法提高了检索的查准率、全查率和 F测试值。 关键词:向量空间模型;领域权重;率权重频中图分类号: P 1 T 32文献标识码: A文章编号:63 2X(09 0— 13 0 17—69 20 )8 0 1— 4

Re e r h o e e eS m ia iy Ba e n m p o e M s a c fS ntnc i lr t s d o I r v d VSSU a - u Xio h

(c x f o ue, h i i ri f ehooy Ma asa 4 0 2 C i ) S t ̄o mp tr An u Unv s yo cn l,’nhn2 30,hn xl C e t T g a

Ab ta tTh h r ceit emsweg ti h oeo M,tpa stev r mp ra tr l ntx lsict n,e trtiv la d S src: ec aa trsi tr ih st ec r fVS c i ly h ey i otn oei e tcasf ai tx ere a,n O i o

O . n w cnet a l r’o i i tsp t owad 8 st rv h ̄ tfr h o M . uteⅪr,o gnl n A e。 cp me t ms dmanwe h u r r .0a i o etewe h mu f n ye g i f o mp o VS F rhrn e r ia ic a atr t tr we h l o ie . i h etb sd o p c o i AQ, x ei n eut h w h tte i mv h rcei i ems i ti as

cmbn d W t te ts ae n s ei d man F sc g s o h l a epr me trs l s o ta h mp e s dme h d r ie h rc so,r c l a d t e F e tv l e t o as d t e p e ii n e a l n h t s au .

K yw r s VS; o i—we h:rq e c—we h e 0 d: M d ma n i tfe u n e g ̄t

O引言 处于信息化的、知识爆炸的现代社会中,人们无论是在学习还是在其它方面都会时不时地遇到一些困惑,时,此都希望能得到及时的解决。今天,由于互联网的普及和快捷,以人们的“所解惑”最常用的渠道就是借助网络,而且搜索引擎成为首选。然而,搜索引擎虽然决大多数时候能够帮助人们在浩如烟海的互联网

中重点研究向量空间模型中特征项权重的内涵,出提 了一种特征项权重的改进算法,结合特征项距离和并顺序信息,构成一种新的句子相似度算法。

l信息检索模型信息检索模型是信息检索任务及其实现方法的一种数学抽象 (或称数学模型)是信息检索研究的主要,内容之一。它一般从两个方面抽象地研究信息检索方法:一是确定在模型中如何表示构成检索系统的两个要素,即文档和检索条件 (也称检索表达式)二是确定;在模型中如何定义和计算文档和检索条件之间的关

中找到所需的相关信息,但是,搜索引擎的局限性也很明显,:以几个关键词的简单组合来表达检索需如仅求、相关性信息太多、检索效果差强人意、表达意思差“异”问题等等。除此以外,基于中文网页的搜索而对

言,由于中文语言的独特性以及技术上的缺陷,使得目 前的中文搜索引擎存在准确性差、查全率低、更新不够及时等弊端。为了获得更好的检索效果,就要求更高

系。需要说明的是,在信息检索模型的研究中一般不考虑如数据结构、数据存储等描述的具体实现细节,而侧重于数学模型的构造。

效的信息检索技术,也就促使了信息检索技术的研这究。目前,搜索引擎主要是基于文本的信息检索,文本信息检索的关键技术是基于文本的信息检索模型。文收稿日期:0 8 3 9修回日期:0 8一O 20—0—1; 20 6一l 7

构建信息检索模型一

般有两种研究路线:基于统计的模型和基于语义的模型。基于统计的模型主要应用统计手段从被检索文档或高标注文档中查询与用户需求匹配程度高的文档。其主要模型有:布尔模型( ol nMoe)向量空间模型 ( etr pc Mo e B oe d 1、 a V c ae dl oS ,

基金项目:安徽省自然科学基金项目( 2 0 1 4 ) KJ0 73 5 2

作者简介:苏小虎(94,, 17一)男安徽无为人,硕士。究方向为信息研检索、自然语言处理。

V M) S以及一些概率模型( rbblt d e等; Poa i iMo 1而基 ic s )于语义的模型则通过对用户的需求进行一定程度的语

14 1

计算机技术与发展

第 1卷 9

法和语义分析,试图获得对用户输入的自然语言文本的“理解”再重新生成查询。其主要的模型有:,自然语言理解 ( a r a gae rcs, L )潜在语义索 N t a L n ug oe N P、 ul P s引模型 ( a n e ni Idx g L I和神经网络模 L t t mat nei, S ) e S c n型( t c l erl ew rs A N; Arfi ua N t ok, N或称并行分布处 i aN i 理模型, a ll ir u d r e i,【 )。 P r l s i t o s n P)等 aeD tb e P c s g P另外,从各信息检索模型依据的数学基础,还可将其分为以下三类:

)表示,简记为 D= D(,,, )那么表 W1 …。示索引项对文档的重要程度,就可用权重评价函数是: W’= t *i‘ k () 1

表示。

其计算方法主要运用 t~公式, f目前效果比较好的

t f表示项在文档中的文档内频数, t值越 f高,意味着索引项瓦对于文档越重要; f( vr i kI e e a n s

D cmet rqec) ou n euny表示项的反比文档频数,值越 F i d高意味着索引项对于文档的区别作用越大; = i dl ( n)其中 N:f, g o N/ 。 I即全部文档的总数量;量 D, z表示包含索引项的文档数量 (即索引项的文档频率)值越高,,意味着索引项在衡量文档之间相似性方面的作用越低。如果一个索引 …… 此处隐藏:6790字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于改进VSM的句子相似度研究.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219