基于链接分析的相关排序方法的研究和改进

时间:2026-01-15

web搜索排序算法研究

:kellyuan191@http://

0引言

随着Internet的出现和迅速发展,传统的信息检索技术就显出了它的局限性。在信息检索中评价查询和文档的相关度的方法中最经典、最有影响的是GeraldSalton等在30多年前(vectorspacemodel,提出的“向量空间模型”VSM)。该模型的基本思想是:

把查询

看成由相互独立的词条组构成,

这样查询某个主题的相关度按如下公式计算(余弦表示法

)

,

=

ÖеĵÚ

ÖеÄÈ¨ÖØ£¬

ÖеÚ

-1630-

web搜索排序算法研究

Rank算法基于以下两个前提:①如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次的引用,但却被一个重要的页面引用,那么这个页面也可能是重要的;一个页面的重要性被均分并传递到它所引用的页面。②假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。PageRank算法可定义为:

假设网页

1

,

´ú±í

¡°Ëæ»ú³åÀËÕß¡±ÑØ×ÅÁ´½Ó·ÃÎÊÍøÒ³µÄË¥¼õÒòËØ£¬È¡Öµ·¶Î§ÔÚ0~1之间,根据经验值我们一般取为0.85

代表网页

定义为网页u的链接权值。采用以

下公式计算这个权

值:

为1/max,即max为所有网页的总和,每个网页

初始分配的权值为总和的倒数。这种算法的特点是它不以站点排序,而是对单个页面进行排序,页面的网页级别由链向它的页面的网页级别决定,但每个链入页面的贡献的值是不同的。也就是说PageRank算法不是面向主题的,它单纯根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的“重要性值”。指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的页面等级值而获得一个比较高的排名,从而影响了搜索结果的相关性与精准性。

1.2HITS技术

Clever描述两种类型的网页:①权威型网页(authority),对

于一个特定的检索,该网页提供最好的相关信息;②目录型网页(hub),该网页提供很多指向其它高质量权威型网页的超链接。一般而言,好的hub页面指向许多好的权威页面,好的权威页面是指由许多好的hub页面所指向的页面。这就是hub/authority方法的基本思想。将查询q提交给普通的基于相似度的搜索引擎,搜索引擎返回给多个页面,取前n个作为根集合(rootset),用S表示。通过向S中加入被S引用和引用S的页面将S扩展成一个更大的集合T。以T中的hub页面为顶点集合V1,以T中的authority页面为顶点集合V2,V1中的页面到V2中的页面链接为边集E,这样就形成了一个二分图SG=(V1,V2,E)。对V1中的任何一个顶点v,用h(v)表示页面v的hub值,对V2中的任何一个顶点u,用a(u)表示页面u的authority值。首先对h(v)和a(u)进行初始化,均置为1

。则有

=

=

1

12

+

+11

1

,

+

2,,2

2

+

,

,

¡ª¡ª¸ø¶¨µÄÒ»¸öÍøÒ³£¬¼ÙÉèÖ¸ÏòËüµÄÍøÒ³ÓÐ

2,

1,

1,

,

中所含的链接数;

为Web的页面总数;

定义

为所有页面的出度总

数;定义

的出度数;则得到向量

代入我们改进的面向主题的SPageRank公式

得到页面

1

1

1

,

+

2

2

2

,+

,

,

,

µÄÈë¶È×ÜÊý£¬±íʾËùÓÐÒ³ÃæµÄÈë¶È×ÜÊý¡£Õâ¾Í

ÊÇ×îÖոĽøµÄ»ùÓÚÁ´½ÓµÄËã·¨¹«Ê½£¬Ëü¿ÉÒÔÕâÑùÀ´½âÊÍ£º¼ÙÉèWeb上有一个主题浏览者,FPageRank

是它访问页面

顺着链接的点击访问,如果他厌倦访问此页

面,

则以

-1631-

web搜索排序算法研究

[7]程显毅,于冬梅.基于BDIAgent的Web搜索引擎的研究[J].江苏大学学报(自然科学版),2004,25(6):545-548.

[8]

WittenIH,PaynterGW,FrankE,etal.KEA:Practicalauto-matickeyphraseextraction[C].ProceedingsoftheFourthACMConferenceonDigitalLibraries,1999.254-255.

[9]曹树金,杨涛.自动分类在搜索引擎性能优化中的应用[J].情报

(上接第1631页)

3

算法实验分析

3.1

衡量标准

为了综合考察和衡量算法的效率,我们用召回率和准确

率作为主要的评价标准。所谓召回率是指一次搜索结果中集中符合用 …… 此处隐藏:1844字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于链接分析的相关排序方法的研究和改进.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:4.9 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:19元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219