基于链接分析的相关排序方法的研究和改进

时间：2026-01-15

web搜索排序算法研究

：kellyuan191@http://

0引言

随着Internet的出现和迅速发展，传统的信息检索技术就显出了它的局限性。在信息检索中评价查询和文档的相关度的方法中最经典、最有影响的是GeraldSalton等在30多年前(vectorspacemodel，提出的“向量空间模型”VSM)。该模型的基本思想是：

把查询

看成由相互独立的词条组构成，

这样查询某个主题的相关度按如下公式计算(余弦表示法

)

ÖÐµÄµÚ

ÖÐµÄÈ¨ÖØ£¬

ÖÐµÚ

－1630－

web搜索排序算法研究

Rank算法基于以下两个前提：①如果一个页面被多次引用，那么这个页面很可能是重要的；如果一个页面尽管没有被多次的引用，但却被一个重要的页面引用，那么这个页面也可能是重要的；一个页面的重要性被均分并传递到它所引用的页面。②假定用户一开始随机的访问网页集合中的一个网页，以后跟随网页的向外链接向前浏览网页，不回退浏览，浏览下一个网页的概率就是被浏览网页的PageRank值。PageRank算法可定义为：

假设网页

´ú±í

¡°Ëæ»ú³åÀËÕß¡±ÑØ×ÅÁ´½Ó·ÃÎÊÍøÒ³µÄË¥¼õÒòËØ£¬È¡Öµ·¶Î§ÔÚ0~1之间，根据经验值我们一般取为0.85

，

代表网页

定义为网页u的链接权值。采用以

下公式计算这个权

值：

＋

１

２

＋

为1/max，即max为所有网页的总和，每个网页

初始分配的权值为总和的倒数。这种算法的特点是它不以站点排序，而是对单个页面进行排序，页面的网页级别由链向它的页面的网页级别决定，但每个链入页面的贡献的值是不同的。也就是说PageRank算法不是面向主题的，它单纯根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的“重要性值”。指向一个网页的外部链接页的页面等级越高，则该链接页面传递给该网页的页面等级值也就越高。因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语，也会因其居高的页面等级值而获得一个比较高的排名，从而影响了搜索结果的相关性与精准性。

1.2HITS技术

Clever描述两种类型的网页：①权威型网页(authority)，对

于一个特定的检索，该网页提供最好的相关信息；②目录型网页(hub)，该网页提供很多指向其它高质量权威型网页的超链接。一般而言，好的hub页面指向许多好的权威页面，好的权威页面是指由许多好的hub页面所指向的页面。这就是hub/authority方法的基本思想。将查询q提交给普通的基于相似度的搜索引擎，搜索引擎返回给多个页面，取前n个作为根集合(rootset)，用S表示。通过向S中加入被S引用和引用S的页面将S扩展成一个更大的集合T。以T中的hub页面为顶点集合V1，以T中的authority页面为顶点集合V2，V1中的页面到V2中的页面链接为边集E，这样就形成了一个二分图SG=(V1,V2,E)。对V1中的任何一个顶点v，用h(v)表示页面v的hub值，对V2中的任何一个顶点u，用a(u)表示页面u的authority值。首先对h(v)和a(u)进行初始化，均置为1

。则有

+11

2,,2

¡ª¡ª¸ø¶¨µÄÒ»¸öÍøÒ³£¬¼ÙÉèÖ¸ÏòËüµÄÍøÒ³ÓÐ

中所含的链接数；

为Web的页面总数；

定义

为所有页面的出度总

数；定义

的出度数；则得到向量

代入我们改进的面向主题的SPageRank公式

得到页面