Google搜索引擎技术实现探究

时间:2025-04-20

搜索引擎技术实现探究

《现代图书情报技术》 2004年 年刊

信息检索技术

  总第115期

Google搜索引擎技术实现探究

化柏林

(中国科学技术信息研究所 北京)

  【摘要】 从技术的角度剖析了Googlet标引入库和检索引擎三大模块,统计了Google的技术数据,并分析了。  【关键词】 GoogleAnatomyofonTechnicalImplementation

HuaBolin

teoftificandTechnicalInformationofChina,Beijing100038,China)

【ThispaperanatomizesarchitectureandprocedureofGoogleviewedonTechnicalImplementation.

It

introducesthreefunctionalmodules,whichisWebcrawler,indexandcreatedatabase,searchengine.Thendoastatisticof.technicaldataaboutGoogle,andanalyzestechnicalfeature,explainesavarietyofphenomenawhenusingGoogletoretrieval

【Keywords】 Google Searchengines Technicalimplementation

1 Google技术总况与体系结构

  Google拥有10亿个网址,30亿个网页,3.9亿张图像,

Google支持66种语言接口,16种文件格式,面对如此海量的

数据和如此异构的信息,Google是如何实现半秒内搜索的呢?Google拥有1600台服务器,大部分代码用C或C++实现,有很好的执行效率,运行在Solaris或Linux上。Google用了64个桶(Barrels),有29343G的顺排档M词典(Lexicon)、文件、41G的倒排档文件,构造了一个5.

18亿个超链接的网络关联图。

  Google搜索引擎有两个特征来提高查准率:利用网页间的链接关系来计算每一个网页的等级;利用链接关系来改善检索结果。除此之外,Google还对所有的点击都有定位信息,广泛利用搜索的亲近度。Google记录详细的可视化表达诸如词的字体大小,大或粗体的词的权重就高。整个页面的

HTML源文件在知识库中是可用的。

图1 Google体系结构图

2 基于Robot的搜索过程

  Robot使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于Robot的Web页搜索模块主要由U

RL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。具体过程是,有个URL服务器发送要去抓取的URL,爬行器根据URL抓取Web页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个Web页的所有链接并把相关的重要信息存储在Anchors文件中。URL解析器读Anchors文件并解析

URL,然后依次转成docID。再把Anchor文本变成顺排索引,

  Google搜索引擎从功能上同样分为三大部分:网页爬行、标引入库和用户查询。网页爬行主要负责网页的抓取,由爬行器、存储器、分析器和URL解析器组成,URL服务器、

爬行器是该部分的核心;标引入库主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。其总体系统结构如图1所示。

  收稿日期:2004-03-04

送入索引库。具体过程如图2所示。

2.1 URL服务器(URLServer)

40

搜索引擎技术实现探究

《现代图书情报技术》 2004年 年刊

信息检索技术

  总第115期

  分析器可以看成是标引器的一部分,也可以说是标引器的一个辅助功能部分。它分析每个Web页的所有链接并把相关的重要信息存储在Anchors文件中,构成一个锚库。每当从

Web页分析出一个新的URL时,为每个Web页分配一个称

为docID的关联ID。这个文件包含足够的信息来决定每个链接的何去何从。锚经常提供比Web页本身更精确的页描述。锚可以存在文档,引,如图片、程序、数据库。W2.5(UR)

文件并把相对URL转成绝对

U,docID。把Anchor文本变成顺排索引,存

,并用Anchor所指向的docID进行关联。把

URL转换成docID的文件,是由URL校验和及相应的docID

t页搜索过程图

两列组成的一个列表,并以校验和排序。为了找到一个特定

URL的docID,首先计算URL的校验和,在校验和文件中进

  URLWeb页搜索模块的开始,主要用来管理和维护URL列表。首先由它发送一个新的URL给爬行器,让爬行器去搜索。如果爬行器遇到了不可下载的网页,就会给URL一个返回信息,然后取下一个URL。URL服务器会从文档索引库里不断地取新的URL以供爬行器使用。

2.2 爬行器(Crawler)

行二元查找,以找到相应的docID。执行一次批处理,通过合并文件把URL转成docID。使用这种批处理模式很关键,要不然就得为每一个链接都作一次查找,假设一个磁盘上有

322,000,000个链接记录,那么这样一个过程需要2个多月的

时间。它还产生成对docID的链接数据库,以用于计算所有文档的PageRanks。

  爬行器是整个搜索模块中最关键的一部分,它由好几个分布的爬行器组成,并协同工作。爬行器遇到HTML页的头有如下标记就不再抓取此页,<head><metaname=“robots”>< content=“noindex,nofollow”head>,返回一个空值,继续向其他方向爬行,这就有效防止爬行器标引此页及本页的相关链接页。如果网页已经标引过,就从将要爬行的网页队列中移除。Web页文本的繁殖思想是由3W蠕虫来实现的,当它搜索非文本信息时,尽可能少的下载文档,以扩展搜索度 …… 此处隐藏:5899字,全部文档内容请下载后查看。喜欢就下载吧 ……

Google搜索引擎技术实现探究.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219