[硕士论文] 垂直搜索引擎的设计与实现(19)
发布时间:2021-06-07
发布时间:2021-06-07
[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第三章Web搜集器
第三章Web搜集器
Web搜集器的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算
机程序(也称为spider,crawler和robot等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定期访问已经搜集过的旧信息,以避免死链接和无效链接.
本文设计的Web搜集器能够根据某一类信息需求,从互联网上的各个信息阿
站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。
3.1Web搜集器算法
Web搜集器算法包括四个重要的队列:url_queue包括网络蜘蛛(Crawler)访
问过的与主题无关的URL;相应的Topic_urlqueue包含网络蜘蛛搜集到的与主题相关的URL,这些URL对应的页面需要扩展;一旦一个网页被访问过,该网页与它对应的URL一同存储在crawled_pages中;Links包含着URL对(uI,U2),U。是父网页的URL,u2是子网页的URL。其中url_queue和Topic_url_queue队列中的URL的权值的捧序通过函数reorder_queue0来实现。其算法如下:
输入:starting_url(种子URL)
执行过程:
[1]enqueue(url—queue,starting_url)
[2]while(notempty(topic_url—queue)and
[3]notempty(url_queue))url=dequeue2(topic_urlqueue,url_queue)
[4]page=crawl_page(url)
[5]
[6]
[7】enqueue(crawled_pages,(url,page))url—list=extract_urls(page)foreachuinurl—list
[8]
[9]
[10]
[11]
[12]
[13]enqueue(1inks,(url,u))if(u隹url_queueandu岳topic_url—queueandu圣crawled_pages)if(classifier(anchorandsurroundingandurltextofu)>C)enqueue(topic—url—queue,u)elseenqueue(url—queue,u)
上一篇:微生物学第四章 2015
下一篇:03.新中文DC油圧回路