网络爬虫的设计与实现(15)
时间:2025-07-13
时间:2025-07-13
第三章 网络爬虫模型的分析和概要设计
3.1 网络爬虫的模型分析
首先建立URL任务列表,即开始要爬取的URL。由URL任务列表开始,根据预先设定的深度爬取网页,同时判断URL是否重复,按照一定算法和排序方式搜索页面,然后对页面按照一定算法进行分析,并提取相关URL,最后将所得URL返回任务列表。之后将任务列表中URL重新开始爬取,从而使网络爬虫进行循环运行。
3.2 网络爬虫的搜索策略
本文的搜索策略为广度优先搜索策略。如下图3-1所示。
图3-1 广度优先搜索策略示意图
1)定义一个状态结点
采用广度优先搜索算法解答问题时,需要构造一个表明状态特征和不同状态之间关系的数据结构,这种数据结构称为结点。不同的问题需要用不同的数据结构描述。
2)确定结点的扩展规则
根据问题所给定的条件,从一个结点出发,可以生成一个或多个新的结点,这个
上一篇:100部美国励志电影
下一篇:日本旅游签证申请须知