基于垂直搜索技术的搜索引擎
时间:2025-04-29
时间:2025-04-29
关于搜索的论文
计算机光盘软件与应用
2011年第5期
ComputerCDSoftware
andApplications
工程技术
基于垂直搜索技术的搜索引擎
王梁,王秀婷
(哈尔滨工业大学(威海)计算机科学与技术学院,山东威海264209)
摘要:随着网络迅速发展,Intemet上的资源日趋丰富,搜索引擎被网民广泛使用,搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,本文介绍了基于垂直搜索技术的搜索引擎,并探讨了垂直搜索引擎的优势。
关键词:垂直搜索;因特网;信息检索;搜索引擎中图分类号:TP391.3文献标识码:A文章编号:1007—9599(2011)05—0065—01
SearchEngineBased
(Harbin
Instituteof
on
VerticalSearchTechnology
Technology,Weihai
WangLiang,WangXiuting
Technology(Weihai)lnstituteofComputerScienceand264209,China)
Abstract:With
on
therapiddevelopmentof
Internet,Interact
resources
growingmoreandmore,widelyusedsearchenginesfor
a
Interactusers,searchenginedevelopmentfortheemergenceofverticalsearchengineprovides
verticalsearchtechnology,searchenginediscussestheKeywords:Vertical
goodmarketspace,thispaperbased
advantagesofverticalsearchengines.
search;Interact;Informationretrieval;Searchengine
一、垂直搜索引擎的关键技术
垂直搜索引擎服务具有其自身的特性,其技术要求特点上与一般互联网搜索引擎(水平搜索)有很多不同之处,下面通过比较,列举出垂直搜索引擎的四大关键技术。
(一)垂直搜索对网页信息进行结构化信息加工。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。垂直搜索对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动排重,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术,虽然尚不够成熟,但有很大的发展潜力和空间,并且目前在一些海量信息:处理的场合已经能够起到很好的应用效果。
(二)垂直搜索引擎支持全文深度搜索。垂直搜索带有专业性或行业性的需求和目标,其要求采集的网页全面.必须达到更深的层级,采集动态网页的优先级也相对较高。垂直搜索引擎还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。垂直搜索在信息的专业性和使用价值方面有更高的要求,能够支持全文检索和精确检索,并按需提供多种结果排序方式。在实际应用中。垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。
(三)正则表达式的应用。在内容提取中采用正则表达可以明显提高效能,正则表达式已在许多搜索程序中广泛应用。正则表达式是一种编程语言中使用的特殊代码模式,可用其验证、查找、替换与划分文本内容。聚焦爬虫往往通过对主题网页的学习提取主题特征的正则表达式,以指导爬虫过滤与主题不相符的网页文本正则表达式基本技巧如下:
(1)匹配多个字符之一。如匹配拼写错误的fae-tory,可用:f[ae]ct[OU]ry:
(2)匹配文本行开始与结束。如以C开始,a结束,可用:4a.妯¥:
(3)匹配单词。如找dog,可用:\bdog\b;(4)Unicode字母。如匹配中文,可用:[\u3400一\u4DB5\u4E00一\u9fa5]:
(5)分组和捕获。如匹配年月日相同的日期,可用:\bld\d(\d\d)一\卜\l\b, …… 此处隐藏:1904字,全部文档内容请下载后查看。喜欢就下载吧 ……
上一篇:一年级数学课堂小游戏-2