面向领域Web信息自动抽取技术研究
发布时间:2021-06-08
发布时间:2021-06-08
面向领域的Web信息自动抽取技术研究
摘要:本文分析了目前web数据抽取主流技术,针对领域网站上文本信息采用mdr算法进行抽取,阐述了网页抽取的工作流程,并通过引入文本分类算法提高了网页抽取的查准率。
关键词:网页抽取;dom;面向领域
中图分类号:tp393.092 文献标识码:a 文章编号:1007-9599(2012)24-0059-02
1 信息抽取研究现状
web信息抽取技术从20世纪90 年代中期开发研究。,目标是设计一个由一系列抽取规则组成,可以完成网页的内容抽取wrapper(包装器)程序。早期的包装器设计方法为手工方法,编程人员运用自己的专业领域知识通过观察网页源代码设计抽取规则,这种方式无法应对大量不同结构的网页。jussi myllymaki利用xml语言设计了由专家根据经验手工定义规则,由计算机自动生成包装器的xmwrp系统,仍然需要人工参于训练。文献[3]提出一种基于本体的算法,效果良好但设计复杂需要专家知识。自动取算法des每个面页需要重复处理,没有生成抽取模板,roadrunner算法如不预处理噪音信息执行效率将较低[2]。liu bing2003年提出了利用单个网页实现网页中数据记录集的抽取算法,基于网页dom树结构中数据记录的重复模式是目前抽取效果比较理想的包装器。
2 基于查找网页结构重复模式的web数据抽取方法
现在的网页多是由动态网页技术从数据库提取数据记录然后用网