文本挖掘技术07-过滤

时间:2025-07-12

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

文本挖掘技术(2009)

第七章:

文本过滤技术杨建武北京大学计算机科学技术研究所 Email:yangjianwu@http://1

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤的定义

从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态).2

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤系统的特点新信息的产生速度很快,相对来说,人的兴趣变化比较缓慢,可以看成相对静态的和稳定的.信息过滤主要借用信息检索和用户建模 (User modeling)两个领域的技术.用户的需求或者兴趣通常采用User Profile建模来表示.新信息到来的时候,根据用户的User Profile,有选择地挑出信息给用户.3

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤与信息检索信息过滤(IF)信息检索(IR) IF是可以看成广义IR的一部分,即和Adhoc Retrieval相对的一种任务模式. IR通常采用Pull模式,而IF通常采用Push模式.和Adhoc Retrieval相比:IF信息源动态,用户需求(采用User Profile来表示)相对静态; IR信息源相对静态,用户需求(采用Query来表示)动态变化 IR可以认为面向一次性的查询而使用,而IF是面向用户的长期需求的重复使用 IF一般要关注用户建模,涉及用户隐私问题,而IR一般不需要.4

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤与信息分类IF vs. IC (Info. Classification) IF可以采用IC中的分类算法.某些场合下人们所称的"信息过滤"实际就是一个IC问题.如不经过用户Profile调整的垃圾邮件过滤. IC中的Category通常不会变化,相对而言,IF的User Profile会动态调整.5

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤与信息提取信息提取(Information Extraction, IE)是从无格式数据源中抽取相关字段的过程.比如抽取恐怖事件的时间,地点,人物等字段. IE中不太关注相关性,而只关注相关的字段.IF中要关注相关性.

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

Other info. seeking processes

Process Data Bases Information Retrieval Information Filtering Alerting Information Extraction Browsing

Information NeedDynamic& Specific Dynamic& Specific Stable& Specific Stable& Specific Specific Broad

Information SourceStable& Structured Stable& Unstructured Dynamic& Unstructured Dynamic Unstructured Unspecific7

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤的一些应用克服重复查询网络信息是动态变化的,用户时常关心这种变化而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间

提供个性化信息服务对不同的用户采取不同的服务策略,提供不同的服务内容.实现"主动服务","信息找人"

实现有害信息的过滤反动言论,保护国家安全谣言,保护社会稳定色情内容,保护青少年身心健康8

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤的一些应用

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

信息过滤的一些应用搜索引擎检索结果的过滤:Google个人的邮件过滤新闻订阅和过滤浏览器过滤面向儿童的过滤系统面向客户的过滤系统和推荐系统

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

IF分类示意图

文本挖掘技术的经典教程,全面系统地介绍了各个层面的文本分析技术的概念、原理、方法和研究进展,可在一天之内掌握该领域的概貌,不是任何一本专著所能相比的。

按Initiative of operation分主动(Active)的IF系统主动搜集信息 …… 此处隐藏:1467字,全部文档内容请下载后查看。喜欢就下载吧 ……

文本挖掘技术07-过滤.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219