话题检测与跟踪技术的综述

时间:2025-04-22

第8卷第4期 信息技术快报 Vol.8 No.4 Information Technology Letter Jul. 2010

话题检测与跟踪研究进展综述

张瑾 杨森 王孝宗 罗维 杜攀 程学旗

摘要:随着互联网信息的指数增长,为了提高信息挖掘的效率,信息检索与话题检测等技术近年得到了广泛关注。本文首先回顾了话题检测与跟踪技术发展的历史,并在介绍传统话题检测方法的基础上,从突发性检测与基于社会网络的话题检测与跟踪方法两个方面进行深入探讨;对话题检测与跟踪的评价方法进行了分析;最后展望了话题检测与跟踪方法的发展趋势。

关键词: 话题检测与跟踪,突发检测,社会网络;

1 引言

随着互联网技术的蓬勃发展和广泛普及,网络上的信息量呈指数增长,信息过剩与知识匮乏并存的矛盾日益凸显。浩瀚的网络数据远远超出了人们的掌控能力,因此,如何有效地组织并展现Web数据,提高知识获取的效率,长期以来一直是一个热点研究问题。借助于话题检测与跟踪技术可以把信息按主题分类组织,将特定时间段内最活跃的话题智能地推送给用户,并按照用户的需求跟踪话题的动态演化过程,从而为用户有效掌握社会动向和重大事件提供极大便利。尤其是面向热点话题与突发话题的相关应用更得到了广泛的关注。

同时,随着Web 2.0的应用与发展,社会网络变得越来越普及。与以往的新闻网络媒介不同,社会网络更加强调用户的参与性。如果能够有效地在社会网络上自动检测和跟踪话题,无疑能够方便用户在社会网络上寻找并全面了解其所感兴趣的事件或者话题。然而由于社会网络上的数据主要由普通用户产生,这些数据无论是用词、形式还是具体内容的质量都参差不齐,给话题检索带来很大困难。值得注意的另一方面是,用户的广泛参与,为话题检测和跟踪提供了可利用的新的数据信息。社会网络上的话题检测的数据不仅局限文本信息,还可以利用非文本信息。这些新特点使面向社会网络的话题检测和跟踪方法的研究在最近几年得到了重点关注。

在本文中,我们首先回顾了话题检测与跟踪的历史;在介绍传统话题检测方法的基础上,结合我们的研究成果从突发性检测与基于社会网络的话题检测与跟踪方法两个方面进行深入探讨;对目前的话题检测与跟踪的评价方法进行了分析;最后对话题检测与跟踪方法未来的发展趋势进行了展望。

2 研究现状

话题检测和跟踪研究已经开展十多年了。在现有的研究中,话题被定义为某个事件或活动及所有与其相关的事件或活动,而事件则定义为在某个特定的时间或地点发生的某件独特的事情[4]。在以往的研究中,事件和话题的定义差别微小并且经常可以互换。话题的检测可以分为两个相对独立的子任务,即历史话题检测(或回顾式话题检测)和在线话题检测。历史话题检测是指在已知所有的检测数据后,在该数据集上检测其中隐含的所有话题。在线话题检测是指在进行话题检测的时候,检测数据只是部分可知,并且新的数据是以在线的形式不断地呈现给检测系统,要求话题检测系统能够即时地对当前新到达文本进行话题的判断,即判断当前新文档是新的话题还是属于某个已有的历史话题。话题的跟踪任务是指对于一个

话题检测与跟踪研究进展综述

事先指定的话题(按照某种形式呈现),在在线数据输出模式中,在新数据到达之前判别当前文档是否属于该指定的话题。

在话题检测与跟踪(Topic Detect and Tracking, TDT)评测中,用于进行话题检测和跟踪的语料为新闻数据,这些数据包括新闻文本和转录语料,通常按照时间有序排列,并且目标事件已经被人工标注。在评测中,话题检测和跟踪研究[1,4,22,24,25]被进一步划分为三个子任务:数据流的切分、事件的检测、事件的跟踪。数据流的切分任务被定义为对连续的文本数据流按照报道内容进行切分,正确识别出与相邻报道的边界。事件的检测可以进一步被划分为历史事件检测(Retrospective Event Detection, RED)和在线新事件检测(Online New Event Detection, NED)[4]。历史事件检测是指在一个给定的报道集合中找出所有隐含的事件,其任务就是对目标数据集进行聚类,每一个聚类结果簇表示一个事件。而在线新事件检测的目标是以在线的方式在报道流中识别新事件。当有新报道到达时,要求在线新事件检测方法能够对该报道进行分析并且在下一个报道到达之前判断该报道是否讨论了一个新的事件。而事件的跟踪是指在新到达的报道中找出所有与已知事件相关的报道。

由于我们的研究主要集中在话题的检测和跟踪上,所以下面我们将主要分析已有的事件检测和跟踪方法的研究而忽略数据流的切分研究。关于话题检测和跟踪的研究可以从方法上划分为两类。第一类方法主要是寻找适合于话题检测和跟踪的新的聚类算法或者对已有的聚类算法进行改造。另一类方法则集中于挖掘新的话题特征来提高检测和跟踪的效果。值得注意的是,在有些研究中,比如引文[1]等,这种划分有时候并不明显。为了简便起见,我们不再一一进行严格的说明。

3 主要方法

话题检测与跟踪系统的主要工作 …… 此处隐藏:12687字,全部文档内容请下载后查看。喜欢就下载吧 ……

话题检测与跟踪技术的综述.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219