基于动态LDA主题模型的内容主题挖掘与演化_胡吉明
时间:2026-01-18
时间:2026-01-18
第58卷第2期2014年1月
基于动态LDA主题模型的内容主题挖掘与演化
■胡吉明
[摘
陈果
*
要]指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从
分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。
[关键词]主题挖掘[分类号]G202
DOI:10.13266/j.issn.0252-3116.2014.02.023
主题演化
动态LDA模型
文本内容挖掘与语义建模是信息推荐和数据挖掘领域的研究热点与核心内容,而文本内容的主题挖掘则是语义建模的重要基础。当前网络环境下,信息内容具有呈动态交互和随时间发展演化等特征,因此要求创新信息内容挖掘方法,提升内容主题挖掘的准确性,动态描述其演化趋势。基于此,本文对传统潜在狄利克雷分布(LDA)主题模型进行动态化改进,运用增量Gibbs抽样估计算法,实现文本内容主题的准确挖掘;在文本时间片划分的基础上,基于主题相似度和强度度量,描述内容主题的时间演化趋势。本文研究对语义层次的信息内容建模以及提高内容描述的准确性具有重要作用
。
有限混合表示的文本,并且通过词汇表中所有词汇的概率分布来表示每个主题,文本内容则根据主题和词汇的混合分布来区分
[6]
。LDA主题模型采用Dirichlet,因此具有很好的先验概率
分布简化了模型的推导过程,避免了LSA和PLSA模型产生的过拟合的问题
[7]
假设,参数数量不会随着文本数量的增长而线性增长,泛化能力强,在算法复杂度和展示效果方面表现优越,广泛应用于文本主题挖掘、文本分类聚类、文本检索、内容主题演化等领域
[8]
。
近年来,网络信息内容主题的挖掘受到国内外研究者和机构的广泛关注,旨在准确捕捉网络信息内容的动态演化特征,跟踪或准确发现其发展变化趋势。如M.Mohd等设计了交互事件跟踪(iEvent)系统,以此发现用户交互所产生的热点内容主题
[9]
。C.Aksoy等
文本内容的主题提取即选择合适的文本内容主题和特征词汇,以此对文本内容进行特征描述和建模。主题模型作为一种文本内容的概率生成模型或产生式
[1]
概率潜在语义分析模型,如潜在语义分析(LSA)、
构建了基于语言模型的新奇新闻检测系统BilNov-
[10]
2005,实现了新奇新闻主题的动态实时挖掘。余传
明等基于LDA模型研究了用户评论内容主题和热点关键词的挖掘方法,实验表明该模型具有较好的热点主题识别效果
[11]
(PLSA)[2]和LDA[3],通过对人类思维过程的模拟,找到产生文本的最佳主题和词汇,能够最大程度地表示文本中所蕴含的含义,信息丢失较少,较好地解决了词汇、主题和文本之间的语义关联问题的文本主题提取方法
[5]
[4]
。刘洪涛等针对内容主题不明确和
热点问题难以跟踪的问题,通过计算文献作者的舆论评价得到每个评价社区的关键词概率描述,实现了社区中评论主题的发现,对文本语义挖掘和共享等具有重要意义
[12]
,是目前最常用
。更重要的是,LDA主题模型。黄颖通过基于LDA和主题词的相关性
基于产生式的三层贝叶斯概率计算得到通过潜在主题新事件监测模型,结合报道发生的时间确定合理的主
“社会网络环境下信息内容主题挖掘与语义分类研究”(项目编号:13YJC870008)和国家自然科*本文系教育部人文社会科学青年基金项目
“社会网络环境下基于用户-资源关联的信息推荐研究(项目编号:71303178)”学青年基金项目研究成果之一。
[作者简介]胡吉明,E-mail:whuhujiming@qq.com;陈果,武汉大学信息资源研究中心讲师,武汉大学信息资源研究中心博士研究生。收稿日期:2013-11-13
修回日期:2014-01-04
本文起止页码:138-142
本文责任编辑:王传清
138
第58卷第2期2014年1月
题数目以探知新事件
[13]
。间片内的文本信息受到上一时间片文本信息的影响)从而建作为当前时间片文本主题提取的先验概率φt,立动态LDA文本主题挖掘模型,如图2所示
:
网络环境下文本信息所具有的短文本结构特征加
[14]
大了文本挖掘和表示的难度,因此,本文在现有
LDA主题挖掘基础上,结合微博、博客、社交网络等社会化网络服务中的交互式信息特点,构建动态LDA主题模型,按时间片划分文本信息,将增量Gibbs抽样算法引入其中,通过参数估计得到时间片文本集中连续的主题-词汇分布和文本-主题分布。2.1
LDA主题模型的动态化改进
首先采用滑动时间窗把文本划分到时间片内,时间片内的文本数根据其主题和词汇分布的不同而不同,且允许不同时间片内存在相同的文本(因文本存组成文本时间片集;然后在主题交叉或相似现象),
采用LDA主题模型对每个时间片文本 …… 此处隐藏:8485字,全部文档内容请下载后查看。喜欢就下载吧 ……