摘 要:互联网媒体的快速发展使网民每日接收着海量的新闻。发现热点新闻并对其演化趋势进行挖掘可有利于媒体把握新闻风向和读者喜好,并帮助用户低成本、全方位地了解新闻事件的来龙去脉。媒体网站可通过实时获取新闻并进行文本处理,运用聚类分析、时序主题挖掘等算法跟踪了解热点新闻事件的演化趋势。本文结合相关挖掘技术,提供了一种基于主题模型的热点新闻演化趋势挖掘的流程设计,并结合具体的新闻事件进行分析。
关键词:热点新闻,聚类,主题模型,文本挖掘,新闻演化
1、研究背景
随着互联网的发展,在线新闻已成为媒体发表新闻、用户阅读新闻的主要渠道。在Web2.0时代,网络中的信息传递愈加迅速便捷,网民可自主发表个人意见,助推了各类热点新闻的诞生。网络中的热点新闻是指反映社会反响比较大,网民比较关注的新闻内容,具有传播快、影响力大、关注度高的特点。网络中的热点新闻一般会经历话题产生、变化和消亡三个阶段,不同阶段的新闻有不同的热度和话题。人们在阅读互联网上海量新闻时,往往重点关注某些领域的热门新闻,并且希望了解热门的新闻的来龙去脉等泛化信息。
对网络热点新闻事件的挖掘可以满足互联网用户新闻阅读诉求。将网络中各个信息源相同和相似的新闻事件聚集在一起。最后将聚集在一起的新闻事件按照时间先后顺序进行排列和统计,这样就能够得出新闻事件的起因、发展以及结果等一系列过程,并通过统计信息的数量得到事件关注度变化曲线。挖掘结果能使用户更方便快捷的去了解网络中整个信息演化趋势和状况,同时也引导用户去关注社会和生活中的一些焦点新闻。
从用户角度看,对热点新闻演化趋势的挖掘分析给用户提供了更为方便快捷的服务,它能够使用户用最小的代价获取最多最全面的内容,它能够帮助用户更准确、更迅速的了解一个事件的来龙去脉、整个发展过程以及各方各面对该事件的理解和看法。对媒体和网站管理者而言,从对互联网中热门事件的研究,可以有效的得出互联网中热点新闻的迁移,互联网用户行为习惯变化以及互联网的舆论导向[1],便于媒体根据读者喜好和热点风向发布新闻报道,引导和控制新闻发展。
2、热点新闻挖掘技术与研究框架
2.1 热点新闻挖掘相关技术现状
在对热点新闻的演化状况进行挖掘时,主要会使用到有监督性学习、无监督性学习以及复杂网络分析等方面的相关技术。
(1)新闻聚类技术
传统的新闻主题聚类任务一般采用向量空间模型来表示一个新闻文档,然后通过相似度公式来计算文档之间的距离,而对于新主题的识别主要采用增量聚类的算法来实现;通过主题抽取与聚类工作,可以不停地生成、总结形成新的新闻主题[2]。基于以上路径,诞生了多种新闻聚类方法。如Ron Papka[3]等学者则提出了一种混合式的主题聚类算法,他将多种聚类算法进行混合搭配,根据不同聚类算法之间的特点,采取融合逻辑来进行新闻主题聚类。Sayyadi[4]等研究人员将新闻主题与社交网络结合起来,提出了一种基于关键词图的新闻主题聚类算法,充分地利用了网络新闻系统中的消费者社交网络信息,取得了不错的效果。
(2)新闻分类技术
新闻网站对于新闻进行分类使得读者可以更准确地找到自己感兴趣的分类并有利于关联阅读的进行, 例如目前新闻页面下方的新闻推荐, 可以使读者便捷地阅读到与当前阅读新闻相关的其他新闻页面。目前,机器学习和神经网络技术的发展使得新闻分类逐渐成熟,如支持向量机(SVM)、决策树、KNN等分类算法在新闻分类任务上均有不错的表现。
(3)主题挖掘技术
非监督性学习中的主题模型,可以用于追踪和检测新闻热点话题。通过主题模型将自由文本中的主题 提取出来再进行分析。主题模型也是近年来文本挖掘 领域的热点。主题模型起源于Deerwester[5]等1990年提出的隐性语义索引。M. Blei等2003年[6]提出的LDA模型,扩展了隐性语义索引,得到一个更为完全的概率生成模型。近年来,与特定的应用场景相结合,出现了越来越多的基于LDA的概率模型。
(4)新闻演化挖掘技术
新闻话题演化脉络挖掘[7],是在与某个特定话题的相关报道已被跟踪的前提下,根据新闻之间的逻辑关系,自动组织成符合逻辑的事件发展轨迹。国内外研究的一个重点集中于两新闻之间相似性度量(关联强度)方面,有研究发现新闻发展轨迹是自上而下的,具有时间近邻、事件要素共现特性,利用事件的内容关联强度、时间关系可以构造出新闻话题演化故事链[8]。
2.2 热点新闻演化趋势挖掘框架
相关阅读
赞助商广告