社会化媒体内容关注度分析与建模方法研究

阅读:

【2017-04-20 14:00:34】

【摘要】:社会化媒体近年来得到极大发展,已经在整个互联网中占据主流地位。根据世界著名流量统计网站Alexa的数据,全球访问量排名前十的网站中,有五个是社会化媒体网站。社会化媒体的空前发展和应用,孕育了大量新的研究领域,比如催生了新的信息技术研究,促进了针对人类社会行为规律的理论研究。2009年Science杂志发表了题为《计算社会学》的文章,标志着计算科学和社会科学的交叉领域已成为国际前沿研究热点,而社会关注度是其中最为重要的研究领域之一。社会关注度分布及动态增长特性的研究不仅能够加深对人类宏观行为规律的理解,而且对于理解和提升诸如预取缓存、P2P网络、搜索引擎和推荐系统的性能具有重要的理论价值。本文在社会关注度分布特征分析、社会关注度传播过程特性、基于社会关注度分布特性的预取缓存技术以及提高社会关注度方法等问题上进行了深入的研究。 首先,分析了多来源社会关注度分布的若干特征以及各来源对社会关注度分布的影响。社会化媒体内容规模巨大,并且具有高度动态性和高度分散性的特点,可能使得传统的分布模型和预测方法失效。本文从全局和局部两个层面同时对多来源社会关注度整体分布特征进行了分析,发现了全局和局部社会关注度分布的差异。在此基础上,深入分析了不同来源对社会关注度分布的影响,结果表明搜索引擎和推荐系统是社会关注度的两大主要来源,并且搜索引擎倾向于加剧“马太效应”,而推荐系统则有助于减轻“马太效应”。该研究成果有助于回答学术界所广泛关心的搜索引擎和推荐系统如何影响被观看媒体内容多样性的问题。 其次,提出了基于用户行为模型聚类(Clustered User Behavior Model, CUBM)的媒体对象预取缓存方法。本文借助PlanetLab平台测量和分析了社会化多媒体网站在传送大尺寸多媒体对象时出现频繁中断的问题,论述了采用预取缓存技术的必要性。在此基础上,提出一种基于用户行为模型聚类(CUBM)的媒体对象预取缓存方法。该方法将行为模式类似的用户归类并分别建立Markov链,克服了传统方法未能体现用户差异以及在局部代理部署时覆盖率不高的缺点,并且抓住了活跃用户比不活跃用户倾向于观看更多内容的事实,从而提高了预取的准确率和命中率。 再次,提出了基于随机游走的社会关注度传播模型(Random Walk based PopularityPropagation Model, RWPPM)。为了深入理解媒体对象如何通过媒体对象关系网影响对方的社会关注度,本文提出了一个基于随机游走的社会关注度传播模型。随后分析了模型的收敛条件,论述了模型的功能并验证了模型的正确性。在此基础上,运用RWPPM模型对YouTube视频网络中视频间社会关注度的相互影响力及其特征进行了分析。 最后,提出了一种基于KTK (Keywords-Topics-Keywords)关键词推荐的社会关注度提高方法。分析了媒体对象标识文本关键词在搜索引擎检索和推荐系统推荐媒体对象中的重要性。进而研究了媒体对象关系网的簇结构以及各簇主要关键词代表话题的能力。在此基础上,提出一种遵循“关键词—主题—关键词”思路,兼顾相关度和社会关注度的KTK关键词推荐算法。最后,实验结果表明所推荐关键词能够大幅提高媒体对象的社会关注度。

上一篇:留守儿童作为社会关注的弱势群 下一篇:创新社会治理体系须关注两大核心议题