面向用户兴趣的web文档聚类研究

面向用户兴趣的web文档聚类研究

论文摘要

随着Internet上文本信息、Web页面的迅速膨胀,使得人们想要在Internet上获取所需要的信息显得相当困难。因此,如何有效地对大量文本资源进行组织、管理,帮助用户获取真正需要的信息等,成为目前信息检索领域中迫切需要解决的问题。文本聚类是文本挖掘中非常重要的技术,它已经被广泛的应用于信息管理、搜索引擎、推荐系统等多个领域。在文本聚类领域,k-means算法简单且收敛速度快,是最常用的文本聚类算法之一,本文主要对该算法进行研究并改进。首先,为了克服k-means算法需要人工指定划分聚簇个数且初始聚类中心随机选择的缺点,本文将基于密度的聚类算法与k-means算法相结合,提出了一种基于参考区域的初始化思想,将生成的初始划分作为k-means算法迭代的基础。实验证明改进的k-means文本聚类算法能提高聚类结果的精度,同时保持了基于密度聚类算法的高效性。其次,为了克服k-means算法在迭代过程中易于陷入局部极值的缺点,本文结合最优化方法的局部搜索思想,对k-means算法的聚类结果进行迭代调整。并根据文本数据的特点,采用多数文本同时调整的方式,减少算法迭代次数,扩大了搜索空间。理论和实验分析表明这种改进方法能提高聚类的质量并保持原算法的时间效率。最后,将文本聚类和用户兴趣挖掘技术相结合,构建了一个面向用户兴趣的文本聚类系统CSUI(ClusteringSystemofUsers’Interest),该系统利用改进的k-means算法对用户浏览内容进行聚类,最终生成用户兴趣的相应表示模型。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 选题背景和研究意义
  • 1.2 国内外研究现状
  • 1.2.1 用户兴趣挖掘研究现状
  • 1.2.2 文本聚类算法研究现状
  • 1.3 全文的组织结构
  • 第二章 用户兴趣挖掘与文本聚类相关技术
  • 2.1 Web挖掘分类
  • 2.2 用户兴趣挖掘
  • 2.2.1 用户兴趣建模方式
  • 2.2.2 用户兴趣信息获取
  • 2.2.3 用户兴趣的表示
  • 2.2.4 用户兴趣模型的更新
  • 2.3 文本聚类相关技术
  • 2.3.1 文本预处理
  • 2.3.2 向量空间模型
  • 2.3.3 常用的文本聚类算法
  • 2.3.4 聚类结果的评价标准
  • 2.4 本章小结
  • 第三章 基于参考区域的k-means 初始化
  • 3.1 问题的提出
  • 3.2 CURD算法
  • 3.3 k-means文本聚类算法
  • 3.4 参考区域的生成
  • 3.4.1 输入参数的确定
  • 3.4.2 确定参数k及初始分区的生成
  • 3.4.3 改进算法流程
  • 3.4.4 算法时间复杂性分析
  • 3.5 实验和算法评估
  • 3.6 本章小结
  • 第四章 基于局部迭代的k-means 文本聚类
  • 4.1 问题的提出
  • 4.2 最优化相关问题
  • 4.3 面向文本聚类的迭代优化
  • 4.4 算法修改
  • 4.4.1 目标函数的变化
  • 4.4.2 修改算法及复杂度分析
  • 4.4.3 算法迭代的自动确定
  • 4.5 实验和算法评估
  • 4.6 本章小结
  • 第五章 面向用户兴趣聚类系统的生成
  • 5.1 面向用户兴趣的聚类系统结构
  • 5.2 用户兴趣的生成
  • 5.2.1 向量空间模型表示兴趣
  • 5.2.2 基于概化方法的兴趣主题词抽取
  • 5.2.3 用户子兴趣的生成
  • 5.3 实验测试及分析
  • 5.4 本章小结
  • 结论
  • 1. 主要创新点
  • 2. 下一步研究方向
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    • [1].融合情境因素的电子商务用户兴趣挖掘仿真[J]. 计算机仿真 2020(04)
    • [2].基于背景和内容的微博用户兴趣挖掘[J]. 软件学报 2017(02)
    • [3].一种基于用户兴趣的个性化建模方法[J]. 内燃机与配件 2017(04)
    • [4].面向推荐的用户兴趣扩展方法[J]. 山东大学学报(工学版) 2017(02)
    • [5].微博中结合转发特性的用户兴趣话题挖掘方法[J]. 计算机应用研究 2017(07)
    • [6].支持联机分析处理的推特用户兴趣维层次提取方法[J]. 电子与信息学报 2017(09)
    • [7].基于信任与用户兴趣变化的协同过滤方法研究[J]. 情报学报 2017(02)
    • [8].用户兴趣变化下的协同过滤最优推荐仿真[J]. 计算机仿真 2016(08)
    • [9].百度贴吧用户兴趣分类[J]. 福建电脑 2014(11)
    • [10].微博用户兴趣发现研究[J]. 现代图书情报技术 2015(01)
    • [11].满足用户兴趣漂移的计算自适应快速推荐算法[J]. 计算机应用研究 2015(09)
    • [12].《解忧杂货店》走进现实[J]. 时代报告 2016(12)
    • [13].基于用户兴趣领域中可信圈挖掘的推荐模型[J]. 西北工业大学学报 2019(06)
    • [14].基于信息内容和用户关系的用户兴趣分类[J]. 河北省科学院学报 2018(02)
    • [15].基于情景和浏览内容的层次性用户兴趣建模[J]. 计算机系统应用 2017(01)
    • [16].基于改进的关联规则挖掘算法的用户兴趣挖掘[J]. 计算机时代 2016(09)
    • [17].基于学术产出挖掘的用户兴趣建模研究[J]. 图书情报工作 2013(18)
    • [18].国内用户兴趣建模研究进展[J]. 情报杂志 2013(05)
    • [19].面向个性化服务的用户兴趣偏移检测及处理方法[J]. 电子技术 2009(11)
    • [20].多层次用户兴趣模式的动态捕捉[J]. 计算机工程与应用 2009(36)
    • [21].基于分类的用户兴趣漂移模型[J]. 情报杂志 2008(01)
    • [22].基于时间权重和用户兴趣变化的协同过滤算法[J]. 皖西学院学报 2020(02)
    • [23].关于网络用户兴趣数据信息快速查询仿真研究[J]. 计算机仿真 2018(12)
    • [24].基于消费行为理解与分析的用户兴趣建模方法[J]. 电脑知识与技术 2019(14)
    • [25].基于用户兴趣及迁移的话题模型分析[J]. 软件导刊 2018(06)
    • [26].基于数据挖掘的网络购物用户兴趣分类研究[J]. 计算机仿真 2018(07)
    • [27].基于复杂网络及神经网络挖掘用户兴趣的方法[J]. 计算机技术与发展 2016(12)
    • [28].基于图像语义的用户兴趣建模[J]. 数据分析与知识发现 2017(04)
    • [29].社交网络大数据环境下的用户兴趣层次化模型研究[J]. 教育观察(上半月) 2016(08)
    • [30].一种基于用户兴趣的微博实体链接方法[J]. 计算机应用研究 2016(07)

    标签:;  ;  ;  ;  

    面向用户兴趣的web文档聚类研究
    下载Doc文档

    猜你喜欢