粗糙集在Web挖掘中的应用研究

粗糙集在Web挖掘中的应用研究

论文摘要

Web挖掘广义定义为从Internet上发现和分析有用信息。Web挖掘可以协助Web搜索引擎找出高质量的网页和分析Web语义结构、点击信息等,使Web服务更加智能化。目前Web挖掘技术中,特别是Web文本的分类、聚类,采用的核心算法是基于词频统计的矢量空间模型算法。该算法中文档的特征词的选取和相似度测量是关键。对特征词的选取和权重计算有很多研究,取得了积极效果。但是,特征词之间的关系研究很少。如何准确描述和恰当利用特征词之间的联系,是改进目前Web挖掘算法的一个途径。粗糙集理论是一种强有力的处理不确定性关系的数学工具,粗糙集扩展更能满足实际应用的需要。从知识分类的观点剖析了粗糙集理论的内涵,指出了粗糙集扩展的必要性。以Web信息检索为研究对象,以扩展粗糙集理论为工具,以知识获取为目的,提出了基于模糊粗糙集的网页个人兴趣分级算法,较系统深入地研究了基于容错粗糙集的Web查询词的扩展、分类、聚类理论与应用。在经典粗糙集合的基础上,针对数据的过拟合而使其对新对象的预测能力降低;对原始数据本身的模糊性缺乏相应的处理方法;针对粗糙集边界区域的刻画比较简单,而没有一定程度的属于或包含等,探讨了几种典型的扩展模型,如变精度粗糙集模型、模糊粗糙集模型和容错粗糙集模型。分析了这几种模型的相关性质,指出了它们实质上可以统一到广义粗糙集的模型上,只是针对的关系基础和定义的隶属函数不同。从而能更加直观地理解粗糙集理论,启发应用粗糙集理论开发更好的数据挖掘算法。分析了Web检索中查询准确率不高的一个重要原因是用户对查询语句的不能精确表示,提出了基于容错粗糙集的查询词自动扩展方法,用特征词容错类描述查询语句与返回结果之间的不确定关系,用查询语句上近似集合构造新的查询语句,自动增加了带权重的相关查询词,并在标准数据集上进行了实验,结果表明该方法,能有效地进行查询词扩展,提高了检索性能。为解决网页分级HITS和PageRank算法中共同的缺陷主题“漂移”问题,结合用户的历史查询词,采用模糊粗糙集的理论来描述个人兴趣与文档之间的不确定关系,在比较个人兴趣和网页相似度中,采用了上近似集相似与下近似相似结合的方法,实现了一种基于模糊粗糙集的个人兴趣网页分级算法。实验结果说明基于兴趣的PageRank方法是可行的。分析总结了粗糙集理论的Web分类一般方法,指出大多数方法都是把预先定义的类别看成是互斥的概念,很少考虑类与类之间有相联系的概念。利用Web文档特征词同时出现的价值,用容错粗糙集描述这种联系,给出了基于容错粗糙集的Web文档分类方法,该方法抓住了类与类之间有一定交叉概念这个关键,用特征词近似相似来精确判断文档类别,提高了Web分类效果。探讨了几种聚类策略,阐述了聚类的本质就是类内样本点“抱团”,给出了基于容错粗糙集的Web搜索结果的聚类方法,实现了聚类标记算法,对比实验表明,该方法优越于普通K均值算法。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 选题的背景
  • 1.2 WEB 挖掘的研究概述
  • 1.3 现行 WEB挖掘的不足以及本课题任务
  • 1.4 本文的主要工作和结构
  • 1.5 本章小结
  • 2 粗糙集理论及其扩展
  • 2.1 ROUGH集的基本概念
  • 2.2 粗糙集理论与知识发现
  • 2.3 经典粗糙集合的扩展
  • 2.4 扩展粗糙集在广义空间上的统一
  • 2.5 本章小结
  • 3 基于容错粗糙集合的查询词扩展
  • 3.1 查询词扩展简介
  • 3.2 查询词“伪相关反馈”一般扩展算法
  • 3.3 基于容错粗糙集的查询词扩展
  • 3.4 算法描述
  • 3.5 实验
  • 3.6 本章小结
  • 4 基于模糊粗糙集合的个人兴趣网页分级方法
  • 4.1 引言
  • 4.2 HITS 算法
  • 4.3 PAGERANK 算法
  • 4.4 HITS 与 PAGERANK 的联系
  • 4.5 基于模糊粗糙集的个人兴趣 WEB分级算法
  • 4.6 基于兴趣的 PAGERANK 算法
  • 4.7 实验
  • 4.8 本章小结
  • 5 基于容错粗糙集合的 WEB 文档分类研究
  • 5.1 WEB 文档预处理技术
  • 5.2 文档分类
  • 5.3 分类性能评价方法
  • 5.4 基于粗糙集的WEB分类方法
  • 5.5 基于容错粗糙集的WEB文档分类
  • 5.6 算法描述
  • 5.7 实验
  • 5.8 本章小结
  • 6 基于容错粗糙集合的 WEB 搜索结果聚类研究
  • 6.1 聚类算法介绍
  • 6.2 基于容错粗糙集的 WEB搜索结果聚类
  • 6.3 WEB 搜索结果的容错粗糙集聚类算法
  • 6.4 实验
  • 6.5 本章小结
  • 7 结论与展望
  • 7.1 主要工作及创新点
  • 7.2 展望
  • 致谢
  • 参考文献
  • 附录Ⅰ 攻读博士期间发表(录用)的论文
  • 附录Ⅱ 攻读博士学位期间参加科研项目及奖励情况
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  ;  ;  ;  ;  

    粗糙集在Web挖掘中的应用研究
    下载Doc文档

    猜你喜欢