基于数据挖掘的Web信息检索研究

基于数据挖掘的Web信息检索研究

论文摘要

Internet使人们获取信息更加方便和快捷,但是由于网上的信息浩如烟海,并且不断快速增长,而其中绝大多数对用户来说是无关的,所以如何在网络中找到自己所需的信息成了一个重要问题。搜索引擎是在一定程度上帮助人们解决这个问题,但是它并不能完全满足用户的需求。本文即是在此背景下,针对目前搜索引擎模型分析,提出一种新的搜索引擎模型,同时利用数据挖掘方法来解决网络上某些信息检索问题,内容主要涉及到如何构造合理的搜索引擎模型,如何有效的组织网络资源,如何发现网络中蕴涵的资源和如何对已经得到的数据进行维护等。本文的创造性研究成果主要有:(1)在分析目前搜索引擎模型的基础上,从模型的结构角度提出一种新的搜索引擎模型(混合模型),它能快速、准确地发现用户所需的信息,并分析实现该模型所需要的关键技术。(2)根据Fisher判别方法的思想提出了一种有效的有监督层次文档分类算法(HDCF),该算法主要将文档按照主题进行层次分类,利用Fisher线性判别式的思想来提取每一类的正特征词和负特征词,然后根据这些特征词对给定文档进行分类。该算法不仅克服一般层次分类算法中假定特征词之间必须满足独立性的条件,而且能处理一个文档涉及多个类的分类问题。在实验中,采用召全率和准确率2个指标与其它算法进行比较,实验结果表明:HDCF的效果好于其它算法。(3)为了满足在线学习文档分类需要,本文根据自适应谐振理论提出了半监督学习自适应谐振理论系统。在该系统中取消了一般半监督学习算法中假定已知数据概率分布的条件限制,利用自适应谐振理论的稳定性和可塑性,使其具有非常强的学习新模式和纠正错误能力。为了提高系统自适应性能力,将警戒参数设置为动态变化。实验结果表明半监督学习自适应谐振理论系统的性能优于判别式CEM算法,特别是在含有噪音和新模式数据情况下,其优势更为明显。(4)针对已有的周期性关联规则模型的局限性,提出一种新的周期性关联规则模型。此模型通过聚类分析可以将一个周期分成若干个长度不等的时间段,并给出该算法,实验结果表明这样可以更准确地发现周期性关联规则。同时,因为数据的稀疏性,在底层或原始的数据之间很难找到满足用户需求的周期性关联规则,而有很多数据是分层,在较高层次上可以发现的周期性关联规则,所以,又提出周期性一般关联规则算法(CGI)。由于周期性一般关联规则对数据噪声非常敏感,用噪声比来抑制数据噪声对发现周期性一般关联规则的影响。同时根据对周期性与一般频繁项集之间关系的分析,利用周期裁剪技术来节省挖掘时间。本文中给出了CGI算法,同时还对发现规则的有意义性和冗余性进行判断和处理。实验证明,该算法可高效地发现周期性一般关联规则。(5)关联规则是要从大量的数据中找到数据之间的规律,但有时所产生的规律十分繁多,从而形成新的知识管理问题。针对该问题本文提出了一个新的算法,该算法利用系统聚类分析方法对规则进行分组,从而更好地帮助用户理解所发现的规律,由于该方法的距离(RatioD)是基于关联规则本身,因此,可对规则进行高效地分组。实验结果表明,该算法是有效的。(6)对于维护已发现的序列模式方法主要有两种,一种是简单地利用已有的挖掘序列模式算法对更新后的整个数据库进行操作,这种方法涉及数据库中的数据不仅有改变的部分而且有未改变的部分,而未改变的数据数量很大,当更新频率高时,代价是非常大的;另一种方法是根据库中记录数目改变多少来决定何时对整个数据库进行操作,但是记录数目变化大并不能代表序列模式变化也大,因此本文利用样品抽样的方法来评估序列模式改变的程度,并根据改变的程度决定何时对整个数据库进行操作来更新序列模式,从而较好地解决了序列模式维护的问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 背景
  • 1.2 WEB 信息检索
  • 1.3 搜索引擎的发展史
  • 1.4 搜索引擎基本结构和分类
  • 1.5 数据挖掘的概述
  • 1.6 论文的主要研究工作
  • 1.7 本文的内容安排
  • 第二章 一个新的搜索引擎模型
  • 2.1 问题简介
  • 2.2 目前搜索引擎发展概况
  • 2.3 问题分析
  • 2.4 混合模型
  • 2.5 实现模型的若干关键技术
  • 第三章 基于FISHER 线性判别式的层次文档分类
  • 3.1 数据分类概述
  • 3.2 背景
  • 3.3 FISHER 线性判别式
  • 3.4 问题定义
  • 3.5 特征词的选取
  • 3.6 基于FISHER 线性判别式的层次分类算法
  • 3.7 实验结果
  • 3.8 小结
  • 第四章 基于ART 半监督在线学习的文档分类
  • 4.1 背景介绍
  • 4.2 ART 模型的工作原理
  • 4.3 SLART 系统
  • a 和 ARTb'>4.4 ARTa 和 ARTb
  • 4.5 MAP 域
  • 4.6 匹配跟踪作用
  • 4.7 实验结果
  • 4.8 小结
  • 第五章 周期性关联规则
  • 5.1 引言
  • 5.2 问题描述
  • 5.3 有序样品聚类
  • 5.4 时间分段
  • 5.5 发现周期性关联规则
  • 5.6 实验结果
  • 5.7 小结
  • 第六章 周期性一般关联规则
  • 6.1 周期性一般关联规则
  • 6.2 问题描述
  • 6.3 周期性一般关联规则算法
  • 6.4 试验结果
  • 6.5 小结
  • 第七章 对已发现的关联规则进行修剪和分组
  • 7.1 引言
  • 7.2 关联规则的性质
  • 7.3 关联规则的覆盖
  • 7.4 系统聚类法
  • 7.5 分组规则
  • 7.6 分组规则的改进
  • 7.7 小结
  • 第八章 基于抽样技术的序列模式的维护
  • 8.1 介绍
  • 8.2 问题定义
  • 8.3 SMSP 算法
  • 8.4 小结
  • 第九章 结束语
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的学术论文
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于数据挖掘的Web信息检索研究
    下载Doc文档

    猜你喜欢