WEB数据挖掘研究

WEB数据挖掘研究

论文摘要

随着计算机网络技术的发展,在线信息量迅速增长,数据流模型在一些信息处理应用中广泛出现。这些应用包括多媒体、计算机网络安全、网络交通监控、传感器网络等等。在这种情况下,数据流作为专门针对数据无限性、瞬时性和时变性等特点的新数据模型,更能适合WEB应用环境。因此,数据流处理的研究近几年来逐步兴起,并迅速成为WEB数据挖掘中的一个重要的研究问题。数据流分类是数据流挖掘中的一个重要研究领域,但在原来的数据应用背景下的分类算法,都隐含地假定所要挖掘的数据存放在一个相对稳定的环境中,即在挖掘进行的过程中,待挖掘的数据库或数据仓库中的数据或者是固定不变的,或者更新频率是较低的。数据流所具有的特点便对挖掘算法带来了巨大的挑战,具体来说:(1)数据总量通常被假定是无限的,无论到达多少数据,分类算法只能使用不超过某个大小的内存;(2)对数据的多次扫描代价太高,算法通常只能对数据扫描一次;(3)学习算法必须快速地适应数据流中出现的概念漂移;(4)数据流分类算法应该在任意时刻都可以产生一个分类模型。本文主要关注从理论方面研究数据流分类分析,同时对WEB数据挖掘应用研究也进行了一些探讨。研究工作得到了国家自然科学基金(2069901)和国家教育部博士点基金(2069901)的部分资助。对数据流分类技术的理论研究方面,主要成果如下:1.为了有效处理数据流中的重现背景,设计了一种能够有效处理重现背景的数据流模型,给出了一种可以有效挖掘重现背景的数据流分类算法RTRC(Recognizing and Treating Recurring Contexts)。该算法在扫描了足够多的数据后,即使在概念漂移时也能达到良好的分类效果。通过马尔可夫链和最小二乘方法,该算法可以学习并预测即将到来的概念和精确的概念漂移时间。通过在人工数据集和基准(Benchmark)数据集上的实验,与两种有代表性的方法WeightedBaggging和CVFDT(Concept-adapting Very Fast Decision Tree learner)进行比较,表明我们的算法具有更高的准确度和更快地收敛到新的目标概念的性能。2.噪音处理和概念漂移是数据流挖掘中的困难问题。本文探讨了如何使用聚类方法在数据流中区分出噪音实例,并提出了相应的概念漂移检测方法。在此基础上,设计了基于推进技术的组合分类器算法RobustBoosting。在人工数据集和实际数据集上的实验表明,我们的算法即使在高达40%的类噪音时,与AdaptiveBoosting算法相比,仍能保持更高的分类准确度,具有更快收敛到新的目标概念的能力。3.许多研究者已经提出了可以处理概念漂移的学习系统,其中一些系统假定流数据是以连续数据段的形式抵达。针对这种数据流,研究界已经提出了基于组合分类器的处理方法。虽然这些系统可以处理逐步的概念漂移,但是不能有效地处理突然的概念漂移。为了解决这个问题,本文定义了一种相反分类器来从错误中学习,并提出了训练一个组合分类器来对具有概念漂移的数据流进行分类的算法IWB(Improved Weighted Bagging)。在人工数据集和基准数据集上的实验结果表明,IWB算法在遇到概念漂移的时候能很快收敛到目标概念,并具有很高的精度。4.目前对数据流挖掘的研究,主要关注有标记的实例可以学习时,怎样发现模式中的变化以及怎样更新模型去反映这种变化。然而在真实的数据流中,数据往往没有类标记。为了解决这个问题,本文提出了一种基于累积和(CUSUM)控制图的变化发现方法。该方法在未知真实类标记的情况下,可以发现数据流中的概念漂移和分布变化。实验验证表明,此方法是有效的。本文也从WEB数据挖掘应用的角度进行了一些研究工作,主要成果如下:1.WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合,本文提出了利用WEB页面内容和超链信息并结合SVM分类器的WEB社群挖掘方法。在包含8282个网页的WEBKB数据集上的实验结果表明,本文提出的方法可以挖掘出较大而且有意义的社群。2.目前有大量的研究关注利用序列关联规则算法来预测用户的最近HTTP请求。本文设计了基于不同次序特征和时间特征的序列关联规则挖掘算法,比较了不同序列关联规则算法在WEB日志挖掘中的预测精度,并在Clarknet Web Log数据集上进行了实验。最后,使用方差分析方法对影响预测精度的次序特征和时间特征进行了分析,发现都比较显著,并且这两者之间的交互影响也不可忽略,但时间特征对预测精度的影响更大。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 研究的目的和意义
  • 1.2 数据流分类挖掘的要求和挑战
  • 1.3 数据流分析的理论方法
  • 1.3.1 基于数据的技术
  • 1.3.2 基于任务的技术
  • 1.4 数据流研究现状
  • 1.5 数据流分类算法
  • 1.5.1 在线方法
  • 1.5.2 组合分类器方法
  • 1.6 概念漂移处理
  • 1.6.1 概念漂移处理的理论方法
  • 1.6.2 概念漂移的类型
  • 1.6.3 概念漂移的处理方法
  • 1.6.4 数据流测试数据集
  • 1.7 数据流分类分析面临的主要问题
  • 1.8 本文的研究工作
  • 1.9 本文的组织
  • 第二章 挖掘数据流中的重现背景
  • 引言
  • 2.1 相关工作
  • 2.2 数据流历史模型的建立
  • 2.3 分类模型
  • 2.4 背景延续时间
  • 2.5 概念等价性
  • 2.6 学习概念变化模式
  • 2.7 学习时间模式
  • 2.8 识别和处理重现背景的算法(RTRC)
  • 2.9 实验结果与讨论
  • 2.9.1 STAGGER数据集
  • 2.9.2 移动的超平面数据集
  • 2.10 本章小结
  • 第三章 识别数据流中的噪音和难点
  • 引言
  • 3.1 相关工作
  • 3.2 区分噪音和难点
  • 3.3 使用聚类方法挖掘难点和噪音实例
  • 3.4 概念漂移发现
  • 3.5 分类算法设计
  • 3.6 实验结果与讨论
  • 3.6.1 移动的超平面数据集
  • 3.6.2 信用卡欺诈数据集
  • 3.7 本章小节
  • 第四章 基于相反分类器的数据流挖掘方法
  • 引言
  • 4.1 相关工作
  • 4.2 相反分类器及分类器精度赋权公式
  • 4.3 IWB(Improved Weighted Bagging)算法
  • 4.4 实验结果
  • 4.5 本章小结
  • 第五章 未知真实类标记下的变化发现
  • 引言
  • 5.1 相关工作
  • 5.2 变化发现方法设计
  • 5.2.1 数据流中的变化分析
  • 5.2.2 使用累积和控制图来发现变化
  • 5.2.3 数据流中的变化发现步骤
  • 5.3 实验结果与分析
  • 5.4 本章小节
  • 第六章 WEB社群挖掘
  • 引言
  • 6.1 相关工作
  • 6.2 二部图及社群
  • 6.3 算法设计与分析
  • 6.3.1 收集相关页
  • 6.3.2 寻找正例样品
  • 6.3.3 分类
  • 6.4 实验结果
  • 6.5 本章小结
  • 第七章 基于序列关联规则的WEB日志预测精度研究
  • 引言
  • 7.1 相关工作
  • 7.2 算法设计和分析
  • 7.3 实验结果
  • 7.4 本章小结
  • 第八章 结论与展望
  • 8.1 总结和结论
  • 8.2 未来的研究工作
  • 参考文献
  • 致谢
  • 作者在学期间发表论文情况
  • 一、以第一作者发表
  • 二、以非第一作者发表
  • 相关论文文献

    • [1].基于动态窗口的大数据流式处理技术研究[J]. 数字技术与应用 2020(03)
    • [2].基于邻域相似的大数据流滞后相关性挖掘仿真[J]. 计算机仿真 2020(06)
    • [3].数据流技术在汽车维修中的应用探讨[J]. 时代汽车 2019(07)
    • [4].基于大数据的定性数据流聚类优化模型研究[J]. 西安文理学院学报(自然科学版) 2019(04)
    • [5].一种基于数据流的异常值检测改进算法[J]. 中国科技信息 2017(23)
    • [6].云计算中数据流存储负载均衡优化仿真[J]. 计算机仿真 2018(10)
    • [7].大数据流式计算系统综述[J]. 成组技术与生产现代化 2016(04)
    • [8].数据流技术在汽车维修中的应用[J]. 科技展望 2016(16)
    • [9].数据流分类挖掘中的概念变化研究[J]. 计算机科学 2014(S2)
    • [10].浙江传媒学院加快数据治理形成“数据流”[J]. 中国教育网络 2020(Z1)
    • [11].面向非平衡与概念漂移的数据流分类的研究[J]. 现代计算机 2020(04)
    • [12].基于迁移学习的数据流分类研究综述[J]. 天津理工大学学报 2019(03)
    • [13].试分析电网自动化中数据流技术的运用[J]. 电工文摘 2016(06)
    • [14].海量数据流的分类稳定性决策与评判数学模型仿真[J]. 科技通报 2016(02)
    • [15].非平稳数据流下的网络入侵检测优化方法研究[J]. 计算机仿真 2016(09)
    • [16].分布式数据流分类关键技术研究[J]. 华北科技学院学报 2015(04)
    • [17].数据流技术在电喷发动机维修中的应用分析[J]. 湖南农机 2014(05)
    • [18].数据流技术在电网自动化中的应用实践[J]. 电子技术与软件工程 2014(08)
    • [19].数据流技术在汽车维修中的运用[J]. 黑龙江科技信息 2014(26)
    • [20].数据流系统降载研究综述[J]. 计算机应用研究 2008(10)
    • [21].基于协调数据流抢占机制的原理及设计[J]. 电脑与电信 2008(10)
    • [22].基于多维分层采样的时间维度型大数据流整合系统设计[J]. 现代电子技术 2020(05)
    • [23].数据流计算环境下的集群资源管理技术[J]. 大数据 2020(03)
    • [24].大数据流计算特点及“单一窗口”适用场景探讨[J]. 中国口岸科学技术 2020(08)
    • [25].一种对数据流进行聚类的改进算法[J]. 电子设计工程 2017(22)
    • [26].分布式数据流上的高性能分发策略[J]. 软件学报 2017(03)
    • [27].一种基于质量估算的空间数据流聚类算法研究[J]. 计算机应用研究 2017(09)
    • [28].融合互近邻降噪的动态数据流分类研究[J]. 计算机科学与探索 2016(01)
    • [29].多媒体云计算下的大规模数据流调度方法研究[J]. 现代电子技术 2015(20)
    • [30].一种面向演进数据流的结合相似准则和反例信息的分类方法[J]. 控制与决策 2013(11)

    标签:;  ;  ;  ;  ;  

    WEB数据挖掘研究
    下载Doc文档

    猜你喜欢