基于组织协同进化的Web日志挖掘

基于组织协同进化的Web日志挖掘

论文摘要

Internet的迅速发展,在给人们带来丰富信息和极大便利的同时,也随之产生了许多的问题,个性化的信息服务和构建智能化Web站点便是其中之一。直接或间接地解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘。本文研究了Web日志挖掘中的相关技术,并在组织进化算法的基础上,提出了二种用于Web日志挖掘的算法。 本文的主要研究工作如下: 1.组织协同进化分类算法(Organizational CoEvolutionary algorithm for Classification,OCEC)与现有遗传算法的运行机制不同,OCEC算法中的个体不需要进行编码,且个体以组织的形式进行进化,为此定义了新的适合于组织操作的进化算子;另外,OCEC的进化操作直接作用于数据而不是规则,进化结束后再从组织中提取规则。本文基于OCEC的以上特点,提出了组织协同进化的Web日志挖掘算法。该算法针对Web日志挖掘的特点,改进了OCEC中的合并算子,并把增减算子和交换算子中的常数参数修改为百分数。仿真对比实验表明,该算法不仅有效可行,而且还有较快的收敛速度。 2.在组织进化算法的基础上,提出了基于组织多层次进化的关联规则挖掘算法。该算法将初始数据以自由态组织形式加入进化种群中,进化种群每次进化后,把包含相同属性集合的组织加入最优种群中;并同时用本文定义的聚合算子对最优种群进行进化,把其中相同属性集合相等的不同组织聚合为一个更大的组织;进化结束后,再从最优种群各组织的相同属性集合中提取出关联规则。该算法避免了计算大量无效频繁项的支持度,而且进化种群和最优种群同时进化,因此有较快的进化速度。仿真对比实验表明,该算法不但加快了挖掘关联规则的速度,而且还保持了较高的有效关联规则提取率。

论文目录

  • 第一章 绪论
  • 1.1 论文的研究背景及意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 WEB日志挖掘的研究现状
  • 1.3 本文的内容与结构
  • 第二章 WEB日志挖掘
  • 2.1 数据挖掘和WEB挖掘技术
  • 2.1.1 数据挖掘
  • 2.1.2 Web挖掘
  • 2.2 WEB日志挖掘的数据分析
  • 2.2.1 数据源
  • 2.2.2 数据的模型
  • 2.3 数据预处理
  • 2.3.1 数据预处理的必要性
  • 2.3.2 数据清洗
  • 2.3.3 用户与会话识别
  • 2.3.4 网页浏览识别
  • 2.3.5 路径补全
  • 2.4 WEB日志中的事务识别
  • 2.4.1 浏览行为模型
  • 2.4.2 一般事务模型
  • 第三章 组织进化计算
  • 3.1 引言
  • 3.2 组织进化算法
  • 3.2.1 组织的含义
  • 3.2.2 组织进化算子
  • 3.2.3 组织进化算法的描述
  • 3.3 组织协同进化分类算法
  • 3.3.1 引言
  • 3.3.2 组织的定义
  • 3.3.3 组织适应度的计算
  • 3.3.4 组织进化算子
  • 3.3.5 组织协同进化分类算法的描述
  • 第四章 组织协同进化WEB日志挖掘算法
  • 4.1 引言
  • 4.2 WEB日志挖掘数据模型的建立
  • 4.3 组织协同进化WEB日志挖掘算法
  • 4.3.1 算法的设计思想
  • 4.3.2 算法的具体描述
  • 4.4 算法分析
  • 4.4.1 计算复杂度分析
  • 4.4.2 性能分析
  • 4.5 实例仿真
  • 4.6 结论
  • 第五章 基于组织进化的关联规则挖掘算法
  • 5.1 引言
  • 5.2 基于组织进化的关联规则挖掘算法
  • 5.2.1 组织的定义
  • 5.2.2 组织适应度的计算
  • 5.2.3 组织进化算子
  • 5.2.4 算法描述
  • 5.3 仿真试验与结果分析
  • 5.4 结论
  • 第六章 基于组织多层次进化的关联规则挖掘算法
  • 6.1 引言
  • 6.2 基于组织多层次进化的关联规则挖掘算法
  • 6.2.1 算法的思想
  • 6.2.2 算法描述
  • 6.2.3 算法的计算复杂性分析
  • 6.3 仿真试验与结果分析
  • 6.3.1 算法有效性验证
  • 6.3.2 算法可扩展性验证
  • 6.4 结论
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 在读期间撰写(完成)的论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于组织协同进化的Web日志挖掘
    下载Doc文档

    猜你喜欢