论文摘要
Web日志挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户的行为,最终可以指导企业明智的进行市场决策,更好的为用户提供个性化的服务。本文主要采用人工免疫的思想进行聚类,从服务器日志文件中提取出用户访问模式,为用户提供个性化服务。本文通过实际操作,选取南昌大学人文学院的日志为数据源,以Weka软件为平台,研究了日志挖掘技术及关键算法,详细介绍了数据预处理的过程,同时用实验加以实现。在研究聚类算法的基础上,针对当前传统聚类算法中所存在的问题,根据免疫系统的原理及Web日志数据的特性,探讨采用人工免疫思想进行Web日志的聚类分析。该算法运用免疫系统自身的自组织、自适应特性,由克隆选择原理和免疫网络原理相结合,同时,为每一个抗体添加类别标记,让抗体充分学习到抗原的特征,形成能代表抗原的记忆抗体,使得最后得到的抗体集合即为聚类结果,从而实现聚类。通过实验的验证与比较,证明了该算法的可行性及精确性,在理论和实践上都有着极为重要的研究意义。最后,通过聚类结果分析,从而为网站管理者提供网站结构修改的意见,更好的为用户提供个性化服务。
论文目录
摘要ABSTRACT第1章 绪论1.1 论文的选题背景和研究意义1.2 Web挖掘研究综述1.2.1 Web挖掘技术1.2.2 国内外Web日志研究现状1.3 人工免疫系统研究概述1.4 本文的工作内容和组织第2章 Web日志挖掘的研究2.1 Web日志挖掘的提出2.2 Web日志文件介绍及其基本术语2.2.1 Web日志文件的基本术语2.2.2 Web日志介绍2.3 Web日志挖掘的过程2.3.1 数据采集2.3.2 数据预处理2.3.3 模式发现2.3.4 模式分析2.4 Web日志挖掘的应用2.5 WEKA的介绍2.6 本章小结第3章 基于人工免疫系统的聚类算法3.1 聚类分析3.1.1 聚类分析的概念3.1.2 聚类分析的数学模型3.1.3 聚类分析的主要方法3.2 人工免疫系统概述3.3 基于群体的免疫聚类算法3.3.1 基于免疫进化的聚类算法3.3.2 基于克隆选择的聚类算法3.4 基于人工免疫网络的聚类算法3.4.1 基于进化人工免疫网络的聚类算法3.4.2 资源有限网络(RLAIS)3.5 本章小结第4章 基于克隆选择和免疫网络的聚类算法4.1 问题的提出4.2 基于克隆选择和免疫网络的聚类算法4.2.1 算法的基本思想4.2.2 算法参数说明4.2.3 算法操作流程4.2.4 算法分析4.3 基于克隆选择和免疫网络的仿真测试试验4.3.1 准确率测试4.3.2 时间效率测试4.4 本章小结第5章 人工免疫系统在Web日志挖掘中的应用5.1 数据预处理5.1.1 初始文件导入5.1.2 数据清洗5.1.3 用户识别5.1.4 会话识别5.1.5 文件格式转换5.2 基于人工免疫的聚类算法在Web日志挖掘中的应用5.2.1 添加标注5.2.2 算法的封装5.2.3 初始参数设置5.3 实验结果5.4 影响试验关键参数分析5.5 模式的使用5.6 本章小结第6章 结论6.1 总结6.2 进一步的工作展望致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:日志挖掘论文; 聚类论文; 人工免疫系统论文; 克隆选择原理论文; 免疫网络原理论文;