论文摘要
数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识的过程。互联网的发展与快速普及,使得人类真正体会到了数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新技术和自动工具的帮助,将这巨大的数据资源转换为有用的知识与信息资源。这种技术应不仅能获得数据的表层信息,而且要能在对数据充分理解的基础上获得数据属性的内在关系和隐含信息,即能获得重要的知识。Web挖掘技术为把这种海量的数据转化成有用的信息和知识提供了强有力的手段。本文主要研究如何利用Web挖掘分析日志得到用户对网站的访问模式,据此提出一种能帮助站点所有新老用户提高访问效率的推荐技术,完善站点拓扑结构,以提高站点访问效率。为此,本文主要做了以下几个方面的研究工作:1)为了从Web日志文件内容向各种挖掘算法提供准确的数据源,对Web日志挖掘数据进行预处理工作,并对其中的问题进行了讨论。2)为了提高Web日志预处理质量,讨论了提取网站拓扑结构信息的技术。3)结合Apriori算法,对侯选序列生成进行研究,采用了一种基于图结构的侯选序列生成的算法SCG。4)设计并实现了一个Web日志挖掘原型系统,从而验证了SCG算法可行性和适用性。本文应用Web日志挖掘技术从访问日志中提取用户访问模式,将挖掘到的知识转变为站点的智能。用户访问模式的研究有利于提高站点信息服务质量,促进智能信息处理领域的发展,在理论和实践上都有重要的研究意义。
论文目录
摘要ABSTRACT1 绪论1.1 问题的提出1.2 研究现状1.3 论文研究的主要内容2 相关概念和技术2.1 数据挖掘概述2.1.1 数据挖掘和知识发现2.1.2 数据挖掘模式2.2 WEB 挖掘的定义2.3 WEB 挖掘的分类2.3.1 Web 内容挖掘2.3.2 Web 结构挖掘2.3.3 Web 使用挖掘2.4 WEB 挖掘的特点2.5 WEB 挖掘面临的挑战2.6 本章小结3 WEB 日志挖掘与数据预处理3.1 WEB 日志挖掘的数据准备3.1.1 Web 数据源3.1.2 数据建模3.2 WEB 日志预处理3.2.1 数据清理3.2.2 用户识别3.2.3 会话识别3.2.4 事务识别3.2.5 格式化3.3 实验分析3.4 本章小结4 用户频繁访问模式的挖掘4.1 基本概念4.1.1 关联规则4.1.2 频繁访问模式4.2 类APRIORI 算法4.2.1 Apriori 算法基本思想与算法分析4.2.2 类Apriori 算法4.3 基于图结构候选集生成算法SCG4.3.1 算法的思想及实现4.3.2 程序框图4.4 实验分析4.5 本章小结5 原型系统设计与实现5.1 系统功能结构设计5.2 系统的开发环境5.3 系统实现5.3.1 主界面5.3.2 数据预处理5.3.3 数据挖掘5.3.4 挖掘结果及分析5.4 本章小结6 总结和展望6.1 总结6.2 将来的工作致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:数据挖掘论文; 数据预处理论文; 频繁项集论文; 日志挖掘论文; 用户访问模式论文;