论文摘要
网络在人们的日常生活中扮演着越来越重要的角色,以用户的行为为依据来对网站进行改进,提高网站可用性,有着广泛的研究和应用空间。本文研究基于Markov链的Web访问序列模式挖掘算法,通过对日志文件挖掘分析发现用户的行为模式,预测用户对网页的访问模式,从而针对用户群提供个性化服务。本文通过对分析网站可用性及Web日志挖掘现状的基础上,提出了一种基于Markov链和改进的PrefixSpan序列模式挖掘算法。论文首先对序列模式挖掘的经典挖掘算法和研究现状进行了深入调查分析,讨论了序列模式挖掘算法用于Web挖掘存在的问题。然后,论文在详细讨论Markov链的性质及应用的基础上,提出了基于Markov链的Web访问分析方法。在此基础上,论文进一步研究了基于Markov链的改进序列模式挖掘算法,算法通过Markov的正向一步、逆向转移概率矩阵来构造序列数据库,并通过隔层投影和伪投影相结合的PrefixSpan算法对此数据库进行挖掘。论文最后对算法的性能进行了分析,并通过实例验证了算法的有效性。与经典的序列模式挖掘算法相比,论文提出的算法虽然计算准确度差一点,但是在效率上有较大的优势,从而能够更好地为网站特定用户群提供个性化服务,提高网站的可用性。
论文目录
摘要ABSTRACT目录第一章 绪论1.1 研究背景与意义1.2 国内外研究水平与现状1.2.1 可用性的含义1.2.2 网站可用性1.2.3 Web日志挖掘1.3 研究内容1.4 论文组织结构第二章 序列模式挖掘2.1 概述2.2 经典序列模式挖掘算法2.2.1 序列模式挖掘的一般算法2.2.2 基于正则表达式约束的算法2.2.3 多维序列模式挖掘算法2.2.4 增式序列模式挖掘算法2.2.5 其它扩展研究2.3 序列模式挖掘的研究与应用2.4 本章小结第三章 基于 Markov链的 Web访问分析3.1 Web访问分析问题描述3.2 Markov链3.2.1 Markov链基本概念3.2.2 Markov链性质3.2.3 Markov链应用3.3 基于 Markov链的 Web访问分析3.3.1 Markov访问分析的基本概念3.3.2 Markov的分析过程3.4 本章小结第四章 基于 MarKov链的Web访问序列挖掘算法4.1 引言4.2 GSP算法序列挖掘过程4.3 PrefixSpan序列模式挖掘算法4.3.1 PrefixSpan算法描述4.3.2 PrefixSpan算法存在的问题4.4 PrefixSpan算法改进4.4.1 隔层投影4.4.2 伪投影方法4.4.3 算法的结合4.5 基于 Markov链的序列模式挖掘算法4.6 本章小结第五章 算法性能的评价5.1 性能评价指标5.1.1 准确度评价指标5.1.2 时间和空间复杂度5.2 算法性能比较5.2.1 时间复杂度比较5.2.2 空间复杂度比较5.2.3 准确度分析5.2.4 结论5.3 网站应用实例5.3.1 网站访问数据预处理5.3.2 算法应用过程描述5.3.3 网站可用性分析及改造5.4 本章小结第六章 总结与展望6.1 研究工作总结6.2 后期工作展望参考文献致谢攻读学位期间公开发表的论文
相关论文文献
标签:可用性论文; 序列模式挖掘论文; 隔层投影论文; 伪投影论文;