论文摘要
随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。Web网站无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。本文在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对我校网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是:首先对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点,包括数据清理、会话识别、用户识别和片断识别,并尝试将其用到我校网站的挖掘之中;其次对基于FP-tree的关联规则挖掘算法进行了研究,然后将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议;最后对路径遍历模式挖掘进行了研究,将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议。