论文摘要
近年来,国内有大量的基于J2EE技术的网站系统投入运营,但是大部分的网站系统在设计和开发的过程中没有考虑用户可能因为网站信息资源过多而找不到信息的问题,同时也造成了例如像Tomcat等Web服务器所记录的日志信息没有得到充分利用的“资源浪费”问题。为了能够整合和解决这些问题,本文研究了Web使用挖掘理论,以Tomcat服务器的Web日志记录做为研究对象,对Web使用挖掘过程进行系统性分析和研究,在网站系统的设计和开发阶段引入Web日志挖掘技术为用户提供个性化服务,以达到提高用户获取信息质量的目的。本文主要是围绕个性化系统原型的设计与实现工作展开的,取得以下的研究成果:1)在总结国内外关于Web日志挖掘的研究现状的基础上,探讨了Web日志挖掘的数据预处理的相关问题,对Web日志数据预处理的过程:数据清理、用户识别、会话识别、路径补全和帧页面过滤等五个部分进行了深入的研究和论述。在数据预处理的实现上设计了适合本文所设计系统的具体方案,并且对用户识别和路径补全的方法进行了适当的改进,简化预处理的难度,以提高编码实现的可行性。2)在Web日志预处理的基础上,设计了一套基于Tomcat日志挖掘的个性化系统的设计方案。方案分为总体设计和详细设计。总体设计对个性化系统的构架进行了部署和规划,按照实际功能将系统分划为在线和离线两个部分。离线部分做为系统的核心,根据数据在系统中各个任务阶段的功能和形态又将其划分成了数据准备模块、数据挖掘模块和可视化模块。数据准备模块主要完成数据的收集和预处理任务;数据挖掘模块主要完成用户模型算法和挖掘模型算法的存储、数据挖掘和挖掘结果存储等任务;可视化模块主要完成对用户进行个性化的数据匹配和结果展示等任务。详细设计对这三个模块的具体实现方案做出了详尽的论述,给出了本文具体实施系统原型的细节和方法。3)按照本文设计的设计方案,利用Java程序设计语言编写代码,对日志预处理方法和挖掘算法进行了实现,并对实验日志数据进行了实验和分析,然后采用JSP动态页面技术和AJAX技术迅速部署和实现了一套Web新闻信息管理系统,最后根据本文设计的个性化系统原型的实施方案,将日志挖掘的代码和成果无缝集成到该系统中,完成了本文个性化原型的实现任务,证明了本文设计方案的可行性和有效性。