论文摘要
随着因特网的迅速发展其重要性日益增强,对于每一个用户来说,可利用的信息量也快速增长着。但是在庞大的信息海洋中,如何能够及时地发现有用的信息则变得越来越困难。另外对于每一个网站,如何及时了解站点的组织结构并进行合理的改进也很困难。Web日志挖掘技术旨在解决这个问题,通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。日志预处理是Web日志挖掘过程中关键的一个部分。是对原始的日志文件中包含的不完整的、冗余的、错误的数据进行处理。本文对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述。针对Web日志挖掘过程中的日志的冗余问题,研究重点主要集中于在web日志挖掘过程中如何对日志数据库中的日志进行预处理,在不影响挖掘结果的基础上通过缩小日志范围来提高日志挖掘过程的效率。针对预处理过程存在的主要问题,引入了约束的概念,并根据具体应用提出了相应的解决方案。最后以日志挖掘系统在电子资源使用评价的应用上验证提出的方案。具体研究工作有以下几方面: 1.提出了一种基于实时任务的日志挖掘过程。根据挖掘过程中可实现的实时任务,在日志准备阶段增加了基于约束的“日志筛选”步骤。2.在Web日志挖掘的数据预处理阶段,提出了一种新的会话识别方法--基于URL重写的会话识别方法。3.在福州大学访问电子文献数据库(EI美国工程索引)的日志基础上,设计开发了一个Web日志挖掘系统。
论文目录
中文摘要ABSTRACT目录第一章 绪论1.1 引言1.2 日志挖掘技术存在的问题1.3 国内外研究现状分析1.3.1 Web 日志挖掘技术1.3.2 数据预处理技术研究现状1.4 本文的内容和主要工作1.5 论文结构第二章 WEB 日志挖掘概述2.1 WEB 数据挖掘技术2.2 WEB 数据挖掘的分类2.2.1 Web 内容挖掘2.2.2 Web 结构挖掘2.2.3 Web 日志挖掘2.3 WEB 日志挖掘技术2.3.1 基本概念和术语2.3.2 日志的说明2.3.3 Web 日志挖掘的过程2.3.4 Web 日志挖掘的应用2.4 数据预处理2.5 本章小结第三章 基于实时任务的日志挖掘过程3.1 日志采集3.2 日志预处理3.2.1 日志预处理的重要性3.2.2 问题的形式化描述3.2.3 日志清洗3.2.4 用户识别3.2.5 会话识别3.2.6 基于URL 重写的会话识别3.3 模式发现3.3.1 聚类和分类3.3.2 关联规则挖掘3.3.3 序列模式挖掘3.4 模式分析3.5 本章小结第四章 基于约束的日志筛选方法4.1 约束的定义、分类与作用4.1.1 约束的定义4.1.2 约束的分类4.1.3 约束的作用4.2 基于约束的日志筛选方法及实现4.2.1 预处理过程采用的约束4.2.2 日志筛选的实现4.3 基于任务约束的日志预处理4.4 基于用户行为约束的日志预处理4.5 本章小结第五章 WUM 在电子资源使用评价上的应用5.1 项目背景5.1.1 电子资源使用评价的相关研究5.1.2 功能需求5.2 系统的设计与实现5.2.1 系统的体系结构5.2.2 日志的采集5.2.3 日志的清理5.2.4 根据任务约束条件筛选数据5.2.5 非法用户的检测5.3 系统结果分析5.3.1 EI 使用情况的统计结果5.3.2 用户使用习惯的分析5.4 系统的评价5.4.1 日志收集的准确性分析5.4.2 日志筛选过程的评价5.4.3 基于URL 重写的会话识别方法的评价5.4.4 非法用户行为检测算法的评价5.5 本章小结结论1 内容总结2 展望致谢参考文献读研期间的科研工作及发表的论文
相关论文文献
标签:日志挖掘论文; 约束论文; 日志预处理论文; 会话识别论文;