基于约束数据预处理的Web日志挖掘研究

论文摘要

随着因特网的迅速发展其重要性日益增强,对于每一个用户来说,可利用的信息量也快速增长着。但是在庞大的信息海洋中,如何能够及时地发现有用的信息则变得越来越困难。另外对于每一个网站,如何及时了解站点的组织结构并进行合理的改进也很困难。Web日志挖掘技术旨在解决这个问题,通过对日志记录的挖掘,发现用户访问页面的模式,从而进一步分析和研究日志记录中的规律,以期改进站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。日志预处理是Web日志挖掘过程中关键的一个部分。是对原始的日志文件中包含的不完整的、冗余的、错误的数据进行处理。本文对数据预处理过程中涉及到的关键问题和技术进行详细的剖析和论述。针对Web日志挖掘过程中的日志的冗余问题,研究重点主要集中于在web日志挖掘过程中如何对日志数据库中的日志进行预处理,在不影响挖掘结果的基础上通过缩小日志范围来提高日志挖掘过程的效率。针对预处理过程存在的主要问题,引入了约束的概念,并根据具体应用提出了相应的解决方案。最后以日志挖掘系统在电子资源使用评价的应用上验证提出的方案。具体研究工作有以下几方面: 1.提出了一种基于实时任务的日志挖掘过程。根据挖掘过程中可实现的实时任务,在日志准备阶段增加了基于约束的“日志筛选”步骤。2.在Web日志挖掘的数据预处理阶段,提出了一种新的会话识别方法--基于URL重写的会话识别方法。3.在福州大学访问电子文献数据库（EI美国工程索引）的日志基础上,设计开发了一个Web日志挖掘系统。

论文目录

中文摘要

ABSTRACT

第一章绪论

1.1 引言

1.2 日志挖掘技术存在的问题

1.3 国内外研究现状分析

1.3.1 Web 日志挖掘技术

1.3.2 数据预处理技术研究现状

1.4 本文的内容和主要工作

1.5 论文结构

第二章 WEB 日志挖掘概述

2.1 WEB 数据挖掘技术

2.2 WEB 数据挖掘的分类

2.2.1 Web 内容挖掘

2.2.2 Web 结构挖掘

2.2.3 Web 日志挖掘

2.3 WEB 日志挖掘技术

2.3.1 基本概念和术语

2.3.2 日志的说明

2.3.3 Web 日志挖掘的过程

2.3.4 Web 日志挖掘的应用

2.4 数据预处理

2.5 本章小结

第三章基于实时任务的日志挖掘过程

3.1 日志采集

3.2 日志预处理

3.2.1 日志预处理的重要性

3.2.2 问题的形式化描述

3.2.3 日志清洗

3.2.4 用户识别

3.2.5 会话识别

3.2.6 基于URL 重写的会话识别

3.3 模式发现

3.3.1 聚类和分类

3.3.2 关联规则挖掘

3.3.3 序列模式挖掘

3.4 模式分析

3.5 本章小结

第四章基于约束的日志筛选方法

4.1 约束的定义、分类与作用

4.1.1 约束的定义

4.1.2 约束的分类

4.1.3 约束的作用

4.2 基于约束的日志筛选方法及实现

4.2.1 预处理过程采用的约束

4.2.2 日志筛选的实现

4.3 基于任务约束的日志预处理

4.4 基于用户行为约束的日志预处理

4.5 本章小结

第五章 WUM 在电子资源使用评价上的应用

5.1 项目背景

5.1.1 电子资源使用评价的相关研究

5.1.2 功能需求

5.2 系统的设计与实现

5.2.1 系统的体系结构

5.2.2 日志的采集

5.2.3 日志的清理

5.2.4 根据任务约束条件筛选数据

5.2.5 非法用户的检测

5.3 系统结果分析

5.3.1 EI 使用情况的统计结果

5.3.2 用户使用习惯的分析

5.4 系统的评价

5.4.1 日志收集的准确性分析

5.4.2 日志筛选过程的评价

5.4.3 基于URL 重写的会话识别方法的评价

5.4.4 非法用户行为检测算法的评价

5.5 本章小结

结论

1 内容总结

2 展望

致谢

参考文献

读研期间的科研工作及发表的论文

基于约束数据预处理的Web日志挖掘研究

论文摘要

论文目录

相关论文文献

猜你喜欢