中俄经贸合作网个性化服务的数据预处理研究

中俄经贸合作网个性化服务的数据预处理研究

论文摘要

随着互联网的发展,Web中提供的信息越来越丰富,但是Web站点及信息数目的增多,导致用户寻找信息困难,这就促进了提供一对一服务的个性化服务系统的出现。个性化服务的实现需要借助Web数据挖掘技术。一般来说,Web挖掘分为四个子任务:资源搜索、数据预处理、模式发现和模式分析。预处理是Web挖掘任务的一个重要阶段,也是工作量较大的一部分,数据预处理的质量直接关系到数据挖掘结果的好坏。Web挖掘的针对性强,对于不同领域,数据预处理、模式发现和模式分析等过程的处理也不完全相同。目前,具体到针对个性化服务的数据预处理研究方面,研究大都停留在对启发式规则的简单应用,而没有结合相关的领域知识。尤其是在会话识别中,一般根据设定的阈值进行“一刀切”式的处理,会话识别的精度不高,从而影响了后续对用户访问习惯的挖掘。本文着重对个性化服务所基于的Web数据挖掘技术中的数据预处理过程进行研究。在研究过程中以中俄经贸合作网个性化服务所需的Web挖掘数据形式为目标,通过改进现有的启发式规则,进行系统建模、数据结构设计、程序流程设计等,使用编程语言最终实现了一套Web日志数据预处理系统。该系统将数据预处理的过程-数据清洗、用户识别、会话识别等功能封装起来,增加了数据预处理过程的可重用性,使得在进行进一步个性化研究时更加快捷、方便。同时,在SQL SERVER形成了一个可供进一步进行个性化服务研究的数据挖掘库。在如何能高效地应对更大数据量下的日志处理,如何在不影响效率的前提下更加精确地识别用户和会话,以及如何在预处理过程中更好地利用好领域知识等方面,需要进一步的研究。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究目的及意义
  • 1.2 国内外研究与应用现状
  • 1.3 研究内容
  • 第二章 基本理论
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘
  • 2.1.1.1 数据挖掘概念
  • 2.1.1.2 数据挖掘基本过程
  • 2.1.2 Web 数据挖掘
  • 2.1.2.1 Web 挖掘概念
  • 2.1.2.2 Web 挖掘特点
  • 2.1.2.3 Web 挖掘分类
  • 2.1.2.4 Web 挖掘过程
  • 2.2 个性化服务概述
  • 2.2.1 个性化服务
  • 2.2.1.1 个性化服务概念
  • 2.2.1.2 个性化服务系统分类
  • 2.2.2 个性化服务与Web 数据挖掘
  • 2.3 数据预处理概述
  • 2.3.1 数据预处理
  • 2.3.2 数据清洗
  • 2.3.3 用户识别
  • 2.3.4 会话识别
  • 第三章 建立预处理模型
  • 3.1 数据清洗
  • 3.1.1 数据源介绍
  • 3.1.2 数据清洗
  • 3.1.2.1 自动下载的图形文件、页面样式文件和脚本文件等的记录
  • 3.1.2.2 请求访问失败的记录
  • 3.1.2.3 各类智能搜索引擎访问的记录
  • 3.1.2.4 网站建设者访问的记录
  • 3.2 用户识别建模
  • 3.3 会话识别建模
  • 3.3.1 会话的描述
  • 3.3.2 会话识别方法
  • 第四章 预处理系统设计与实现
  • 4.1 数据结构设计
  • 4.2 程序流程设计
  • 4.2.1 数据清洗流程
  • 4.2.2 用户识别流程
  • 4.2.3 会话识别流程
  • 4.3 系统实现
  • 第五章 预处理系统的应用
  • 5.1 环境设定
  • 5.2 实验
  • 5.3 实验结果分析
  • 第六章 结论
  • 参考文献
  • 附录
  • 附录A 数据库建表SQL 脚本
  • 附录B 配置文件实例
  • 附录C 系统主要代码
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  

    中俄经贸合作网个性化服务的数据预处理研究
    下载Doc文档

    猜你喜欢