论文摘要
随着互联网的发展,Web中提供的信息越来越丰富,但是Web站点及信息数目的增多,导致用户寻找信息困难,这就促进了提供一对一服务的个性化服务系统的出现。个性化服务的实现需要借助Web数据挖掘技术。一般来说,Web挖掘分为四个子任务:资源搜索、数据预处理、模式发现和模式分析。预处理是Web挖掘任务的一个重要阶段,也是工作量较大的一部分,数据预处理的质量直接关系到数据挖掘结果的好坏。Web挖掘的针对性强,对于不同领域,数据预处理、模式发现和模式分析等过程的处理也不完全相同。目前,具体到针对个性化服务的数据预处理研究方面,研究大都停留在对启发式规则的简单应用,而没有结合相关的领域知识。尤其是在会话识别中,一般根据设定的阈值进行“一刀切”式的处理,会话识别的精度不高,从而影响了后续对用户访问习惯的挖掘。本文着重对个性化服务所基于的Web数据挖掘技术中的数据预处理过程进行研究。在研究过程中以中俄经贸合作网个性化服务所需的Web挖掘数据形式为目标,通过改进现有的启发式规则,进行系统建模、数据结构设计、程序流程设计等,使用编程语言最终实现了一套Web日志数据预处理系统。该系统将数据预处理的过程-数据清洗、用户识别、会话识别等功能封装起来,增加了数据预处理过程的可重用性,使得在进行进一步个性化研究时更加快捷、方便。同时,在SQL SERVER形成了一个可供进一步进行个性化服务研究的数据挖掘库。在如何能高效地应对更大数据量下的日志处理,如何在不影响效率的前提下更加精确地识别用户和会话,以及如何在预处理过程中更好地利用好领域知识等方面,需要进一步的研究。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景和意义1.1.1 研究背景1.1.2 研究目的及意义1.2 国内外研究与应用现状1.3 研究内容第二章 基本理论2.1 数据挖掘概述2.1.1 数据挖掘2.1.1.1 数据挖掘概念2.1.1.2 数据挖掘基本过程2.1.2 Web 数据挖掘2.1.2.1 Web 挖掘概念2.1.2.2 Web 挖掘特点2.1.2.3 Web 挖掘分类2.1.2.4 Web 挖掘过程2.2 个性化服务概述2.2.1 个性化服务2.2.1.1 个性化服务概念2.2.1.2 个性化服务系统分类2.2.2 个性化服务与Web 数据挖掘2.3 数据预处理概述2.3.1 数据预处理2.3.2 数据清洗2.3.3 用户识别2.3.4 会话识别第三章 建立预处理模型3.1 数据清洗3.1.1 数据源介绍3.1.2 数据清洗3.1.2.1 自动下载的图形文件、页面样式文件和脚本文件等的记录3.1.2.2 请求访问失败的记录3.1.2.3 各类智能搜索引擎访问的记录3.1.2.4 网站建设者访问的记录3.2 用户识别建模3.3 会话识别建模3.3.1 会话的描述3.3.2 会话识别方法第四章 预处理系统设计与实现4.1 数据结构设计4.2 程序流程设计4.2.1 数据清洗流程4.2.2 用户识别流程4.2.3 会话识别流程4.3 系统实现第五章 预处理系统的应用5.1 环境设定5.2 实验5.3 实验结果分析第六章 结论参考文献附录附录A 数据库建表SQL 脚本附录B 配置文件实例附录C 系统主要代码致谢详细摘要
相关论文文献
标签:个性化服务论文; 数据挖掘论文; 数据预处理论文;