论文摘要
数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据库最活跃的领域之一。Web挖掘就是将传统的数据挖掘技术应用到Web环境中,从Web中抽取信息或知识的过程。在Web挖掘中,基于Web用户的使用信息挖掘的应用最为广泛,应用领域涉及电子商务、网络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模型是Web使用信息挖掘成功的关键。本文主要关注隐式用户兴趣的挖掘。通过对用户访问文档使用数据挖掘技术,我们可以为用户建立一个兴趣模型。进一步的,用户的兴趣模型可以为用户提供个性化的服务。Web使用信息挖掘是Web挖掘的一种,本文首先对Web使用信息挖掘的发展和主要技术进行介绍,尤其关注用户兴趣模型的建立。通过对比文本分类技术和文本聚类技术在用户兴趣建模的应用,我们将提出一个基于文本聚类的用户兴趣模型。数据预处理是为Web挖掘进行数据预处理的阶段。本文将介绍本阶段的一些主要技术,包括日志的过滤和网页正文提取。接下来我们展示了一种基于流水线技术的新的系统集成方法。研究适用于用户兴趣挖掘的文本聚类技术是本文的核心内容。本文首先调研一些主要的聚类算法并展示了它们的各自特点。通过分析用户兴趣挖掘对文本聚类算法的要求,我们最终选择了BIRCH算法对用户访问文档进行聚类,最终建立用户兴趣模型。最后,我们展示了一个基于Myspace中国的用户日志而开发的用户兴趣挖掘系统,并对我们采用的文本聚类算法进行了一些实验。
论文目录
摘要Abstract第1章 绪论1.1 课题的目的和意义1.1.1 研究目的1.1.2 研究意义1.2 国内外研究现状1.2.1 国外研究进展1.2.2 国内研究进展1.3 课题来源及本文主要研究内容第2章 Web 数据挖掘技术2.1 Web 挖掘简介2.2 Web 使用信息挖掘的基本步骤2.2.1 数据预处理2.2.2 模式发现2.2.3 模式分析2.3 用户兴趣建模2.3.1 用户兴趣模型的定义2.3.2 显式用户兴趣建模与隐式用户兴趣建模2.3.3 文本分类、聚类技术在用户建模中的应用2.4 本章小结第3章 用户兴趣挖掘的数据预处理3.1 概述3.2 数据预处理的基本流程3.3 日志过滤3.3.1 Web 日志简介3.3.2 Web 日志分析3.3.3 日志过滤器的设计与实现3.4 网页正文提取3.4.1 网页正文抽取的相关研究3.4.2 本文采用的正文抽取方法3.5 数据预处理各模块的流水线式集成3.6 本章小结第4章 面向用户兴趣挖掘的聚类方法的研究4.1 聚类分析4.1.1 聚类的定义4.1.2 主要聚类方法4.2 文本聚类的处理流程4.3 特征提取及文本表示4.3.1 特征提取4.3.2 文本表示4.4 利用BIRCH 算法进行文本聚类4.4.1 隐式用户兴趣挖掘中聚类算法的选择依据4.4.2 DC 的定义4.4.3 DC-Tree4.5 本章小结第5章 面向Myspace 的用户兴趣建模系统及实验5.1 简介5.2 系统架构5.3 聚类实验与分析5.3.1 实验方案5.3.2 词向量维度对聚类效果的影响5.3.3 词向量维度对聚类时间的影响5.4 本章小结结论参考文献致谢
相关论文文献
标签:挖掘论文; 使用信息挖掘论文; 用户兴趣模型论文; 文本聚类论文;