隐式用户兴趣挖掘的研究与实现

隐式用户兴趣挖掘的研究与实现

论文摘要

数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据库最活跃的领域之一。Web挖掘就是将传统的数据挖掘技术应用到Web环境中,从Web中抽取信息或知识的过程。在Web挖掘中,基于Web用户的使用信息挖掘的应用最为广泛,应用领域涉及电子商务、网络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模型是Web使用信息挖掘成功的关键。本文主要关注隐式用户兴趣的挖掘。通过对用户访问文档使用数据挖掘技术,我们可以为用户建立一个兴趣模型。进一步的,用户的兴趣模型可以为用户提供个性化的服务。Web使用信息挖掘是Web挖掘的一种,本文首先对Web使用信息挖掘的发展和主要技术进行介绍,尤其关注用户兴趣模型的建立。通过对比文本分类技术和文本聚类技术在用户兴趣建模的应用,我们将提出一个基于文本聚类的用户兴趣模型。数据预处理是为Web挖掘进行数据预处理的阶段。本文将介绍本阶段的一些主要技术,包括日志的过滤和网页正文提取。接下来我们展示了一种基于流水线技术的新的系统集成方法。研究适用于用户兴趣挖掘的文本聚类技术是本文的核心内容。本文首先调研一些主要的聚类算法并展示了它们的各自特点。通过分析用户兴趣挖掘对文本聚类算法的要求,我们最终选择了BIRCH算法对用户访问文档进行聚类,最终建立用户兴趣模型。最后,我们展示了一个基于Myspace中国的用户日志而开发的用户兴趣挖掘系统,并对我们采用的文本聚类算法进行了一些实验。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的目的和意义
  • 1.1.1 研究目的
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.2.1 国外研究进展
  • 1.2.2 国内研究进展
  • 1.3 课题来源及本文主要研究内容
  • 第2章 Web 数据挖掘技术
  • 2.1 Web 挖掘简介
  • 2.2 Web 使用信息挖掘的基本步骤
  • 2.2.1 数据预处理
  • 2.2.2 模式发现
  • 2.2.3 模式分析
  • 2.3 用户兴趣建模
  • 2.3.1 用户兴趣模型的定义
  • 2.3.2 显式用户兴趣建模与隐式用户兴趣建模
  • 2.3.3 文本分类、聚类技术在用户建模中的应用
  • 2.4 本章小结
  • 第3章 用户兴趣挖掘的数据预处理
  • 3.1 概述
  • 3.2 数据预处理的基本流程
  • 3.3 日志过滤
  • 3.3.1 Web 日志简介
  • 3.3.2 Web 日志分析
  • 3.3.3 日志过滤器的设计与实现
  • 3.4 网页正文提取
  • 3.4.1 网页正文抽取的相关研究
  • 3.4.2 本文采用的正文抽取方法
  • 3.5 数据预处理各模块的流水线式集成
  • 3.6 本章小结
  • 第4章 面向用户兴趣挖掘的聚类方法的研究
  • 4.1 聚类分析
  • 4.1.1 聚类的定义
  • 4.1.2 主要聚类方法
  • 4.2 文本聚类的处理流程
  • 4.3 特征提取及文本表示
  • 4.3.1 特征提取
  • 4.3.2 文本表示
  • 4.4 利用BIRCH 算法进行文本聚类
  • 4.4.1 隐式用户兴趣挖掘中聚类算法的选择依据
  • 4.4.2 DC 的定义
  • 4.4.3 DC-Tree
  • 4.5 本章小结
  • 第5章 面向Myspace 的用户兴趣建模系统及实验
  • 5.1 简介
  • 5.2 系统架构
  • 5.3 聚类实验与分析
  • 5.3.1 实验方案
  • 5.3.2 词向量维度对聚类效果的影响
  • 5.3.3 词向量维度对聚类时间的影响
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    隐式用户兴趣挖掘的研究与实现
    下载Doc文档

    猜你喜欢