基于XML的Web内容挖掘技术研究

基于XML的Web内容挖掘技术研究

论文摘要

自从Internet诞生以来,互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点,Web数据挖掘也由此应运而生。Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档积累的集合,包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。由于现行的网络环境以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W3C开发的XML(eXtensible Markup Language)可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。首先,本文详细阐述了基于XML语言的Web数据挖掘技术。通过介绍Web数据挖掘和XML的基本知识,分析了XML语言在Web数据挖掘中的优势,在理论上提出了设计思想、建立了系统模型。其次,本文通过三种途径建立用户模型,将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的Web内容挖掘系统(WCMS),讨论了WCMS的关键技术及实现,并进行了科技文献分类查询的系统应用。WCMS主要包含了Web文本预处理和Web文本挖掘两个功能,利用权威页面确定、XML以及特征提取等技术逐步地缩小数据量并得到能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。本文重点研究WCMS系统的Web文本预处理过程和方法。提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响。因此,Web文本预处理阶段是至关重要的,需要进行详细而完善的研究。最后,对本文的研究和设计工作进行总结,并指出今后需要进一步完成的工作和待解决的问题。

论文目录

  • 摘要
  • SUMMARY
  • 第1章 绪论
  • 1.1 课题研究背景与意义
  • 1.2 国内外研究现状
  • 1.3 本文研究内容与组织结构
  • 第2章 Web数据挖掘技术
  • 2.1 Web数据挖掘的提出
  • 2.2 Web数据挖掘的定义与分类
  • 2.3 Web数据挖掘与传统数据挖掘的区别
  • 第3章 XML技术
  • 3.1 XML的产生与发展
  • 3.2 XML的主要特点
  • 3.3 XML与HTML比较
  • 3.4 XML的应用技术
  • 3.4.1 XML架构
  • 3.4.2 XML表示方式
  • 3.4.3 XML文档的解析
  • 第4章 基于XML的Web数据挖掘技术
  • 4.1 Web数据挖掘的难点
  • 4.2 XML技术在Web挖掘中的应用
  • 4.2.1 Web数据挖掘的系统逻辑架构
  • 4.2.2 XML技术在Web挖掘中的设计思想
  • 4.2.3 基于XML的Web数据挖掘系统模型
  • 第5章 基于XML的Web内容挖掘系统设计与实现
  • 5.1 构建用户模型
  • 5.2 系统体系结构
  • 5.3 系统数据挖掘流程
  • 5.4 系统的关键技术及实现
  • 5.4.1 权威Web页的确定
  • 5.4.2 XML数据的转换
  • 5.4.3 Web文本处理
  • 5.4.4 特征抽取和Web文本表示
  • 5.4.5 XML文档的过滤
  • 5.4.6 对XML数据进行数据挖掘
  • 5.5 系统应用及分析
  • 第6章 总结与展望
  • 6.1 课题总结
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于XML的Web内容挖掘技术研究
    下载Doc文档

    猜你喜欢