论文摘要
自从Internet诞生以来,互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点,Web数据挖掘也由此应运而生。Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档积累的集合,包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。由于现行的网络环境以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W3C开发的XML(eXtensible Markup Language)可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。首先,本文详细阐述了基于XML语言的Web数据挖掘技术。通过介绍Web数据挖掘和XML的基本知识,分析了XML语言在Web数据挖掘中的优势,在理论上提出了设计思想、建立了系统模型。其次,本文通过三种途径建立用户模型,将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的Web内容挖掘系统(WCMS),讨论了WCMS的关键技术及实现,并进行了科技文献分类查询的系统应用。WCMS主要包含了Web文本预处理和Web文本挖掘两个功能,利用权威页面确定、XML以及特征提取等技术逐步地缩小数据量并得到能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。本文重点研究WCMS系统的Web文本预处理过程和方法。提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响。因此,Web文本预处理阶段是至关重要的,需要进行详细而完善的研究。最后,对本文的研究和设计工作进行总结,并指出今后需要进一步完成的工作和待解决的问题。