WEB文本挖掘的聚类分析

WEB文本挖掘的聚类分析

论文题目: WEB文本挖掘的聚类分析

论文类型: 硕士论文

论文专业: 软件工程

作者: 张兆中

导师: 王向荣,周厚春

关键词: 数据挖掘,文本挖掘,聚类,数据集,贝叶斯方法

文献来源: 山东科技大学

发表年度: 2005

论文摘要: 数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么我们就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。 文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。 通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主要手段研究文本聚类。同时研究过程中吸纳了信息论中的一些思想。在大量的实验基础上,提出了两种基于贝叶斯理论和信息论思想的聚类算法。通过数据测试和不同算法的对比分析,算法显示出了较好的性能。

论文目录:

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容

2 聚类分析研究

2.1 数据表示

2.2 聚类的标准或目标函数

2.3 聚类的搜索算法

2.4 常见聚类算法

3 文本挖掘中聚类分析

3.1 文本挖掘

3.2 WEB挖掘

3.3 文本聚类中的数据表示方法

3.4 文本聚类中的常用算法及分析

3.5 层次聚类算法的抽象描述

3.6 层次贝叶斯聚类算法

4 信息论与聚类分析

4.1 信息论的基本观点

4.2 信息论的思想在聚类分析中的应用

4.3 文本聚类中的平均信息量模型

4.4 平均信息量模型的概率解释

4.5 算法复杂度分析

4.6 平均信息量模型的局限及改进

5 试验设计与结果分析

5.1 测试数据说明

5.2 试验结果的评价(平均准确率)

5.3 测试结果及分析

致谢

参考文献

发布时间: 2005-09-14

参考文献

  • [1].基于Web的问答系统答案抽取的研究[D]. 唐娟.西华大学2007
  • [2].Web使用挖掘在网络学习平台中的应用研究[D]. 李新金.浙江师范大学2010
  • [3].基于Web挖掘与信息分类的个性化搜索引擎研究[D]. 欧建斌.暨南大学2010
  • [4].Web数据挖掘在电子商务中的应用研究[D]. 王丹.山东科技大学2006
  • [5].基于Web的多媒体数据挖掘的研究[D]. 徐龙玺.山东师范大学2004
  • [6].Web数据挖掘在个性化服务中的应用研究[D]. 崔广治.河北大学2010
  • [7].面向Web内容的离群数据挖掘方法研究[D]. 于博.大连理工大学2010
  • [8].基于Web的数据挖掘与网络个性化信息服务研究[D]. 杜鹏飞.中国石油大学2010
  • [9].基于Web技术的数据仓库研究与设计[D]. 张开松.武汉理工大学2005
  • [10].WEB用户访问序列模式挖掘[D]. 祝效普.天津大学2005

相关论文

  • [1].聚类分析在Web文本挖掘中的应用研究[D]. 贾丙静.辽宁工程技术大学2007
  • [2].WEB文本挖掘系统[D]. 管敏杰.浙江工商大学2007
  • [3].基于Web文本挖掘的SVM网页文本分类研究[D]. 刘静.东北财经大学2006
  • [4].Web文本挖掘中的文本分类研究[D]. 唐剑波.湖南大学2007
  • [5].基于Web的文本挖掘技术的研究[D]. 刘岩.哈尔滨工程大学2004
  • [6].聚类分析及其在文本挖掘中的应用[D]. 李健.西安电子科技大学2005
  • [7].Web文本挖掘的研究[D]. 王娜.兰州理工大学2005
  • [8].聚类分析研究及其在文本挖掘中的应用[D]. 杨占华.西南交通大学2006
  • [9].中文Web文本挖掘的若干关键技术研究及其实现[D]. 苏芳仲.福州大学2006
  • [10].Web文本挖掘研究与实现[D]. 易高翔.武汉科技大学2004

标签:;  ;  ;  ;  ;  

WEB文本挖掘的聚类分析
下载Doc文档

猜你喜欢