基于免疫网络的文本挖掘方法研究

基于免疫网络的文本挖掘方法研究

论文摘要

随着Internet的飞速发展及其在全世界范围内的普及和应用,网络上存储了海量的信息资源,这些信息资源数量与日俱增,尤其以Web页面为载体的文本数据呈爆炸式的增长并越来越成为人们关注的主要信息来源。如何从数量庞大的文本信息中快速有效地发现知识已经成为人们迫切需要解决的问题;近年来针对文本数据的挖掘已经成为人们重点研究的课题,其中对文本的聚类研究引起了广泛的重视。本文首先介绍了文本挖掘的研究背景和发展现状,对文本挖掘中的文本聚类算法的相关技术进行讨论,针对文本表示模型、特征词提取、特征向量降维及文本相似度的计算等与文本聚类密切相关的关键技术进行了描述与分析,在次基础上展开文本聚类算法的研究。实现文本聚类算法的动态适应性是当前文本聚类算法研究的重要方向之一。本文在研究人工免疫网络(aiNet)模型的基础上,结合文本聚类的特点,对aiNet算法进行改进,实现了基于aiNet的文本聚类算法,为实现文本的动态聚类提供了一种新的解决思路。为克服基于aiNet的文本聚类算法在处理高维数据时性能下降的缺点,本文研究了免疫遗传机制和k-means聚类算法,将免疫遗传引入k-means算法优化聚类中心,提出一种基于免疫遗传的k-means文本聚类算法IGAK,有效避免了经典k-means算法易受初始聚类中心选择不当的影响而陷入局部最优的缺点;在此基础上设计了一种基于聚类中心的虚拟坐标映射机制的文本表示模型,实现了文本向量模型的降维技术;结合该虚拟坐标向量模型,定义了抗体、抗原、亲和力、相似度等概念,提出一种融合免疫遗传k-means和aiNet的两阶段文本聚类算法IGAK-aiNet。最后,设计并实现了一种文本聚类模型,给出了模型的主要模块设计、必要的数据结构和部分代码;应用相关文本数据进行了对比实验,实验结果表明新算法具有较强的动态适应性,改善了聚类质量。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 文本聚类研究现状
  • 1.3 本文主要研究内容
  • 1.4 本文组织结构
  • 第二章 文本聚类技术综述
  • 2.1 聚类分析概述
  • 2.1.1 聚类分析的应用
  • 2.1.2 传统的聚类方法
  • 2.2 文本聚类相关理论
  • 2.2.1 文本聚类的特点
  • 2.2.2 评价文本聚类算优劣性的标准
  • 2.3 文本聚类技术综述
  • 2.3.1 文档的表示模型
  • 2.3.2 文档特征项提取
  • 2.3.3 文本特征向量降维
  • 2.3.4 文本相似度计算
  • 2.4 本章小结
  • 第三章 基于人工免疫网络的文本聚类研究
  • 3.1 人工免疫网络聚类研究
  • 3.1.1 网络模型定义与描述
  • 3.1.2 传统的aiNet 模型算法
  • 3.2 改进的AINET 聚类算法
  • 3.2.1 网络构成规则
  • 3.2.2 自然选择机制
  • 3.3 改进的AINET 文本聚类算法
  • 3.3.1 算法描述
  • 3.3.2 性能测试实验
  • 3.4 本章小结
  • 第四章 基于免疫遗传K-MEANS 和AINET 的两阶段文本聚类算法
  • 4.1 免疫遗传K-MEANS 文本聚类算法
  • 4.1.1 K-Means 聚类算法介绍
  • 4.1.2 免疫遗传算法
  • 4.2 基于免疫遗传的K-MEANS 文本聚类算法IGAK
  • 4.2.1 相关定义
  • 4.2.2 免疫遗传k-means 文本聚类算法IGAK 描述
  • 4.3 基于IGAK 和 AINET 的两阶段文本聚类算法(IGAK-AINET)
  • 4.4 本章小结
  • 第五章 基于IGAK-AINET 的文本聚类模型
  • 5.1 功能模块设计
  • 5.1.1 预处理模块
  • 5.1.2 特征提取模块及词频计算模块
  • 5.1.3 IGAK-aiNet 聚类模块
  • 5.2 评测的标准及测试数据和环境
  • 5.2.1 评测的标准
  • 5.2.2 测试所需要的数据准备
  • 5.2.3 测试环境
  • 5.3 实验及结果分析
  • 5.3.1 IGAK-aiNet 文本聚类的可行性和自组织性实验
  • 5.3.2 k 值的选择对聚类结果的影响实验
  • 5.4 本章小结
  • 总结与展望
  • 参考文献
  • 致谢
  • 附录(攻读硕士期间的科研情况)
  • 相关论文文献

    • [1].文本聚类算法综述[J]. 现代计算机(专业版) 2014(03)
    • [2].基于频繁词序列的层次文本聚类算法研究[J]. 计算机时代 2009(04)
    • [3].一种改进的基于潜在语义索引的文本聚类算法[J]. 计算机与现代化 2014(07)
    • [4].一种改进的文本聚类算法[J]. 陕西科技大学学报(自然科学版) 2008(06)
    • [5].加权模糊C均值文本聚类算法研究及仿真[J]. 计算机仿真 2011(05)
    • [6].一种提高文本聚类算法质量的方法[J]. 同济大学学报(自然科学版) 2008(12)
    • [7].一种改进的人工免疫文本聚类算法[J]. 系统仿真学报 2010(01)
    • [8].基于非负矩阵分解的双重约束文本聚类算法[J]. 计算机工程 2011(24)
    • [9].基于群体智能的半结构化藏文文本聚类算法[J]. 模式识别与人工智能 2014(07)
    • [10].一种高效中文文本聚类算法[J]. 计算机工程与科学 2013(02)
    • [11].改进性的文本聚类算法研究[J]. 长江大学学报(自然科学版)理工卷 2009(02)
    • [12].自适应半监督模糊文本聚类算法[J]. 机械工程与自动化 2008(05)
    • [13].关于文本挖掘中文本聚类算法的研究[J]. 福建电脑 2009(04)
    • [14].试论短文本聚类算法在微博的应用[J]. 科技致富向导 2014(09)
    • [15].基于复杂网络理论的中文文本聚类算法[J]. 电子测试 2014(03)
    • [16].基于后缀树的文本聚类算法[J]. 西安邮电学院学报 2012(01)
    • [17].基于语义列表的中文文本聚类算法[J]. 计算机应用研究 2010(05)
    • [18].基于改进粒子群优化的文本聚类算法研究[J]. 计算机工程 2014(11)
    • [19].文本聚类算法初探[J]. 电子世界 2012(06)
    • [20].基于MapReduce的并行遮盖文本聚类算法[J]. 内蒙古科技大学学报 2013(03)
    • [21].文本聚类算法的设计与实现[J]. 计算机工程与设计 2010(09)
    • [22].基于蚁群算法的文本聚类算法[J]. 计算机工程 2010(08)
    • [23].概念向量文本聚类算法[J]. 计算机工程与应用 2011(35)
    • [24].基于子空间变量自动加权的K-均值文本聚类算法的研究[J]. 计算机应用与软件 2008(08)
    • [25].Web文本聚类算法的分析比较[J]. 计算机时代 2010(10)
    • [26].基于参考区域的k-means文本聚类算法[J]. 计算机工程与设计 2009(02)
    • [27].一种优化的顺序IB文本聚类算法[J]. 模式识别与人工智能 2008(03)
    • [28].基于语义距离的高效文本聚类算法[J]. 华南理工大学学报(自然科学版) 2008(05)
    • [29].基于社团结构的文本聚类算法研究[J]. 西安邮电大学学报 2013(02)
    • [30].K-均值文本聚类算法在智能答疑系统中应用[J]. 科技广场 2009(01)

    标签:;  ;  ;  ;  ;  

    基于免疫网络的文本挖掘方法研究
    下载Doc文档

    猜你喜欢