基于神经网络等技术的数据与文本聚分类研究

基于神经网络等技术的数据与文本聚分类研究

论文题目: 基于神经网络等技术的数据与文本聚分类研究

论文类型: 博士论文

论文专业: 管理科学与工程

作者: 钱晓东

导师: 王正欧

关键词: 聚类,分类,自适应谐振神经网络,文本挖掘,随机映射

文献来源: 天津大学

发表年度: 2005

论文摘要: 聚类和分类技术是数据挖掘中最有价值的技术之一,而软计算中的神经网络是聚分类中的主要技术之一。自适应谐振神经网络(Adaptive Resonance Theory:ART)不仅参考人脑神经元互连的物理模型,而且也借鉴人脑的学习机理,具备数据聚类的良好特性,目前国内外研究尚较处于发展阶段。文本挖掘中文本向量集往往表示为正交的高维空间,因而带来计算瓶颈和与实际应用背景不吻合的情况,研究特性良好的降维算法、现有空间的改进等都存在很大的发展余地。本论文提出了四种基于ART2神经网络的用于数据聚类的改进算法,克服了经典ART2神经网络输出无层次结构的缺点,均可形成动态的层次聚类结果,同时降低了警戒参数主观设置的要求。基于模、相位、空间密度的改进ART2算法1还克服了经典ART2算法警戒参数全局化、聚类与模无关的缺点,其通过按模和相位的综合评价,依据先前循环形成类别中的输入向量个数分类别修正警戒参数以实现按空间密度局部化警戒参数,在借鉴以前神经网络训练结果的基础上进行聚类;基于凝聚和迭代思想的改进ART2算法2通过迭代在人工交互下达到合理聚类结果,并计算出合理聚类结果所需的警戒参数范围值;迭代以及迭代中神经网络的输出都体现出有序的自组织特征,网络训练时间代价也在迭代中迅速下降;基于Hebb规则和泄漏竞争的改进ART2算法3借鉴了Hebb规则和泄漏竞争的思想,允许多个神经元获胜并计算获胜神经元之间的相关性;基于Hebb规则和冗余神经元思想的改进ART2算法4克服了过分依赖获胜神经元信息等不足,通过在竞争过程中同时考虑获胜神经元和其它神经元的信息以及Hebb规则来实现通过单个ART神经网络的层次聚类结果。本论文提出了一种基于随机映射的文本降维算法,在可控、低代价地充分逼近原始空间相似度计算结果和分类结果的情况下降低文本向量空间维数。在此基础上本论文还提出了一种基于随机映射的加速隐含语义索引算法,此加速算法将随机映射和隐含语义索引相结合,既可有效可控地降低空间维数,又可凸现语义联系,使得其用于分类算法在文本高维环境中具备实时性和高分类准确率。此外本论文提出了一种基于模式聚合和各维不同权重的改进KNN文本分类算法,在数据分析的基础上提出优化的模式聚合方法,并利用神经网络计算空间各维不同权重以克服VSM空间各维权重相等的缺点,可以在降低时间和空间复杂度的基础上,提高KNN算法的文本分类准确度。

论文目录:

第一章 绪论

1.1 选题的研究背景和意义

1.2 数据挖掘概述、聚类和分类概述

1.2.1 数据挖掘

1.2.2 数据聚类研究(非基于软计算)

1.2.3 数据分类研究(非基于软计算)

1.3 基于软计算的数据聚类和分类进展及评述

1.3.1 粗糙集

1.3.2 遗传算法

1.3.3 模糊逻辑

1.4 神经网络

1.5 文本挖掘(Text Data Mining)

1.5.1 文本挖掘概述

1.5.2 文本的预处理

1.5.3 特征集缩减,即文本空间降维算法研究

1.5.4 文本聚类与分类

1.5.5 现有文本挖掘方法的不足

1.6 本文组织结构和创新点

1.6.1 本论文组织结构

1.6.2 本论文主要创新点

第二章 基于自适应谐振神经网络的数据聚类方法的改进研究

2.1 自适应谐振神经网络描述与分析

2.1.1 经典自适应谐振神经网络描述

2.1.2 数据聚类环境下自适应谐振神经网络的不足之处

2.2 算法改进的ART2 数据聚类方法1

2.2.1 神经网络模型的网络结构

2.2.2 网络聚类算法描述

2.2.3 其它说明

2.3 聚类方法1 仿真试验及分析

2.4 算法改进的ART2 数据聚类方法2

2.4.1 神经网络模型的网络结构

2.4.2 网络聚类算法描述

2.4.3 算法分析

2.4.4 其它对比分析

2.5 聚类方法2 仿真试验及分析

2.6 本章小结

第三章 基于混合技术的数据聚类方法的改进研究

3.1 自组织映射神经网络描述与分析和自适应谐振神经网络简介

3.1.1 自组织映射神经网络描述与分析

3.1.2 自适应谐振神经网络简介

3.2 泄漏竞争、Hebb规则和冗余神经元规则

3.2.1 泄漏竞争规则

3.2.2 Hebb一致性学习规则

3.2.3 冗余神经元规则

3.3 借鉴泄漏竞争与Hebb规则的改进ART2 神经网络模型

3.3.1 神经网络模型的网络结构

3.3.2 网络聚类算法描述

3.4 仿真试验及分析

3.4.1 二维空间聚类试验

3.4.2 多维空间聚类试验

3.5 借鉴冗余神经元和Hebb规则的改进ART2 聚类算法

3.5.1 神经网络模型的网络结构

3.5.2 聚类算法的描述

3.6 仿真试验及分析

3.6.1 类别划分试验

3.6.2 类别合并试验

3.7 本章小结

第四章 基于随机映射和隐含语义索引的文本聚分类方法研究

4.1 文本环境下神经网络计算瓶颈等背景分析

4.1.1 神经网络计算瓶颈分析

4.1.2 文本语义分析

4.2 隐含语义索引描述与分析

4.3 随机映射方法及其分析

4.4 基于随机映射的SOFM神经网络分类方法及仿真试验

4.5 基于随机映射的加速隐含语义索引及仿真试验

4.6 本章小结

第五章 基于模式聚合、自组织神经网络等的改进KNN文本分类方法研究

5.1 KNN方法描述与及其在文本环境下的不足

5.2 基于CHI方法的特征提取和模式聚合

5.2.1 基于CHI概率统计的特征提取与模式聚合

5.2.2 模式聚合和特征选择步骤

5.2.3 简单算例分析

5.3 基于改进的模式聚合方法和自组织神经网络的改进KNN方法

5.4 仿真试验及分析

5.5 本章小结

第六章 基于神经网络的文本词语义扩充初步研究

6.1 文本数据(文本词)特点和文本词语义扩充分析

6.1.1 文本数据(文本词)特点

6.1.2 文本语义词扩充必要性和基本过程

6.2 基于LVQ神经网络的文本词语义扩充研究

6.2.1 文本词的向量化

6.2.2 基于神经网络的文本词语义扩充

6.3 仿真试验及分析

6.4 本章小结

第七章 总结与展望

7.1 全文总结

7.2 研究前景展望

参考文献

发表论文和科研情况说明

致谢

发布时间: 2006-05-24

参考文献

  • [1].基于神经网络和支持向量机的麦蚜发生动态预测研究[D]. 靳然.山西农业大学2017
  • [2].基于忆阻的神经网络的动力学分析及应用[D]. 李若霞.东南大学2017
  • [3].基于卷积神经网络的心电信号检测和分类研究[D]. 项延德.浙江大学2018
  • [4].面向图像目标识别和检测的深度神经网络关键技术研究[D]. 李扬.北京邮电大学2018
  • [5].基于深度学习的交互式问答技术研究[D]. 周小强.哈尔滨工业大学2017
  • [6].终态神经网络及其相关应用[D]. 孔颖.浙江工业大学2017
  • [7].深度模型简化:存储压缩和计算加速[D]. 李皈颖.中国科学技术大学2018
  • [8].基于神经网络的非线性系统辨识方法研究[D]. 李鸿鹏.东北林业大学2018
  • [9].基于卷积神经网络的生物医学信号分类与重构[D]. 焦志成.西安电子科技大学2018
  • [10].可重构神经网络加速器设计关键技术研究[D]. 梁爽.清华大学2017

相关论文

  • [1].文本聚类分析若干问题研究[D]. 高茂庭.天津大学2007
  • [2].知识管理和文本挖掘的若干问题研究[D]. 徐建锁.天津大学2004
  • [3].文本分类及其相关技术研究[D]. 李荣陆.复旦大学2005
  • [4].基于粗糙集的数据及文本挖掘方法研究[D]. 王明春.天津大学2005
  • [5].神经网络作为分类器的算法研究及在信息检索中的应用[D]. 周瑛.安徽大学2006
  • [6].聚类/分类理论研究及其在文本挖掘中的应用[D]. 卜东波.中国科学院研究生院(计算技术研究所)2000
  • [7].高性能文本分类算法研究[D]. 谭松波.中国科学院研究生院(计算技术研究所)2006

标签:;  ;  ;  ;  ;  

基于神经网络等技术的数据与文本聚分类研究
下载Doc文档

猜你喜欢