改进SOM算法在文本聚类中的应用

改进SOM算法在文本聚类中的应用

论文摘要

随着网络技术的飞速发展和普及,信息在急速地膨胀,为了有效地从浩如烟海的信息中发现对自己有用的信息,数据挖掘技术和知识发现技术应运产生。因为文本是信息载体中最重要的,文本挖掘也相应地成为数据挖掘中最重要的领域之一。聚类技术是文本信息挖掘技术中的核心技术之一,近年来文本聚类的研究取得了长足的发展。由于文本是非结构化的数据,要想对其进行聚类,必须通过预处理技术将其转化为结构化的形式。所以,本文首先系统地介绍了文本预处理技术,如分词、词干还原、降维等。聚类技术是文本聚类领域的关键技术,自上世纪50年代以来,人们提出了多种聚类算法,SOM算法是其中非常著名的一种。接下来本文重点阐述了聚类算法中的SOM算法,并且做了两点重要的改进。SOM神经网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM聚类的基本思想是通过网络训练,把相类似的输入映射到同一个输出结点上,从而实现对输入数据的聚类。本文从两个方面对SOM聚类算法进行改进。一是针对文本聚类问题,把文本聚类追求的目标—平均类内离差最小即平均类内相似度最大考虑进去,提出了一种改进的学习策略,该算法把等离差理论引入神经网络的学习过程中,通过调整类内离差来指导神经网络的学习,以使得聚类结果的平均类内离差最小。改进的算法不仅解决了神经元欠利用和过度利用的问题,而且大大提高了文本聚类的结果质量。二是针对随机初始化SOM神经网络连接权值,网络模型训练时间长的缺点,本文运用层次聚类法探测数据密集区域,用探测到的K个数据密集区域的中心点初始化SOM网络连接权值。实验表明,改进后的SOM算法缩短了网络的训练时间,并且不容易收敛到局部最优。同时,为了使聚类结果易于理解和表达,对聚类簇进行合适的标引,以便正确理解聚类簇内容,提高信息处理的性能和效率。

论文目录

  • 摘要
  • Abstract
  • 绪论
  • 一 研究背景与意义
  • 二 国内外研究现状
  • 三 论文的主要内容及成果
  • 第一章 文本聚类技术
  • 1.1 文本表示模型
  • 1.2 文本预处理
  • 1.2.1 分词
  • 1.2.2 词根还原
  • 1.2.3 停用词过滤
  • 1.2.4 降维技术
  • 1.2.5 权重计算
  • 1.2.6 相似度度量
  • 1.3 聚类技术
  • 1.3.1 基于划分的方法(partitioning method)
  • 1.3.2 基于层次的算法(hierarchical method)
  • 1.3.3 基于密度的算法(density-based method)
  • 1.3.4 基于网格的算法(grid-based method)
  • 1.3.5 基于模型的算法(model-based method)
  • 1.3.6 可视化聚类算法(visualization-based method)
  • 1.4 文本聚类有效性评价
  • 本章小结
  • 第二章 SOM神经网络的介绍
  • 2.1 人工神经网络概述
  • 2.2 SOM神经网络的提出
  • 2.3 SOM网络拓扑结构
  • 2.4 神经元的获胜策略
  • 2.5 SOM网络的学习策略
  • 2.6 SOM网络的特性
  • 2.7 SOM网络聚类的基本流程
  • 2.8 SOM网络聚类的优点及存在的问题
  • 本章小结
  • 第三章 改进的SOM聚类方法研究
  • 3.1 等离差学习策略
  • 3.1.1 已有的学习策略改进
  • 3.1.2 等离差理论在神经元获胜策略中的应用
  • 3.2 初始化连接权值
  • 3.2.1 已有的初始化连接权的方法
  • 3.2.2 新的确定初始权值的方法
  • 3.3 簇标引研究
  • 本章小结
  • 第四章 实验系统设计与数据分析
  • 4.1 文本聚类系统的设计与实现
  • 4.1.1 实验语料简介
  • 4.1.2 文本聚类的流程
  • 4.1.3 本系统的主要功能模块
  • 4.1.4 数据库设计
  • 4.2 实验数据分析
  • 4.2.1 实验文本数据集
  • 4.2.2 聚类结果比较
  • 4.2.3 聚类簇标引
  • 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].SOM网络在雷达目标识别中的应用[J]. 科技视界 2015(16)
    • [2].基于SOM神经网络的人力资源管理风险预警模型研究[J]. 电子设计工程 2015(18)
    • [3].基于SOM的真空断路器机械故障诊断[J]. 电工技术学报 2017(05)
    • [4].基于SOM网络的依托机构办学行为聚类分析[J]. 陕西广播电视大学学报 2016(01)
    • [5].基于SOM网络的城市分类探讨及实证分析[J]. 中国集体经济 2011(18)
    • [6].基于SOM的商业银行客户细分研究[J]. 现代商业 2010(06)
    • [7].基于SOM聚类法的在线学习分析研究[J]. 中国教育信息化 2020(05)
    • [8].基于小波奇异熵和SOM神经网络的微电网系统故障诊断[J]. 山东大学学报(工学版) 2017(05)
    • [9].基于集抄网络及SOM算法的用电异常预警机制[J]. 电子制作 2017(16)
    • [10].多态SOM网络下的非均匀水合物测井方法[J]. 科技通报 2014(04)
    • [11].基于SOM和人工免疫算法的监测区域低功耗分簇协议设计[J]. 计算机测量与控制 2013(04)
    • [12].一种基于属性约简和SOM的客户细分方法[J]. 工业工程 2011(02)
    • [13].基于SOM的电子商务中交易数据库二次聚类算法[J]. 计算机与现代化 2009(12)
    • [14].在数据挖掘中基于SOM网络的数据分析可视化设计[J]. 科技经济导刊 2019(31)
    • [15].Waterlogging risk assessment based on self-organizing map(SOM) artificial neural networks: a case study of an urban storm in Beijing[J]. Journal of Mountain Science 2017(05)
    • [16].基于SOM网络的机场天气聚类分析[J]. 数学的实践与认识 2016(17)
    • [17].SOM网络在铁路危险货物专用线风险评价中的应用[J]. 大连交通大学学报 2015(03)
    • [18].SOM模式下延迟策略实施对客户价值创造的影响[J]. 企业经济 2013(12)
    • [19].面向SOM的制造业服务创新模式研究——延迟策略实施的视角[J]. 中国科技论坛 2013(02)
    • [20].基于SOM网络的农业产业结构研究[J]. 安徽农业科学 2012(04)
    • [21].基于SOM算法的文本聚类实现[J]. 计算机与现代化 2010(01)
    • [22].基于SOM网络模型的供水管网水质综合评价[J]. 中国给水排水 2010(11)
    • [23].一种基于混合核函数的SOM网络流量分类方法[J]. 计算机工程与科学 2010(10)
    • [24].SOM网络的改进及其在储粮害虫分类中的应用[J]. 计算机仿真 2009(10)
    • [25].基于SOM网络的智能入侵检测系统[J]. 计算机仿真 2008(09)
    • [26].基于SOM网络的奖学金评定方法研究[J]. 信息技术 2013(04)
    • [27].基于因子分析和SOM网络的河南城镇化地区差异分析[J]. 江西农业学报 2009(03)
    • [28].数据挖掘中SOM神经网络的聚类方法研究[J]. 情报科学 2009(06)
    • [29].基于SOM网络的带式输送机齿轮箱混合故障诊断研究[J]. 煤矿机械 2020(05)
    • [30].大学生词汇学认知风格的模式分类——基于SOM神经网络的研究[J]. 南京师大学报(社会科学版) 2016(03)

    标签:;  ;  ;  ;  

    改进SOM算法在文本聚类中的应用
    下载Doc文档

    猜你喜欢