SOM算法的改进及其在中文文本聚类的应用

SOM算法的改进及其在中文文本聚类的应用

论文摘要

近几十年来,国外学者对英文文本聚类投入了大量研究工作,并取得了些优秀的成果。与英文文本聚类相比,中文文本聚类技术研究和应用起步较晚,文本聚类效果普遍不太理想。针对此现状,本文对中文文本聚类技术进行深入研究。重点在于改进经典SOM算法,并应用于中文文本聚类中。本文研究工作主要涵盖以下四点内容:(1)研究中文文本聚类技术,包括中文分词、停用词过滤、特征选择等中文预处理技术以及各种聚类分析算法。(2)针对特征项维数灾难导致计算负载过大,在预处理中引入同义词合并技术,实现特征空间的语义降维,提高系统聚类速度和准确性。(3)重点研究经典SOM算法,针对其聚类数目需预先输入、网络结构固定、初始化效果不理想以及聚类结果依赖样本输入顺序,提出一种改进的自增长SOM算法予以解决之。(4)采用C#.net技术设计实现了基于改进的SOM算法的《中文文本聚类系统》平台。然后进行了系统测试评估,评估结果表明改进SOM算法可以改善系统聚类效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 课题来源
  • 1.3 国内外研究现状
  • 1.4 论文组织结构
  • 第2章 中文文本聚类技术
  • 2.1 文本聚类概述
  • 2.1.1 文本聚类的过程
  • 2.1.2 文本类的定义
  • 2.1.3 文本的相似度计算
  • 2.2 中文预处理
  • 2.2.1 文本表示
  • 2.2.2 中文分词
  • 2.2.3 停用词过滤
  • 2.2.4 同义词合并
  • 2.2.5 权重计算
  • 2.2.6 特征选择
  • 2.3 聚类分析
  • 2.3.1 基于划分的算法
  • 2.3.2 基于层次的算法
  • 2.3.3 基于密度的算法
  • 2.3.4 基于模型的算法
  • 2.3.5 基于网格的算法
  • 2.4 聚类效果评估
  • 2.5 本章小结
  • 第3章 自组织映射神经网络的研究与改进
  • 3.1 自组织映射神经网络
  • 3.1.1 SOM拓扑结构
  • 3.1.2 SOM算法描述
  • 3.1.3 SOM网络特性
  • 3.1.4 SOM存在的缺陷
  • 3.2 自组织映射网络的改进
  • 3.2.1 问题的提出
  • 3.2.2 网络拓扑结构
  • 3.2.3 关键因子设定
  • 3.2.4 改进算法描述
  • 3.3 算法分析
  • 3.4 本章小结
  • 第4章 文本聚类系统的设计与实现
  • 4.1 系统流程图
  • 4.2 功能模块
  • 4.2.1 中文分词
  • 4.2.2 特征降维
  • 4.2.3 聚类分析
  • 4.2.4 输出结果
  • 4.3 运行情况
  • 4.4 本章小结
  • 第5章 实验结果与分析
  • 5.1 实验环境
  • 5.2 语料来源
  • 5.3 测试评估
  • 5.4 本章小结
  • 第6章 结论与展望
  • 6.1 结论
  • 6.2 展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    • [1].SOM网络在雷达目标识别中的应用[J]. 科技视界 2015(16)
    • [2].基于SOM神经网络的人力资源管理风险预警模型研究[J]. 电子设计工程 2015(18)
    • [3].基于SOM的真空断路器机械故障诊断[J]. 电工技术学报 2017(05)
    • [4].基于SOM网络的依托机构办学行为聚类分析[J]. 陕西广播电视大学学报 2016(01)
    • [5].基于SOM网络的城市分类探讨及实证分析[J]. 中国集体经济 2011(18)
    • [6].基于SOM的商业银行客户细分研究[J]. 现代商业 2010(06)
    • [7].基于SOM聚类法的在线学习分析研究[J]. 中国教育信息化 2020(05)
    • [8].基于小波奇异熵和SOM神经网络的微电网系统故障诊断[J]. 山东大学学报(工学版) 2017(05)
    • [9].基于集抄网络及SOM算法的用电异常预警机制[J]. 电子制作 2017(16)
    • [10].多态SOM网络下的非均匀水合物测井方法[J]. 科技通报 2014(04)
    • [11].基于SOM和人工免疫算法的监测区域低功耗分簇协议设计[J]. 计算机测量与控制 2013(04)
    • [12].一种基于属性约简和SOM的客户细分方法[J]. 工业工程 2011(02)
    • [13].基于SOM的电子商务中交易数据库二次聚类算法[J]. 计算机与现代化 2009(12)
    • [14].在数据挖掘中基于SOM网络的数据分析可视化设计[J]. 科技经济导刊 2019(31)
    • [15].Waterlogging risk assessment based on self-organizing map(SOM) artificial neural networks: a case study of an urban storm in Beijing[J]. Journal of Mountain Science 2017(05)
    • [16].基于SOM网络的机场天气聚类分析[J]. 数学的实践与认识 2016(17)
    • [17].SOM网络在铁路危险货物专用线风险评价中的应用[J]. 大连交通大学学报 2015(03)
    • [18].SOM模式下延迟策略实施对客户价值创造的影响[J]. 企业经济 2013(12)
    • [19].面向SOM的制造业服务创新模式研究——延迟策略实施的视角[J]. 中国科技论坛 2013(02)
    • [20].基于SOM网络的农业产业结构研究[J]. 安徽农业科学 2012(04)
    • [21].基于SOM算法的文本聚类实现[J]. 计算机与现代化 2010(01)
    • [22].基于SOM网络模型的供水管网水质综合评价[J]. 中国给水排水 2010(11)
    • [23].一种基于混合核函数的SOM网络流量分类方法[J]. 计算机工程与科学 2010(10)
    • [24].SOM网络的改进及其在储粮害虫分类中的应用[J]. 计算机仿真 2009(10)
    • [25].基于SOM网络的智能入侵检测系统[J]. 计算机仿真 2008(09)
    • [26].基于SOM网络的奖学金评定方法研究[J]. 信息技术 2013(04)
    • [27].基于因子分析和SOM网络的河南城镇化地区差异分析[J]. 江西农业学报 2009(03)
    • [28].数据挖掘中SOM神经网络的聚类方法研究[J]. 情报科学 2009(06)
    • [29].基于SOM网络的带式输送机齿轮箱混合故障诊断研究[J]. 煤矿机械 2020(05)
    • [30].大学生词汇学认知风格的模式分类——基于SOM神经网络的研究[J]. 南京师大学报(社会科学版) 2016(03)

    标签:;  ;  ;  ;  ;  

    SOM算法的改进及其在中文文本聚类的应用
    下载Doc文档

    猜你喜欢