论文摘要
当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识,为越来越多的研究人员所关注。本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inverse document frequency)选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了本文提出的聚类方法的有效性。
论文目录
相关论文文献
- [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
- [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
- [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
- [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
- [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
- [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
- [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
- [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
- [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
- [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
- [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
- [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
- [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
- [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
- [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
- [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
- [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
- [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
- [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
- [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
- [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
- [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
- [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
- [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
- [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
- [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
- [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
- [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
- [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
- [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)