论文摘要
随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现;但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略;改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中;而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。
论文目录
相关论文文献
- [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
- [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
- [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
- [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
- [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
- [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
- [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
- [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
- [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
- [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
- [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
- [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
- [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
- [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
- [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
- [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
- [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
- [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
- [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
- [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
- [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
- [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
- [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
- [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
- [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
- [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
- [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
- [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
- [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
- [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)