基于潜在语义的中文文本聚类及其应用

基于潜在语义的中文文本聚类及其应用

论文摘要

随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现;但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略;改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中;而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 研究目的
  • 1.3 研究的意义
  • 1.4 全文的组织结构
  • 第2章 相关工作
  • 2.1 文本预处理
  • 2.1.1 中文分词
  • 2.1.2 降维技术
  • 2.1.3 权重计算
  • 2.2 文本聚类及其应用
  • 2.2.1 文本聚类概述
  • 2.2.2 文本聚类的应用
  • 2.2.3 聚类算法
  • 2.3 数据场在文本聚类中的应用
  • 2.3.1 数据场概述
  • 2.3.2 场强函数
  • 2.4 云理论及其在文本聚类中的应用
  • 2.4.1 文本数据的不确定性
  • 2.4.2 云理论
  • 2.5 本章小结
  • 第3章 基于潜在语义的中文文本聚类
  • 3.1 潜在语义分析
  • 3.1.1 截断奇异值分解
  • 3.1.2 潜在语义空间更新方法
  • 3.1.3 潜在语义应用示例及其解释
  • 3.1.4 潜在语义分析的不足
  • 3.2 弱势特征替换策略
  • 3.2.1 基于《同义词林》的词义距离计算
  • 3.2.2 基于《知网》的词义距离的计算
  • 3.2.3 弱势特征替换的具体实现
  • 3.3 基于潜在语义的多层次文本聚类
  • 3.4 本章小结
  • 第4章 基于数据场改进的k-平均聚类算法
  • 4.1 k-平均算法描述
  • 4.1.1 欧氏距离和余弦距离
  • 4.1.2 基于方差标准的准则函数
  • 4.1.3 k-平均算法
  • 4.2 基于数据场与云理论改进的k-平均算法
  • 4.2.1 数据势分布函数
  • 4.2.2 改进的数据势分布函数
  • 4.2.3 数据对象间的影响因子
  • 4.2.4 基于数据场的孤立点检测
  • 4.2.5 基于数据场确定初始簇中心
  • 4.2.6 基于云理论对孤立点分类
  • 4.3 中文文本聚类过程
  • 4.4 本章小结
  • 第5章 基于用户信息的文本聚类算法研究
  • 5.1 基于用户的历史访问记录的多层次聚类算法
  • 5.2 基于用户个人信息的多层次聚类
  • 5.2.1 基于知网的个人信息扩展
  • 5.2.2 基于用户个人信息的多层次聚类
  • 5.3 本章小节
  • 第6章 实验结果与分析
  • 6.1 评估标准
  • 6.2 改进k-平均算法实验结果
  • 6.3 基于用户信息的文本聚类算法的实验结果
  • 6.4 本章小结
  • 第7章 结束语
  • 7.1 本文总结
  • 7.2 工作展望
  • 参考文献
  • 致谢
  • 攻硕期间参加的项目及发表的论文
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  ;  ;  ;  

    基于潜在语义的中文文本聚类及其应用
    下载Doc文档

    猜你喜欢