汉语言网络统计特性与半监督文档聚类算法研究

汉语言网络统计特性与半监督文档聚类算法研究

论文摘要

随着网络上电子文档呈指数级增长,人们迫切需要能利用计算机自动地处理这些文档,主要包括文档的自动分类、聚类和摘要。本文的侧重点是文档聚类。文档聚类的一般过程包括文本表示、聚类算法和聚类结果评价。其中,文本表示和聚类算法是一个聚类工具最重要的两个方面。在文本表示方面,向量空间模型占据统治地位。由于文本的半结构化特征,向量空间模型作为本文表示的缺点也是显而易见的。近来,复杂网络作为一门研究复杂性的工具引起了研究人员的广泛关注。文本作为人们的书面语言,也具有复杂性的特点。本文从复杂网络的角度探讨了汉语语言网的统计性质,希望从中能获得关于文本表示的新的发现。本文从一个最大的人民日报语料库出发,构造了两个不同的网络(CLN1和CLN2)。对于这两个网络,一个节点代表语料库里面的一个词。对于CLN1,如果两个节点对应的词在语料库的一个句子里是相邻的,则这两个节点之间形成一条边;对于CLN2,如果两个节点对应的词处于同一个句子里,则这两个节点之间有一条边。本文通过实验论证了这两个网络都展现了小世界效应、度分布无尺度结构、层次结构和负相关性。我们希望这些结果能为寻求新的文本表示模型带来新的线索。在聚类算法方面,本文关注在半监督条件下的文本聚类。在实际应用中,关于文档集的一些先验知识是知道的,比如某两个文档应该是归为一类的。这种先验知识可以用来在聚类过程中起到约束作用。这种利用了用户先验知识的聚类方法叫做半监督聚类。K-means是个常用且有效的聚类方法。本文把这种先验知识通过数学表达的方式与K-means的基于矩阵迹的目标函数结合起来,得到的新的目标函数可以通过矩阵特征值分解的方法进行优化。实验表明,本文提出的算法大大优于同类的几个方法。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景与意义
  • 1.1.1 复杂网络
  • 1.1.2 文本挖掘
  • 1.2 研究内容与取得的成果
  • 1.3 本文结构
  • 第二章 相关工作
  • 2.1 语言网研究现状
  • 2.2 半监督聚类研究现状
  • 2.3 小结
  • 第三章 汉语言网络特性研究
  • 3.1 语料
  • 3.2 网络构造方法
  • 3.3 相关统计特性
  • 3.3.1 无尺度结构
  • 3.3.2 小世界效应
  • 3.3.3 层次结构
  • 3.3.4 介数分布
  • 3.3.5 节点度负相关性
  • 3.4 小结
  • 第四章 基于K-means的半监督聚类算法
  • 4.1 K-means算法及其谱表达形式
  • 4.1.1 基本K-means算法
  • 4.1.2 K-means算法的谱表达形式
  • 4.2 融入半监督信息
  • 4.3 半监督聚类算法S3-Kmeans
  • 4.4 实验
  • 4.4.1 文档数据
  • 4.4.2 预处理
  • 4.4.3 评价标准
  • 4.4.4 实验结果
  • 4.5 小结
  • 第五章 结束语
  • 参考文献
  • 发表文章目录
  • 致谢
  • 相关论文文献

    • [1].基于模式元素的文档聚类方法研究[J]. 常熟理工学院学报 2012(08)
    • [2].基于划分的XML文档聚类研究[J]. 计算机科学 2008(03)
    • [3].基于特征偏好的XML文档聚类算法[J]. 计算机工程与应用 2016(12)
    • [4].几种不同权值实现的k-means聚类算法比较[J]. 软件导刊 2010(09)
    • [5].快速混合Web文档聚类[J]. 计算机工程与应用 2010(22)
    • [6].基于频繁结构的XML文档聚类[J]. 计算机工程与应用 2008(09)
    • [7].基于粒计算Web文档聚类[J]. 计算机工程与应用 2008(13)
    • [8].基于遗传算法的Web文档聚类算法[J]. 现代电子技术 2016(01)
    • [9].基于语义相似度的Web文档聚类算法[J]. 合肥工业大学学报(自然科学版) 2009(12)
    • [10].一种基于卷积自编码器的文档聚类模型[J]. 现代信息科技 2018(02)
    • [11].基于改进k-medoids算法的XML文档聚类[J]. 计算机工程 2015(09)
    • [12].结合差分进化与K均值的Web文档聚类算法研究[J]. 聊城大学学报(自然科学版) 2012(01)
    • [13].一种初值优化的K-均值文档聚类算法(英文)[J]. 江西师范大学学报(自然科学版) 2008(02)
    • [14].基于GA与PSO混合优化的Web文档聚类算法[J]. 小型微型计算机系统 2013(07)
    • [15].自适应的混沌粒子群算法优化XML文档聚类策略[J]. 系统仿真学报 2009(03)
    • [16].K-means聚类算法的研究和应用[J]. 电脑编程技巧与维护 2014(08)
    • [17].基于遗传算法和自组织特征映射网络的文本聚类方法[J]. 计算机应用 2008(03)
    • [18].基于向量空间的文档聚类算法分析[J]. 电脑知识与技术 2011(20)
    • [19].基于遗传算法的文档聚类算法的设计与仿真(英文)[J]. 南京大学学报(自然科学版) 2009(03)
    • [20].中文Web文档聚类算法研究[J]. 计算机工程与设计 2009(20)
    • [21].基于向量空间模型的文档聚类研究[J]. 电脑知识与技术 2009(25)
    • [22].基于加权余弦相似度的XML文档聚类研究[J]. 吉林大学学报(信息科学版) 2010(01)
    • [23].用于文档聚类的间隔流形学习算法研究[J]. 计算机工程 2010(15)
    • [24].对等网络中节点共享文档组织策略研究[J]. 小型微型计算机系统 2010(11)
    • [25].文档聚类技术在搜索引擎中的应用研究[J]. 图书馆学研究 2008(11)
    • [26].考虑层数信息的XML文档聚类方法[J]. 吉林大学学报(工学版) 2014(01)
    • [27].一种新的加权后缀树Web文档聚类方法[J]. 系统仿真学报 2011(03)
    • [28].基于动态区间映射的文档聚类算法[J]. 计算机科学 2010(06)
    • [29].基于自适应谐振理论的Web文档聚类集成方法[J]. 西南交通大学学报 2009(01)
    • [30].基于共识和分类改善文档聚类的识别信息方法[J]. 计算机应用 2020(04)

    标签:;  ;  ;  ;  ;  ;  

    汉语言网络统计特性与半监督文档聚类算法研究
    下载Doc文档

    猜你喜欢