基于语义引力及密度分布的Web文本聚类算法的研究与实现

基于语义引力及密度分布的Web文本聚类算法的研究与实现

论文摘要

随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采用通用的网络蜘蛛程序对海量信息进行采集,然而这样的采集结果是粗糙的,必然存在着大量的噪声数据,对数据的进一步分析处理带来不必要的影响。与此同时,一种良好的聚类算法也是文本分析过程的重要组成部分,面对Web文本的高维性特征,一些基于距离的相似度度量方法在某些方面已经体现出不足之处。例如在文本特征词空间中,由于受到向量的高维性影响必然存在着大量模很小,并且大部分特征位上的数值为零的向量,经过计算会发现,任何具有该特征的向量间相似度都很大,但是从文本语义上分析,文本所表述的内容并不相似,这正是高维数据与低维数据在向量表示上所体现的明显不同。因此基于一种适合高维文本相似性计算的方法,并能够有效地提高大规模Web文本集聚类准确性算法是本文主要的研究目标。基于上述分析,本文从Web文本采集过程入手,通过在数据采集过程中添加对文本解析与内容的相关性评估的步骤,针对高维Web文本的特点提出了一种数据基于引力为相似度衡量标准的计算方法,并以此为主线,对Web文本聚类算法进行了研究,本文主要工作包括以下几个方面:(1)在网络资源采集过程中,对传统网络蜘蛛系统进行了适当的改进,通过在爬行过程中进行网页内容的解析与相关度评价,从而实现初步过滤内容无关的网络资源,保证了下载数据集的有效性和相关性;(2)通过对传统网页解析系统原理的分析,本文提出了一种人工干预的半自动化模板生成工具,该工具的优势在于避免了对网页编码进行分析的复杂工作,同时所生成的模板具有良好的通用性,可以针对具有相同板式结构的一类网页进行有效的内容提取;(3)相似度度量方法中应用最为广泛的是基于欧式距离的度量方法,该方法的优点在于,其具有良好的数学理论依据,通过将文本对象转化为相应的特征词向量后,采用欧式距离度量方法可以直接进行相关的计算与结果的可视化展示。然而,文本向量模型一般具有高维特性,在高维空间中数据的分布无法用低维模型所表示,而数据在高维空间所拥有的特征也不能很好的体现。由此本文提出了一种兼顾欧式距离在低维空间计算优点的数据引力相似性度量方法,该方法的优点在于充分考虑到了传统欧式距离无法体现文本语义这个不足,强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果;(4)由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 问题提出
  • 1.2 WEB文本挖掘存在的问题及本文研究内容
  • 1.2.1 WEB文档获取存在的问题
  • 1.2.2 文档聚类存在的问题
  • 1.2.3 本文研究内容
  • 1.3 本文结构
  • 第2章 相关理论研究
  • 2.1 中文文本预处理
  • 2.1.1 分词
  • 2.1.2 向量空间模型
  • 2.1.3 特征词选择及维度约减
  • 2.1.4 基于PLSA的语义向量表示
  • 2.2 相似度计算
  • 2.3 文本聚类
  • 2.3.1 文本聚类定义
  • 2.3.2 文本聚类算法
  • 2.4 本章小结
  • 第3章 WEB文档采集与处理技术
  • 3.1 WEB文档抓取及其预处理
  • 3.1.1 WEB文档的抓取
  • 3.1.2 WEB文档的预处理
  • 3.1.3 去除HTML标签
  • 3.1.4 主体数据块识别
  • 3.2 WEB文本解析相关技术及实现
  • 3.2.1 网页内容解析
  • 3.2.2 网页解析算法及实现
  • 3.3 本章小结
  • 第4章 语义引力相似度计算模型
  • 4.1 问题描述
  • 4.2 语义引力相似度相关定义
  • 4.3 基于语义引力的数据相似度计算方法
  • 4.4 本章小结
  • 第5章 语义引力文本聚类算法
  • 5.1 文本向量引力空间模型
  • 5.1.1 空间模型的定义
  • 5.1.2 空间模型的构建
  • 5.2 语义引力聚类算法总体思想
  • 5.2.1 文本向量引力密度分布
  • 5.2.2 聚类过程参数设置及优化
  • 5.3 文本聚类描述
  • 5.4 本章小结
  • 第6章 实验结果分析
  • 6.1 相似度计算方法的比较
  • 6.2 聚类方法的比较
  • 6.3 高维文本数据集实验分析
  • 6.3.1 相似度计算方法的比较
  • 6.3.2 聚类方法的比较
  • 6.4 WEB文本聚类实验分析
  • 6.4.1 语义引力相似度在WEB文本聚类的应用分析
  • 6.4.2 WEB文本聚类实验分析
  • 6.5 影响因素
  • 6.5.1 实验语料
  • 6.5.2 参数选择对聚类结果的影响
  • 6.5.3 数据分布特点对聚类结果的影响
  • 6.5.4 潜在语义对聚类结果的影响
  • 6.6 本章小结
  • 第7章 结论
  • 7.1 本文的主要贡献与结论
  • 7.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻硕期间参与项目及发表的论文
  • 相关论文文献

    • [1].线性引力论的引力磁分量及其磁效应[J]. 物理学报 2020(13)
    • [2].论基本引力禀性常数[J]. 科技风 2020(29)
    • [3].引力[J]. 群言 2019(10)
    • [4].认识港口物流中的港口引力[J]. 中国港口 2018(04)
    • [5].厦漳泉经济引力测算[J]. 商 2016(20)
    • [6].分子斥力一定比引力变化快吗[J]. 数理化解题研究 2020(19)
    • [7].太阳与行星间的引力[J]. 中国多媒体与网络教学学报(下旬刊) 2020(07)
    • [8].试论“引力”[J]. 中华武术 2020(07)
    • [9].芬芳的引力[组诗][J]. 诗潮 2019(07)
    • [10].“引力”七问[J]. 物理通报 2010(11)
    • [11].失去引力的世界[J]. 青少年日记 2015(07)
    • [12].引力速度有多快[J]. 大科技(科学之谜) 2013(12)
    • [13].引力[J]. 意林(少年版) 2012(11)
    • [14].神秘的引力[J]. 飞碟探索 2012(02)
    • [15].我们为什么感觉不到地球在转动[J]. 读写算(小学高年级) 2013(04)
    • [16].向上的力量[J]. 初中生 2013(Z4)
    • [17].假如地球失去引力[J]. 新作文(小学1-2-3年级版) 2009(04)
    • [18].假如地球失去了引力[J]. 故事作文(高年级版) 2011(08)
    • [19].幸亏地球有引力[J]. 今日中学生 2008(16)
    • [20].中美战略博弈下的东南亚“地缘引力结构”解析:路径与方法[J]. 社会科学文摘 2020(11)
    • [21].引力关联与黑洞信息丢失之谜[J]. 咸阳师范学院学报 2019(04)
    • [22].引力的本质[J]. 科学通报 2018(24)
    • [23].基于主成分分析法的福建省投资引力研究[J]. 福建商业高等专科学校学报 2014(06)
    • [24].引力[J]. 中国农村金融 2015(13)
    • [25].地球的引力[J]. 疯狂英语(双语世界) 2019(01)
    • [26].熵力:对引力的新阐释[J]. 物理通报 2011(02)
    • [27].引力(外二首)[J]. 江南(诗江南) 2012(01)
    • [28].当地球没有了引力[J]. 小学生之友(中版) 2010(10)
    • [29].引力的迷雾[J]. 飞碟探索 2010(11)
    • [30].宇宙其实没有引力[J]. 大科技(科学之谜) 2011(01)

    标签:;  ;  ;  ;  

    基于语义引力及密度分布的Web文本聚类算法的研究与实现
    下载Doc文档

    猜你喜欢