基于聚类技术的网页分类应用 ——基于后缀树的中文文本聚类方法

基于聚类技术的网页分类应用 ——基于后缀树的中文文本聚类方法

论文摘要

随着互联网的快速发展,网络在人们日常生活工作中所起到的作用越来越重要。网络已经成为新的信息承载媒体。与此同时,互联网的规模也以爆炸性的速度在扩大。包含着大量信息的海量网页还在以惊人的速度增长着。所以,如何对存在于海量网页中的信息做到快速准确的提取、呈现,方便使用者查询,就是迫切需要解决的问题了。本文围绕着如何对海量文章进行快速、准确的分类,并且明了的将分类结果表示出来,方便用户查询等问题进行研究,研究内容和取得的成果主要是在网页内容的分类和分类结果的描述方面。针对于常见的互联网搜索结果中重复、无用、与搜索主题相关度不高的情况,引入了分类方法。网页的分类是方便互联网信息查询的一种有效手段,同时也是信息查询的一种新的发展方向。通过对互联网中网页的分类,可以将网页按照内容的不同进行相应的分类。由于后缀树聚类算法STC(Suffix Tree Clustering)的线性构造时间优势,聚类结果适合实际应用等特点,本文结合实际情况,尝试采用后缀树聚类算法STC(Suffix Tree Clustering)对网页进行分类。以实际的使用环境为前提,提高算法执行过程中的执行效率,同时改进对分类结果的描述,便于结果的查询,提高实际使用效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题来源
  • 1.2 与本课题相关的算法组成部分简介
  • 1.2.1 中文分词
  • 1.2.2 特征空间
  • 1.2.3 聚类算法
  • 1.3 本文结构与内容
  • 第二章 文本聚类及其算法概述
  • 2.1 文本聚类概述
  • 2.1.1 分词
  • 2.1.2 特征空间的构建
  • 2.1.3 特征空间的降维
  • 2.1.4 聚类过程
  • 2.1.5 类别描述
  • 2.2 聚类质量的评测
  • 第三章 基于后缀树聚类的中文文本聚类
  • 3.1 问题描述
  • 3.2 相关定义
  • 3.3 后缀树的构造
  • 3.4 后缀树聚类算法
  • 3.5 对后缀树聚类算法的改进
  • 3.5.1 加入词性判断
  • 3.5.2 评测方法以及实验设计
  • 3.5.3 实验结果及分析
  • 3.6 本章结论
  • 第四章 对后缀树聚类算法中类别合并的改进
  • 4.1 问题描述
  • 4.2 对后缀树聚类算法的分析
  • 4.3 对后缀树算法做出改进
  • 4.4 实验设计与分析
  • 4.5 本章结论
  • 第五章 结论与展望
  • 5.1 本文的结论
  • 5.2 工作展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].网页分类技术研究现状与发展趋势的图谱分析[J]. 现代电子技术 2019(13)
    • [2].面向异步通信机制的网页分类研究[J]. 计算机应用 2008(02)
    • [3].中文网页分类研究综述[J]. 赤峰学院学报(自然科学版) 2011(12)
    • [4].支持向量机与K近邻结合的网页分类方法[J]. 计算机仿真 2010(09)
    • [5].一种核心子集选择训练的大规模中文网页分类方法[J]. 小型微型计算机系统 2011(08)
    • [6].利用本体集成和特征聚类的网页分类研究[J]. 现代电子技术 2012(14)
    • [7].基于朴素贝叶斯网页分类的用户行为推衍[J]. 沈阳工业大学学报 2018(01)
    • [8].基于改进的n-gram模型的URL分类算法研究[J]. 计算机技术与发展 2018(09)
    • [9].基于内容与链接特征的中文垃圾网页分类[J]. 微计算机信息 2010(09)
    • [10].基于树状SVM的网页分类与信息安全过滤系统研究[J]. 网络安全技术与应用 2008(08)
    • [11].一种基于反馈学习机制的支持向量机网页分类方法[J]. 北京电子科技学院学报 2008(02)
    • [12].基于极限学习机的网页分类应用[J]. 计算机工程与应用 2015(05)
    • [13].一种适用于大规模网页分类的快速算法[J]. 计算机应用与软件 2012(07)
    • [14].基于相似度曲线的新闻网页分类模型研究[J]. 信息技术 2008(02)
    • [15].一种基于机器学习的网页分类技术[J]. 信息网络安全 2017(09)
    • [16].SVM-KNN分类器在网页分类中的应用[J]. 科学技术与工程 2009(16)
    • [17].结构和内容联合提取的XML网页分类研究[J]. 天津大学学报(社会科学版) 2009(03)
    • [18].面向不良文本信息的中文网页分类方法[J]. 微电子学与计算机 2008(06)
    • [19].基于异构特征和组合分类器的网页分类(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2020(07)
    • [20].UCM算法及其在电子政务网页分类系统中的应用[J]. 计算机应用与软件 2013(01)
    • [21].一种改进的KNN网页分类算法[J]. 微计算机应用 2008(03)
    • [22].支持向量机和蚁群算法的网页分类研究[J]. 计算机工程与应用 2009(17)
    • [23].网页分类中特征提取方法的比较与改进[J]. 山东师范大学学报(自然科学版) 2008(03)
    • [24].SVM网页分类中一种新的特征提取方法[J]. 科学技术与工程 2011(06)
    • [25].一种利用相邻页面信息修正分类结果的方法[J]. 福建电脑 2008(04)
    • [26].一种基于知识网络血缘关系的网页分类方法[J]. 江苏科技大学学报(自然科学版) 2014(04)
    • [27].基于模式聚合和广义粒子群的网页文本属性约简[J]. 计算机工程与设计 2009(15)
    • [28].一个面向实时网页分类的主题特征提取算法[J]. 计算机与现代化 2008(07)
    • [29].基于Web挖掘和文档对象模型树的XML网页分类方法[J]. 微型电脑应用 2016(07)
    • [30].基于层次结构的网页自动分类系统的设计与实现[J]. 情报杂志 2009(06)

    标签:;  ;  ;  ;  

    基于聚类技术的网页分类应用 ——基于后缀树的中文文本聚类方法
    下载Doc文档

    猜你喜欢