基于Web的中文文档自动分类的研究与实现

基于Web的中文文档自动分类的研究与实现

论文摘要

因特网上的信息日益丰富,己经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文Web文档进行自动整理归类,以提高用户对信息检索的体验,同时它是搜索引擎、信息过滤、信息检索、文本数据库、数字化图书馆等领域的核心技术。文本分类通常是指在给定分类体系的情况下,根据文本的属性(内容)自动确定其所属类别的过程。一般情况下,文本分类需要有训练集的支持。所谓的训练集是指一个文本的集合,由一组已经完成分类(即给定类别标号)的文本组成。而且根据分类体系的设定,每一个类别都应含有一定数量的训练文本。分类器通过某种学习方法完成训练后才可以用于分类未知文本。文本分类技术可以为信息的组织管理提供有效的支持,更好的满足信息检索的需求。该技术的好坏直接影响到搜索效率的高低。本文主要对文本自动分类中的特征提取以及文本分类算法等几个核心技术进行了深入的研究。提出了一种结合多线程技术实现的并行开放的文本自动分类解决方案。将各种文本分类算法集成为一种可选择单一运行,可并行同时运行的机制。并且可对各算法给出一个开放性的接口进行管理。可添加新的文本分类算法,也可以删去过时的文本分类算法。特征提取方法也采取了类似的办法。这样的做法大大提高了文本分类系统的兼容性及准确性。并且在最后实现了一个完整的文本自动分类系统以检测本论文提出的文本分类算法的效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题来源
  • 1.2 研究的背景和现实意义
  • 1.3 国内外的研究现状
  • 1.3.1 Web 文本挖掘的研究现状
  • 1.3.2 Web 文本分类的研究现状
  • 1.3.3 需要进一步研究的问题
  • 1.4 本课题的主要研究内容
  • 第2章 特征提取及文本分类技术的研究
  • 2.1 特征提取
  • 2.1.1 IG 特征提取
  • 2.1.2 MI 特征提取
  • 2.1.3 CHI 特征提取
  • 2.1.4 DF 特征提取
  • 2.2 分类方法
  • 2.2.1 贝叶斯方法
  • 2.2.2 K-近邻方法
  • 2.2.3 决策树方法
  • 2.2.4 支持向量机方法
  • 2.2.5 神经网络方法
  • 2.2.6 基于投票的方法
  • 2.2.7 Rocchio 方法
  • 2.2.8 Sleeping Expert 方法
  • 2.3 本章小结
  • 第3章 系统的总体设计与分析
  • 3.1 系统的总体设计
  • 3.2 系统的评价方法
  • 3.2.1 特征提取的目的
  • 3.2.2 相关定义
  • 3.2.3 分类算法评价标准
  • 3.3 本章小结
  • 第4章 系统的总体实现
  • 4.1 网络蜘蛛的实现
  • 4.2 预处理
  • 4.2.1 HTML 文本处理加权方案
  • 4.2.2 分词前的预处理
  • 4.2.3 HTML 预处理算法
  • 4.3 特征抽取
  • 4.4 特征提取
  • 4.5 特征表示
  • 4.6 分类器
  • 4.6.1 经典型工作方式
  • 4.6.2 偏全型工作方式
  • 4.6.3 偏准型工作方式
  • 4.6.4 混合型工作方式
  • 4.7 评测器
  • 4.8 本章小结
  • 第5章 实验结果与分析
  • 5.1 数据集
  • 5.2 实验结果与讨论
  • 5.2.1 分类方法试验结果
  • 5.2.2 特征提取实验结果
  • 5.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [11].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [12].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [13].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [14].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [15].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [16].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [17].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [18].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [19].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [20].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [21].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [22].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [23].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [24].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [25].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [26].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [27].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [28].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [29].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)
    • [30].网络教育资源的特征选择研究[J]. 教育与职业 2008(12)

    标签:;  ;  ;  ;  

    基于Web的中文文档自动分类的研究与实现
    下载Doc文档

    猜你喜欢