基于团结构的文本分类技术研究

基于团结构的文本分类技术研究

论文摘要

近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。文本自动分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机器学习的文本分类技术已经成为主流技术。目前,研究者已经提出了许多成熟的文本分类算法,这些算法大都来自于模式分类,如KNN分类算法,支持向量机算法等。这些现有的文本分类算法大都基于向量空间模型,没有考虑文档的语义特征信息、结构信息等。本文针对传统分类器的不足对文本分类及其相关技术进行了研究,提出了两种有效的解决或改进的方法和技术。本文的研究内容和创新工作主要包括如下两点。1)本文研究了一种基于文本团的文本分类方法,通过在训练集上由文本相似矩阵构造文本相似图,从图中提取文本团(完全子图),由每个类别的团信息来构造分类器,进而与SVM等分类器进行组合。在复旦大学中文文本分类语料库和20 Newsgroups语料库上进行实验,并同时在相同的预处理条件下,与传统的分类方法进行了对比实验,实验表明我们提出的方法在两个数据集上较大改进了分类性能。2)随着网页信息的快速增长,特别是Internet上在线信息的增加,再靠人工的方式来处理信息是不切实际的。因此,网页自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。为了有效地组织Internet上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。由于WEB文档有其自身的特点,近年来受到很多学者的关注,对于WEB文档的分类,传统的文本分类器有其自身的局限性,因此针对WEB文档的特点,我们在传统分类器的基础上利用了WEB文档丰富的链接信息。在北大天网提供的数据集上的实验表明本文分类方法再结合网页的链接信息对分类的效果有所提高。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 本文工作
  • 1.3 论文组织
  • 第二章 文本分类概述
  • 2.1 文本分类的基本概念
  • 2.1.1 文本分类任务的特点
  • 2.1.2 文本分类系统的流程
  • 2.2 文本预处理
  • 2.2.1 去除语料库中的格式标记
  • 2.2.2 去除停用词、稀有词和词干化
  • 2.2.3 中文分词
  • 2.3 文本表示方法
  • 2.3.1 布尔权重
  • 2.3.2 词频权重
  • 2.3.3 tf-idf 权重
  • 2.3.4 tfc 权重
  • 2.3.5 ltc 权重
  • 2.4 降维技术
  • 2.4.1 特征选择
  • 2.4.2 特征提取
  • 2.5 文本分类算法
  • 2.5.1 Rocchio 算法
  • 2.5.2 Na(?)ve Bayes 算法
  • 2.5.3 K 近邻分类器
  • 2.5.4 决策树算法
  • 2.5.5 支持向量机
  • 2.6 评价方法
  • 第三章 基于文本团的文本分类
  • 3.1 文本相似图
  • 3.2 文本团提取
  • 3.3 文本类别确定
  • 3.4 GC 与SVM 组合分类器
  • 3.5 试验准备和结果分析
  • 3.5.1 语料库
  • 3.5.2 预处理
  • 3.5.3 试验结果及分析
  • 第四章 基于链接信息的文本分类
  • 4.1 基于内容的相似性度量
  • 4.2 基于链接的相似性度量
  • 4.3 内容相似与链接相似组合确定文本类别
  • 4.4 试验准备和结果分析
  • 4.4.1 语料库
  • 4.4.2 数据预处理
  • 4.4.3 试验结果及分析
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 在学期间学术成果情况
  • 致谢
  • 相关论文文献

    • [1].一种基于语音识别与文本分类技术的非法广播判别方法[J]. 中国无线电 2020(01)
    • [2].跨语言文本分类技术研究进展[J]. 情报理论与实践 2010(11)
    • [3].文本分类技术应用于学科导航分类的可行性探讨[J]. 情报科学 2009(07)
    • [4].短文本分类技术研究综述[J]. 软件 2020(02)
    • [5].面向监理工程的文本分类技术研究[J]. 重庆理工大学学报(自然科学) 2017(10)
    • [6].基于机器学习的文本分类技术研究[J]. 软件 2019(09)
    • [7].基于网络文本分类技术的应用研究[J]. 科协论坛(下半月) 2009(11)
    • [8].网页文本分类技术研究[J]. 科技创业家 2013(09)
    • [9].基于遗传算法的文本分类技术[J]. 电脑知识与技术 2011(22)
    • [10].文本分类技术在信息检索中的应用[J]. 科技资讯 2010(18)
    • [11].Web文本分类技术研究现状述评[J]. 图书情报知识 2008(03)
    • [12].基于fastText的股票咨询案例中文短文本分类技术[J]. 宝鸡文理学院学报(自然科学版) 2020(03)
    • [13].TextCNN文本分类技术在OA系统中的应用研究[J]. 办公自动化 2020(14)
    • [14].利用文本分类技术研究方剂分类[J]. 辽宁中医药大学学报 2010(02)
    • [15].基于文本分类技术计算中医方剂相似度[J]. 微计算机信息 2010(12)
    • [16].基于机器学习的文本分类技术的研究[J]. 计算机与现代化 2009(08)
    • [17].文本分类技术在海洋信息处理领域中的应用[J]. 计算机科学 2008(11)
    • [18].基于SVM算法的文本分类技术研究[J]. 计算机仿真 2013(02)
    • [19].文本分类技术[J]. 电脑知识与技术 2009(24)
    • [20].文本分类技术在名人数据筛选系统中的应用[J]. 电脑知识与技术 2019(03)
    • [21].基于Rocchio和KNN提出的新的文本分类技术[J]. 自动化与仪器仪表 2017(08)
    • [22].文本分类技术探究[J]. 宿州学院学报 2012(05)
    • [23].文本分类技术研究[J]. 电脑知识与技术 2009(32)
    • [24].文本分类技术研究进展[J]. 电脑编程技巧与维护 2009(S1)
    • [25].基于目标迁移的文本分类技术[J]. 科技信息(科学教研) 2008(15)
    • [26].基于朴素贝叶斯的文化旅游文本分类技术研究[J]. 福州大学学报(自然科学版) 2018(05)
    • [27].基于内容挖掘的博客推荐系统的设计与实现[J]. 科技情报开发与经济 2008(25)
    • [28].基于并行计算的文本分类技术[J]. 计算机应用 2013(S2)
    • [29].基于改进ATSVM算法的评审专家自动推荐模型[J]. 重庆科技学院学报(自然科学版) 2010(01)
    • [30].运营商客服通话信息的文本自动分类[J]. 江苏通信 2018(05)

    标签:;  ;  ;  ;  ;  

    基于团结构的文本分类技术研究
    下载Doc文档

    猜你喜欢