一种基于eEPs的中文文本自动分类算法

一种基于eEPs的中文文本自动分类算法

论文摘要

为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。Web的迅猛发展为文本自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战。而作为Web网页自动分类技术基础的文本自动分类技术也迅速地发展起来。 基于文档频率的特征提取方法计算复杂度低,而且提取出的特征的分类效果也和卡方检验以及信息增益等方法相当,比较适合于大规模的文本分类任务。但是通过分析我们发现,由于仅仅使用文档频率来衡量特征的区分能力,文档频率方法存在两个问题。 显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们对分类是有用的,这是因为这些项集能够捕获数据库中两个数据集之间的多属性差异,具有很好的分类性能。而eEPs(Essential Emerging Patterns)是一种最具表达能力的、特殊的EPs,称为基本显露模式。它不仅具有EPs的优点,可以用来构造准确的分类器,而且数量比EPs少很多,可以快速方便地挖掘和使用。 基于EPs的分类方法并不把样本看作n维空间的点,而是把它们看作项的集合。通过发现那些从一个数据集到另一个数据集支持度发生显著变化的模式(项集),建立分类器,基于EP的分类方法足以与C4.5、朴素Bayes等分类法相媲美。基于EPs的分类方法已经成功地应用于DNA分析等领域,但用于文本自动分类还未见到报道。 本文在分析了文档频率特征提取方法存在的问题的基础上,给出了特征的区分能力的概念,提出了一种基于区分能力的特征提取方法,并将基于eEPs的分类方法应用到中文文本分类领域,提出并实现了一个基于eEPs的中文文本分类算法TCEP。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 文本自动分类技术概述
  • 1.3 本文工作和结构安排
  • 第二章 中文文本自动分类技术
  • 2.1 中文文本自动分类的过程
  • 2.2 特征提取
  • 2.2.1 文档频率(Document Frequency,DF)
  • 2.2.2 信息增益(Information Gain,IG)
  • 2.2.3 互信息(Mutual information,MI)
  • 2-test,CHI)'>2.2.4 开方拟和检验(x2-test,CHI)
  • 2.3 分类算法
  • 2.3.1 Rocchio算法
  • 2.3.2 朴素贝叶斯(Na(i|¨)ve Bayes,NB)
  • 2.3.3 k最近邻居算法
  • 2.3.4 支持向量机算法
  • 2.3.5 决策树(Dtree,Decision Tree)算法
  • 2.3.6 关于分类算法
  • 2.4 对分类系统的评价
  • 第三章 EPs和eEPs的概念
  • 3.1 EPs和eEPs的概念及特性
  • 3.1.1 EPs的概念
  • 3.1.2 EPs的特性及其常见形式
  • 3.1.3 eEPs的特性
  • 3.2 基于EPs和eEPs的分类算法
  • 3.2.1 基于EPs的分类特点
  • 3.2.2 基于EPs的分类算法
  • 3.2.3 基于eEPs的分类算法
  • 第四章 基于eEP的文本分类算法TCEP
  • 4.1 预处理过程
  • 4.2 基于区分能力的特征提取方法
  • 4.3 基于eEPs的中文文本分类算法TCEP
  • 4.3.1 预处理及特征提取模块的实现
  • 4.3.2 挖掘eEPs
  • 4.4.3 对未知样本的分类
  • 第五章 算法TCEP的性能分析
  • 5.1 实验数据
  • 5.2 类个数阈值β对分类性能的影响
  • 5.3 基于区分能力的特征提取方法和文档频率方法的比较
  • 5.4 算法TCEP与其它算法的比较
  • 结束语
  • 致谢
  • 参考文献
  • 附录:硕士期间发表的学术论文
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [11].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [12].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [13].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [14].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [15].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [16].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [17].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [18].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [19].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [20].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [21].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [22].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [23].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [24].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [25].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [26].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [27].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [28].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [29].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)
    • [30].网络教育资源的特征选择研究[J]. 教育与职业 2008(12)

    标签:;  ;  ;  ;  ;  

    一种基于eEPs的中文文本自动分类算法
    下载Doc文档

    猜你喜欢