基于词跨度的中文文本关键词提取及在文本分类中的应用

基于词跨度的中文文本关键词提取及在文本分类中的应用

论文摘要

文本关键词提取是文本自动化处理常用的一项关键技术,若能对海量的文本资源进行关键词标注,并按其归纳整理,可实现文本资源的高效管理和便捷使用。常用的关键词提取方法主要是基于统计的方法,此类方法思想简单、便于实际应用。但是,该方法过多地依赖于词频统计,因此提取的关键词中常包含一定量的高频而非关键的噪声词。本文围绕文本关键词提取中的噪声词问题,改进了传统的基于统计的文本关键词提取方法,以提高算法精度,并将改进后的关键词提取方法应用于文本分类的特征降维和特征项权值计算中。本文的主要研究内容包括:(1)为了提高文本关键词提取算法的精度,本文给出了一种基于词跨度的中文文本关键词提取方法。该方法在传统的关键词提取方法中引入词跨度概念,借助词跨度实现对噪声词的准确识别和过滤。实验结果显示:与传统算法相比,该算法在召回率和准确率上有了明显的提高,并且对于不同类型的文本,都具有较为稳定的表现。(2)文本分类中的特征降维是指通过对特征项进行筛选,达到降低特征空间维度的目的,但由于特征项的数量庞大,对其进行筛选的计算复杂度往往很高。因此,本文采用关键词提取的方式,首先对单个文本中权重过低的特征项进行过滤,减少了参与特征选择的特征项数量。实验证明:该方法在避免大量损失有效特征的基础上,降低了特征降维的计算复杂度。(3)在文本分类中,准确地表达特征项对其所在文本的重要程度,即特征项权值,对文本类别的区分具有重要影响。因此,针对经典TF*IDF权值计算法对特征项表达不够全面的缺点,本文通过用关键词权重TW替代词频TF,并考虑了特征项与类别之间的关系来对其进行改进,即TW*IDF*CHI。实验结果表明,基于TW*IDF*CHI的分类计算能有效提高分类性能。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 关键词提取的研究现状
  • 1.2.2 文本分类的研究现状
  • 1.3 研究内容和章节安排
  • 1.3.1 研究内容
  • 1.3.2 章节安排
  • 2 相关理论介绍
  • 2.1 关键词提取概述
  • 2.1.1 关键词提取的概念
  • 2.1.2 中文分词技术
  • 2.1.3 常用的关键词提取方法
  • 2.1.4 性能评价指标
  • 2.2 文本分类概述
  • 2.2.1 文本分类的概念
  • 2.2.2 分类过程及框架
  • 2.2.3 文本表示模型
  • 2.2.4 特征降维方法
  • 2.2.5 常用的分类算法
  • 2.2.6 分类性能评测
  • 2.3 本章小节
  • 3 基于词跨度的中文文本关键词提取
  • 3.1 中文关键词提取存在的问题
  • 3.2 词跨度介绍
  • 3.3 基于词跨度的中文文本关键词提取方法
  • 3.3.1 分词处理
  • 3.3.2 停用词过滤
  • 3.3.3 特征统计
  • 3.3.4 权重计算
  • 3.4 实验分析
  • 3.4.1 实验环境
  • 3.4.2 实验数据
  • 3.4.3 评价方法
  • 3.4.4 实验设计与结果分析
  • 3.5 本章小结
  • 4 基于词跨度的关键词提取在文本分类中的应用
  • 4.1 基于VSM的文本分类存在的问题
  • 4.2 特征降维方法研究
  • 4.2.1 常用的特征降维方法
  • 4.2.2 改进的特征降维方法
  • 4.3 特征项权值计算方法研究
  • 4.3.1 常用的特征项权值计算方法
  • 4.3.2 TF*IDF法
  • 4.3.3 改进的特征项权值计算方法
  • 4.4 实验分析
  • 4.4.1 实验环境
  • 4.4.2 实验数据
  • 4.4.3 评价方法
  • 4.4.4 实验设计与结果分析
  • 4.5 本章小结
  • 5 总结与展望
  • 5.1 本文内容总结
  • 5.2 进一步研究展望
  • 参考文献
  • 致谢
  • 攻读学位期间主要科研成果
  • 相关论文文献

    • [1].关键词[J]. 中国医学影像技术 2019(12)
    • [2].关键词[J]. 糖尿病新世界 2019(21)
    • [3].作者书写关键词须知[J]. 白求恩医学杂志 2019(04)
    • [4].2019国人年度感受关键词[J]. 小康 2019(36)
    • [5].关键词[J]. 中国卫生产业 2019(35)
    • [6].关键词[J]. 糖尿病新世界 2019(23)
    • [7].关键词的书写要求[J]. 大连医科大学学报 2019(06)
    • [8].创意写作的“关键词”联想方法研究[J]. 写作 2019(06)
    • [9].关键词[J]. 中国介入影像与治疗学 2020(02)
    • [10].关键词[J]. 中国卫生产业 2020(01)
    • [11].关键词的书写要求[J]. 大连医科大学学报 2020(01)
    • [12].关键词的写作规范[J]. 医学教育研究与实践 2020(02)
    • [13].关键词[J]. 股市动态分析 2020(06)
    • [14].养生关键词[J]. 中医健康养生 2020(04)
    • [15].关键词[J]. 中国卫生产业 2020(03)
    • [16].关键词的写作规范[J]. 医学教育研究与实践 2020(01)
    • [17].关键词的写作规范[J]. 医学教育研究与实践 2020(03)
    • [18].关键词[J]. 中国卫生产业 2020(10)
    • [19].关键词[J]. 中国介入影像与治疗学 2020(06)
    • [20].21世纪近10年的艺术界关键词[J]. 世界文化 2020(04)
    • [21].网络视域下领域重要关键词提取方法的比较研究[J]. 情报资料工作 2020(03)
    • [22].关键词[J]. 中国医学影像技术 2020(06)
    • [23].关键词[J]. 中国介入影像与治疗学 2020(07)
    • [24].关键词[J]. 股市动态分析 2020(12)
    • [25].关键词[J]. 中国医学影像技术 2020(07)
    • [26].关键词[J]. 中国介入影像与治疗学 2020(08)
    • [27].关键词的写作规范[J]. 医学教育研究与实践 2020(04)
    • [28].关键词[J]. 中国卫生产业 2020(15)
    • [29].关键词[J]. 中国卫生产业 2020(12)
    • [30].差异与共识:治理研究的反思性阐释——基于中、美、韩三国治理研究权威论文的关键词网络分析[J]. 陕西师范大学学报(哲学社会科学版) 2020(04)

    标签:;  ;  ;  ;  ;  

    基于词跨度的中文文本关键词提取及在文本分类中的应用
    下载Doc文档

    猜你喜欢