基于词语权重的中文文本分类算法的研究

基于词语权重的中文文本分类算法的研究

论文摘要

随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息以及有效地利用这些信息就成了当前研究的热点。文本分类在信息检索中起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权重方法的缺点,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种改进的权值计算方法。该权值计算方法将CHI统计量公式引进到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了TF-IDF与X2统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提高。论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算法,证明了算法的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • §1-1 文本分类研究的背景及意义
  • 1-1-1 文本分类概述
  • 1-1-2 研究背景及意义
  • §1-2 文本分类国内外研究现状
  • 1-2-1 文本分类在国外的发展
  • 1-2-2 文本分类在国内的发展
  • §1-3 课题研究的工作和内容组织
  • 1-3-1 课题研究的内容及主要工作
  • 1-3-2 论文的章节安排
  • 第二章 文本分类的相关技术
  • §2-1 文本分类的基本概念
  • 2-1-1 文本分类问题描述
  • 2-1-2 文本分类的技术线路
  • §2-2 文本表示模型
  • 2-2-1 文本表示方法
  • 2-2-2 向量空间模型
  • §2-3 常用特征项提取方法
  • 2-3-1 词频方法DF(Document Frequency: DF)
  • 2-3-2 信息增益方法IG(Information Gain:IG)
  • 2-3-3 互信息方法MI(Mutual Information:MI)
  • 2-3-4 X2统计量(CHI)
  • §2-4 常用的几种分类算法
  • 2-4-1 简单向量距离算法
  • 2-4-2 KNN(近邻居)算法
  • 2-4-3 朴素贝叶斯算法
  • 2-4-4 神经网络算法
  • §2-5 本章小结
  • 第三章 词语权重计算方法的改进
  • §3-1 常用的特征提取方法
  • 3-1-1 文档频数DF
  • 3-1-2 信息增益
  • 3-1-3 期望交叉熵
  • 3-1-4 互信息
  • 3-1-5 X2统计(CHI)
  • §3-2 传统的TFIDF 特征权重算法分析
  • §3-3 传统的TFIDF 特征权重算法改进
  • 3-3-1 传统的TFIDF 特征权重算法的不足
  • 3-3-2 对传统TFIDF 特征权重算法的改进
  • §3-4 实验结果与分析
  • 3-4-1 实验的介绍
  • 3-4-2 传统的TFIDF 特征权重算法实验
  • 3-4-3 改进的 TFIDF 特征权重算法实验
  • 3-4-4 特征权重算法改进前与改进后的对比图
  • 3-4-5 特征权重算法的对分类性能的影响
  • §3-5 本章小结
  • 第四章 基于词语权重的文本分类系统的设计与实现
  • §4-1 文本分类系统实现的目的与意义
  • §4-2 文本分类系统框架设计
  • §4-3 文本分类系统总体结构
  • §4-4 文本分类系统的功能模块说明
  • 4-4-1 语料库维护
  • 4-4-2 网页预处理
  • 4-4-3 文本表示
  • 4-4-4 基于词语权重的分类模型
  • 4-4-5 训练集和测试集
  • 4-4-6 性能评估模块
  • §4-5 文本分类实验
  • 4-5-1 实验环境
  • 4-5-2 实验过程及结果
  • 4-5-3 实验结果分析
  • 第五章 总结和展望
  • §5-1 总结
  • §5-2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].中文网络评论的情感特征项选择研究[J]. 信息系统学报 2012(01)
    • [2].应用特征项分布信息的信息增益改进方法研究[J]. 山东大学学报(理学版) 2009(11)
    • [3].一种带有显著特征项的模糊聚类算法[J]. 河南大学学报(自然科学版) 2011(02)
    • [4].基于特征项权重自动分解的文本聚类[J]. 计算机工程 2011(11)
    • [5].基于位置的特征项权重算法[J]. 中国新技术新产品 2011(14)
    • [6].基于特征项聚合的古典诗歌分类模型[J]. 东华大学学报(自然科学版) 2014(05)
    • [7].基于科技论文多特征项共现突发强度分析方法的算法实现与可视化图谱研究[J]. 图书情报工作 2015(24)
    • [8].本体视图特征项提取算法及其在智能检索中的应用[J]. 图书情报工作 2010(10)
    • [9].基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J]. 电子学报 2015(07)
    • [10].基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J]. 计算机应用与软件 2015(10)
    • [11].基于语义特征项列表的工艺知识推送技术研究[J]. 现代制造工程 2016(09)
    • [12].基于科技文献多特征项共现的图谱可视化方法研究[J]. 中国科技资源导刊 2017(01)
    • [13].基于特征项扩展的中文文本分类方法[J]. 应用科技 2010(03)
    • [14].基于Spark和改进的TF-IDF算法的用户特征分析[J]. 软件工程 2016(10)
    • [15].基于本体视图特征项抽取方法研究[J]. 计算机应用研究 2010(01)
    • [16].基于特征项的文献共现网络在学术信息检索中的应用[J]. 图书情报工作 2014(15)
    • [17].文本分类中一种改进的特征项权重计算方法[J]. 福建师范大学学报(自然科学版) 2020(02)
    • [18].一种基于词长的TFIDF特征项权值计算方法[J]. 电脑知识与技术 2011(32)
    • [19].领域概念术语提取中特征项自动抽取方法[J]. 计算机工程与设计 2012(08)
    • [20].科研机构的科研状况研究——基于论文特征项共现分析方法[J]. 国家图书馆学刊 2011(03)
    • [21].基于特征相关的改进加权朴素贝叶斯分类算法[J]. 厦门大学学报(自然科学版) 2012(04)
    • [22].基于音频特征的乐器分类研究[J]. 软件导刊 2018(06)
    • [23].一种结合文档频率和互信息的特征项提取方法[J]. 电脑知识与技术 2012(11)
    • [24].Web文本分类中特征项权重的研究[J]. 科技和产业 2010(02)
    • [25].基于IPA评价的上海世博会服务特征感知实证研究[J]. 中国市场 2010(49)
    • [26].基于LSI/SVD的文本分类方法研究[J]. 微计算机信息 2009(30)
    • [27].Web文本分类技术研究[J]. 福建电脑 2008(09)
    • [28].结合CHI统计和改进TF-IDF算法的微博特征项提取[J]. 电子世界 2016(22)
    • [29].基于DOM的信息检索研究[J]. 信息网络安全 2014(05)
    • [30].改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作 2013(03)

    标签:;  ;  ;  ;  ;  

    基于词语权重的中文文本分类算法的研究
    下载Doc文档

    猜你喜欢