基于朴素贝叶斯和BP神经网络的中文文本分类问题研究

基于朴素贝叶斯和BP神经网络的中文文本分类问题研究

论文摘要

随着数据库技术和网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。这些信息大都是文本数据,想从其中迅速有效地获得所需信息是非常困难的事情。这些海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为此,中文文本自动分类被研究者提出并进行了应用研究,研究中文文本分类具有重要的理论意义和实际应用价值:自动分类在速度和效率上要大大优于人工分类,它能节省大量的人力、物力和资金;自动文本分类可以提高中文信息搜索的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供帮助。现今,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文围绕文本分类技术展开了讨论,首先介绍了选题的研究的背景和意义,概述了国内外文本分类技术的研究现状,而后对文本分类的技术进行了详细的阐述,介绍了文本分类的一般过程。本文对文本表示、文本分词、特征选择、特征降维、分类算法和分类评估标准等文本分类领域所用到的技术进行了介绍并提出了一定的思考和见解。(1)介绍了现有语料库的问题和本系统的语料库的建立和维护,分析了文本的基本结构特点及文本中对分类过程有贡献的信息成分,对中文分词的常用方法和本文所用到的中科院计算所的ICTCLAS分词系统的框架结构和各部分作了描述。采用改进的CHI方法作为本文特征选择方法,并对此作了阐述。(2)在现有的文本向量特征权重的表示方法基础上,提出了一种改进的TF-IDF方法,使得特征词在不同长度的文档中的重要程度不同,从而体现了特征的区分能力并对该方法的正确性加以证明。(3)介绍了朴素贝叶斯分类方法,并给出了朴素贝叶斯分类算法。介绍了神经网络的基本特点,给出了一种改进的BP神经网络方法进行文本分类的思想,该方法使用VC维来确定隐层神经元个数,从而改进了BP隐层神经元只能由经验给出的问题。与传统单隐层的BP网络相比,本文使用含有2个隐藏层的BP神经网络,从而降低了网络误差。同时对该方法进行了算法描述和算法分析。(4)在以上研究的基础上,运用Visual C#2005和MS Access2000开发工具进行了部分实现工作,构建了一个中文文本分类系统CTCS (Chinese Text Classification System).文本分类作为数据挖掘的一项技术,随着数据库技术的发展,越来越得到研究者的重视,并进行应用研究。目前,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文首先对数据挖掘和文本挖掘作了概述,其中包括数据挖掘和文本挖掘的现状和文本分类的研究现状。在文本与处理阶段,总结了中文文本分词的主要特点和方法,包括主要的分词的常用方法,未登录词识别,并给出了中文分词目前的成果以及现有分词方法的局限等内容。其次,对文本的特征表示和特征选择的方法作了研究,包括中文文本表示的常用方法和特征选择的常用方法,对文档频率,互信息,信息增效益,卡方方法,文本证据权,交叉熵和优势率等方法作了介绍和比较。而后对主成分分析,潜在语义索引,非负矩阵分解,词汇聚类等特征提取和降维的方法作了介绍并指出了各个方法的优点和缺点。再次,研究了中文文本分类的常用的分类方法。包括贝叶斯分类方法,KNN分类方法,决策树分类方法,粗糙集分类方法,SVM分类方法以及遗传算法和神经网络分类方法等各种分类方法的特点和不足作了总结,并介绍了分类性能的评定方法。在文章的最后对文本分类的未来发展方向给出了一个展望。

论文目录

  • 基于朴素贝叶斯和BP神经网络的中文文本分类问题研究
  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 选题的研究背景和意义
  • 1.2 文本分类问题
  • 1.3 现有文本分类系统的不足
  • 1.4 论文的研究内容与思路
  • 1.5 论文的组织和各章概要
  • 第2章 中文文本预处理及中文分词
  • 2.1 中文文本的基本结构和特点
  • 2.2 中文语料库的建立和维护
  • 2.2.1 现有语料库的问题
  • 2.2.2 网页语料的获取
  • 2.3 中文文本分词
  • 2.3.1 机械分词方法
  • 2.3.2 基于统计的分词方法
  • 2.3.3 本文中文分词
  • 2.4 中文文本特征表示
  • 2.4.1 文本特征表示方法及其改进
  • 2.5 本章小结
  • 第3章 特征向量维数削减
  • 3.1 特征选择
  • 3.1.1 特征选择主要方法
  • 3.1.2 本文特征选择方法
  • 3.2 基于潜语义的特征提取
  • 3.2.1 特征提取方法
  • 3.2.2 潜在语义索引
  • 3.3 本章小结
  • 第4章 基于贝叶斯方法和BP神经网络中文文本分类研究
  • 4.1 中本文分分类常用方法
  • 4.1.1 朴素贝叶斯分类
  • 4.1.2 朴素贝叶斯分类算法
  • 4.2 神经网络的定义和特点
  • 4.2.1 神经网络的概念
  • 4.2.2 神经网络的性质和功能
  • 4.2.3 误差反向传播的前馈网络(BP网络)
  • 4.3 基于改进的BP网络的文本分类
  • 4.3.1 算法主要思想
  • 4.3.2 用VC维计算BP网络隐层神经元个数
  • 4.3.3 激活函数的构造及BP网络的实现
  • 4.3.4 算法分析
  • 4.4 本章小结
  • 第5章 系统总体设计及实验分析
  • 5.1 CTCS总体设计和中文文本数据集
  • 5.2 CTCS系统实现
  • 5.2.1 文本预处理
  • 5.2.2 训练和测试模块
  • 5.3 中文文本实验结果与分析评价
  • 第6章 总结与展望
  • 6.1 工作总结
  • 6.2 进一步的研究
  • 参考文献
  • 中文文本分类问题和相关技术探讨
  • 摘要
  • 第1章 引言
  • 1.1 数据挖掘概述
  • 1.2 文本挖掘概述
  • 1.3 文本分类的背景和意义
  • 1.4 文本分类的目前研究状况
  • 第2章 中文分词的主要方法和问题
  • 2.1 中文分词的主要目标
  • 2.2 分词的常用方法
  • 2.2.1 基本的机械分词方法
  • 2.2.2 基于统计的分词方法
  • 2.2.3 神经网络的分词方法
  • 2.2.4 基于期望的分词方法
  • 2.2.5 基于理解的分词方法
  • 2.2.6 全切分法
  • 2.2.7 基于条件随机场的分词方法
  • 2.2.8 专家系统分词方法
  • 2.3 未登录词识别
  • 2.4 歧义切分问题
  • 2.4.1 交叉型歧义
  • 2.4.2 组合型歧义
  • 2.5 中文分词成果
  • 2.6 现有分词方法的局限
  • 第3章 文本的特征表示和提取的基本方法
  • 3.1 特征选择和常用的方法
  • 3.1.1 文档频率(Document Frequency,DF)
  • 3.1.2 互信息(Mutual Information,MI)
  • 3.1.3 信息增益(Information Gain,IG)
  • 3.1.4 卡方估计(Chi-square Statistic,CHI)
  • 3.1.5 文本证据权(Weight Of Evidence Text)
  • 3.1.6 交叉熵(Cross Entropy,CE)
  • 3.1.7 优势率(Odds Ratio,OR)
  • 3.2 特征抽取和降维
  • 3.2.1 主成分分析(Principal Component Analysis,PCA)
  • 3.2.2 潜在语义索引(Latent Semantic Indexing,LSI)
  • 3.2.3 非负矩阵分解(Non-negative Matrix Factorization,NMF)
  • 3.2.4 词汇聚类方法(Term Clustering Method,TCM)
  • 第4章 中文文本分类的常用方法
  • 4.1 简单向量距离分类方法
  • 4.2 贝叶斯分类方法
  • 4.2.1 朴素贝叶斯分类方法(Naive Bayes Method,NBM)
  • 4.2.2 贝叶斯网络分类方法(Bayes Net Method,BNM)
  • 4.2.3 基于EM算法的朴素贝叶斯分类器(NBM Base on Expectation Maximization,EMNBM)
  • 4.3 K-NN分类方法
  • 4.4 决策树分类方法
  • 4.5 粗糙集分类方法
  • 4.6 SVM分类方法
  • 4.6.1 VC维和结构风险最小化原理
  • 4.6.2 支持向量机的二值分类
  • 4.7 遗传算法分类方法
  • 4.7.1 遗传算法的基本过程
  • 4.7.2 遗传算法的优缺点分析
  • 4.8 神经网络分类方法
  • 4.8.1 神经网络的组成和分类模型
  • 4.8.2 Hopfield模型
  • 4.8.3 BP网络模型
  • 4.8.4 径向基函数网络
  • 4.9 基于模糊逻辑的分类方法
  • 4.9.1 模糊集合定义及关系
  • 4.9.2 模糊(Fuzzy)关系的表示
  • 4.9.3 隶属度函数
  • 4.10 各种分类性能的评定
  • 第5章 结束语
  • 参考文献
  • Researching on Chinese Text ClaSSification Based on Naive Bayes[ind BP NeuraI Network
  • Abstract
  • Chapter 1 Forward
  • 1.1 Selected Topic Research Backgrounds and Significance
  • 1.2 Text Classification
  • 1.3 The shortage of Text Classification-System
  • 1.4 Research and Thought
  • 1.5 The Organizations and Chapters Outline
  • Chapter 2 Chinesle text Pretretment Technology And Chinese Word Segmentation
  • 2.1 The Basic Structure and Characteristics of Chinese Text
  • 2.2 Establishment and Maintenance of Corpus
  • 2.2.1 The Shortage of Corpus
  • 2.2.2 Web Page pretreatment
  • 2.3 Chinese Word Segmentation
  • 2.3.1 The Segmentation Method Based On mechanical
  • 2.3.2 The Segmentation Method Based On Statistics
  • 2.3.3 Word Segmentation of This Paper
  • 2.4 Chinese Text Feature Selection
  • 2.4.1 The Feature Selection Method of This Paper
  • 2.5 Summary of This Chapter
  • Chapter 3 Feature Dimension Reduction
  • 3.1 Feature Selection
  • 3.1.1 The Method of Feature Selection
  • 3.1.2 The Feature Selection in This Paper
  • 3.2 Feature Extraction Based on Latent Semantic Index
  • 3.2.1 Feature Extraction Method
  • 3.2.2 Feature Extraction Method of This Paper
  • 3.3 Summary of This Chapter
  • Chapter 4 the Application of Neural Network in Chinese Text Classification
  • 4.1 The Common Method of Chinese Text Classification
  • 4.1.1 Naive Bayes Method, NBM
  • 4.1.2 Naive Bayes Algorithm
  • 4.2 The Definition and Characteristic of Neural Network
  • 4.2.1 The Concept of Neural Network
  • 4.2.2 Property and Function of Neural Network
  • 4.2.3 BP Neural Network Model
  • 4.3 Text Classification Based on Improved BP Neural Network
  • 4.3.1 The Main idea of Algorithm
  • 4.3.2 Used VC Dimension to Certain the Number of Neurons in Hidden Layer
  • 4.3.3 Construction of Activation Function and Realization of BP Network
  • 4.3.4 Analysis of Algorithms
  • 4.4 Summary of This Chapter
  • Chapter 5 System Design and Experimental Analysis
  • 5.1 The Overall Design of CTCS and Chinese Text Set
  • 5.2 The Implementation of CTCS
  • 5.2.1 Text Pretreatment
  • 5.2.2 Train and Test Module
  • 5.3 Experiment Results and Analysis
  • 5.4 Summary of This Chapter
  • Chapter 6 Summary and Prospects
  • 6.1 Summary
  • 6.2 Further Research
  • Discussing of Chinese Text Classification And Relevant Technology
  • Abstract
  • Chapter 1 Forward
  • 1.1 the Overview of Data Mining
  • 1.2 the Overview of Text Mining
  • 1.3 Background and Meaning of Text Classification
  • 1.4 Research state of Text Classification at Present
  • Chapter 2 the Main Technology and Question of Chinese Word Segmentation
  • 2.1 The Aim of Chinese Text Segmentation
  • 2.2 The Common Method of Chinese Text Segmentation
  • 2.2.1 The Segmentation Method Based On mechanical
  • 2.2.2 The Segmentation Method Based On Statistics
  • 2.2.3 The Segmentation Method Based On Neural Network
  • 2.2.4 The Segmentation Method Based On expectat i on
  • 2.2.5 The Segmentation Method Based On Understanding
  • 2.2.6 The Total Segmentation
  • 2.2.7 The Segmentation Method Based On Conditional Random Fields
  • 2.2.8 The Segmentation Method Based On Expert System
  • 2.3 The Discernable of Not Logged Word
  • 2.4 Ambiguous Segmentation Questions
  • 2.4.1 Intersection Ambiguous
  • 2.4.2 Combination Ambiguous
  • 2.5 Chinese Word Segmentation Achievements
  • 2.6 Limitations of Segmentation Method
  • Chapter 3 the Based Method of Text Feature Representation and Extraction
  • 3.1 Feature Selection and the Common Method
  • 3.1.1 Document Frequency.DF
  • 3.1.2 Mutual Information,MI
  • 3.1.3 Information Gain,IG
  • 3.1.4 Chi-square Statistic,CHI
  • 3.1.5 Weight Of Evidence Text,WET
  • 3.1.6 Cross Entropy,CE
  • 3.1.7 Odds Ratio,OR
  • 3.2 Feature Extraction and Dimension Reduction
  • 3.2.1 Principal Component Analysis,PCA
  • 3.2.2 Latent Semantic Indexing,LSI
  • 3.2.3 Non-negative Matrix Factorization,NMF
  • 3.2.4 Term Clustering Method,TCM
  • Chapter 4 the Common Method of Text Classification
  • 4.1 Simple Vector Distance Classification Method
  • 4.2 Beyes Classification Method
  • 4.2.1 Naive Bayes Method, NBM
  • 4.2.2 Bayes Net Method, BNM
  • 4.2.3 NBM Base on Expectation Maximization, EMNBM
  • 4.3 K-NN Classification Method
  • 4.4 Decision Tree Classification method
  • 4.5 Rough Sets Classification Method
  • 4.6 SVM Method
  • 4.6.1 VC structural risk minimization principle
  • 4.6.2 Binary Classification of SVM
  • 4.7 Genetic Algorithm Classification Method
  • 4.7.1 The Basic Process of Genetic Algorithm
  • 4.7.2 Analysis on the Advantages and Disadvantages in GA
  • 4.8 Neural Network Classification Method
  • 4.8.1 The composition of neural network
  • 4.8.2 Hopfield Model
  • 4.8.3 BP Net Model
  • 4.8.4 Raidal Basis Function Net
  • 4.9 Classification Based on the of Fuzzy Logic
  • 4.9.1 The Definition and Relation of Fuzzy Set
  • 4.9.2 The Expression of Fuzzy Relation
  • 4.9.3 The Membership Function
  • 4.10 The Performance Appraisal of Classifier
  • Chapter 5 Conclusion
  • 2005-2008硕士研究生期间发表的论文(第一作者)
  • 致谢
  • 相关论文文献

    • [1].基于贝叶斯分类器的中文文本分类[J]. 电子技术与软件工程 2016(22)
    • [2].中文文本分类系统构架设计[J]. 信息与电脑(理论版) 2012(02)
    • [3].中文文本分类中特征提取的方法[J]. 湖北工业大学学报 2010(02)
    • [4].中文文本分类反馈学习研究[J]. 情报理论与实践 2009(06)
    • [5].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版)网络.预览 2008(07)
    • [6].不同情境下中文文本分类模型的表现及选择[J]. 湖南大学学报(自然科学版) 2016(04)
    • [7].基于类内关键词的中文文本分类模型的改进[J]. 广西师范大学学报(自然科学版) 2009(03)
    • [8].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版) 2008(07)
    • [9].基于极限学习机的中文文本分类方法[J]. 重庆理工大学学报(自然科学) 2018(08)
    • [10].基于局部线性判别嵌入算法的中文文本分类研究[J]. 情报理论与实践 2014(02)
    • [11].基于演化超网络的中文文本分类方法[J]. 江苏大学学报(自然科学版) 2013(02)
    • [12].中文文本分类关键技术的研究[J]. 电脑编程技巧与维护 2016(14)
    • [13].基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术 2015(02)
    • [14].中文文本分类特征选择的研究[J]. 皖西学院学报 2009(02)
    • [15].多视图学习的中文文本分类研究[J]. 信息技术与信息化 2016(09)
    • [16].中文文本分类中一种基于语义的特征降维方法[J]. 现代情报 2011(11)
    • [17].应用于中文文本分类的改进KNN算法[J]. 今日科苑 2010(08)
    • [18].中文文本分类中特征提取方法的比较与改进[J]. 兰州工业高等专科学校学报 2010(06)
    • [19].基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报 2018(05)
    • [20].改进的KNN方法及其在中文文本分类中的应用[J]. 西华大学学报(自然科学版) 2008(02)
    • [21].基于朴素贝叶斯的新闻文本分类[J]. 科技风 2020(14)
    • [22].DBN在中文文本分类中的应用[J]. 计算机工程与设计 2018(09)
    • [23].基于CapsNet的中文文本分类研究[J]. 数据分析与知识发现 2018(12)
    • [24].基于SVM的中文文本分类系统的设计与实现[J]. 电子设计工程 2016(16)
    • [25].基于SA-SVM的中文文本分类研究[J]. 计算机应用与软件 2019(03)
    • [26].基于信息熵加权的Word2vec中文文本分类研究[J]. 长春师范大学学报 2020(02)
    • [27].基于TF-IDF中文文本分类实现[J]. 现代计算机 2020(06)
    • [28].基于Python的中文文本分类的实现[J]. 福建电脑 2016(12)
    • [29].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
    • [30].基于张量空间模型的中文文本分类[J]. 合肥工业大学学报(自然科学版) 2010(12)

    标签:;  ;  ;  ;  ;  

    基于朴素贝叶斯和BP神经网络的中文文本分类问题研究
    下载Doc文档

    猜你喜欢