论文摘要
随着数据库技术和网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。这些信息大都是文本数据,想从其中迅速有效地获得所需信息是非常困难的事情。这些海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为此,中文文本自动分类被研究者提出并进行了应用研究,研究中文文本分类具有重要的理论意义和实际应用价值:自动分类在速度和效率上要大大优于人工分类,它能节省大量的人力、物力和资金;自动文本分类可以提高中文信息搜索的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供帮助。现今,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文围绕文本分类技术展开了讨论,首先介绍了选题的研究的背景和意义,概述了国内外文本分类技术的研究现状,而后对文本分类的技术进行了详细的阐述,介绍了文本分类的一般过程。本文对文本表示、文本分词、特征选择、特征降维、分类算法和分类评估标准等文本分类领域所用到的技术进行了介绍并提出了一定的思考和见解。(1)介绍了现有语料库的问题和本系统的语料库的建立和维护,分析了文本的基本结构特点及文本中对分类过程有贡献的信息成分,对中文分词的常用方法和本文所用到的中科院计算所的ICTCLAS分词系统的框架结构和各部分作了描述。采用改进的CHI方法作为本文特征选择方法,并对此作了阐述。(2)在现有的文本向量特征权重的表示方法基础上,提出了一种改进的TF-IDF方法,使得特征词在不同长度的文档中的重要程度不同,从而体现了特征的区分能力并对该方法的正确性加以证明。(3)介绍了朴素贝叶斯分类方法,并给出了朴素贝叶斯分类算法。介绍了神经网络的基本特点,给出了一种改进的BP神经网络方法进行文本分类的思想,该方法使用VC维来确定隐层神经元个数,从而改进了BP隐层神经元只能由经验给出的问题。与传统单隐层的BP网络相比,本文使用含有2个隐藏层的BP神经网络,从而降低了网络误差。同时对该方法进行了算法描述和算法分析。(4)在以上研究的基础上,运用Visual C#2005和MS Access2000开发工具进行了部分实现工作,构建了一个中文文本分类系统CTCS (Chinese Text Classification System).文本分类作为数据挖掘的一项技术,随着数据库技术的发展,越来越得到研究者的重视,并进行应用研究。目前,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文首先对数据挖掘和文本挖掘作了概述,其中包括数据挖掘和文本挖掘的现状和文本分类的研究现状。在文本与处理阶段,总结了中文文本分词的主要特点和方法,包括主要的分词的常用方法,未登录词识别,并给出了中文分词目前的成果以及现有分词方法的局限等内容。其次,对文本的特征表示和特征选择的方法作了研究,包括中文文本表示的常用方法和特征选择的常用方法,对文档频率,互信息,信息增效益,卡方方法,文本证据权,交叉熵和优势率等方法作了介绍和比较。而后对主成分分析,潜在语义索引,非负矩阵分解,词汇聚类等特征提取和降维的方法作了介绍并指出了各个方法的优点和缺点。再次,研究了中文文本分类的常用的分类方法。包括贝叶斯分类方法,KNN分类方法,决策树分类方法,粗糙集分类方法,SVM分类方法以及遗传算法和神经网络分类方法等各种分类方法的特点和不足作了总结,并介绍了分类性能的评定方法。在文章的最后对文本分类的未来发展方向给出了一个展望。
论文目录
基于朴素贝叶斯和BP神经网络的中文文本分类问题研究摘要ABSTRACT第1章 绪论1.1 选题的研究背景和意义1.2 文本分类问题1.3 现有文本分类系统的不足1.4 论文的研究内容与思路1.5 论文的组织和各章概要第2章 中文文本预处理及中文分词2.1 中文文本的基本结构和特点2.2 中文语料库的建立和维护2.2.1 现有语料库的问题2.2.2 网页语料的获取2.3 中文文本分词2.3.1 机械分词方法2.3.2 基于统计的分词方法2.3.3 本文中文分词2.4 中文文本特征表示2.4.1 文本特征表示方法及其改进2.5 本章小结第3章 特征向量维数削减3.1 特征选择3.1.1 特征选择主要方法3.1.2 本文特征选择方法3.2 基于潜语义的特征提取3.2.1 特征提取方法3.2.2 潜在语义索引3.3 本章小结第4章 基于贝叶斯方法和BP神经网络中文文本分类研究4.1 中本文分分类常用方法4.1.1 朴素贝叶斯分类4.1.2 朴素贝叶斯分类算法4.2 神经网络的定义和特点4.2.1 神经网络的概念4.2.2 神经网络的性质和功能4.2.3 误差反向传播的前馈网络(BP网络)4.3 基于改进的BP网络的文本分类4.3.1 算法主要思想4.3.2 用VC维计算BP网络隐层神经元个数4.3.3 激活函数的构造及BP网络的实现4.3.4 算法分析4.4 本章小结第5章 系统总体设计及实验分析5.1 CTCS总体设计和中文文本数据集5.2 CTCS系统实现5.2.1 文本预处理5.2.2 训练和测试模块5.3 中文文本实验结果与分析评价第6章 总结与展望6.1 工作总结6.2 进一步的研究参考文献中文文本分类问题和相关技术探讨摘要第1章 引言1.1 数据挖掘概述1.2 文本挖掘概述1.3 文本分类的背景和意义1.4 文本分类的目前研究状况第2章 中文分词的主要方法和问题2.1 中文分词的主要目标2.2 分词的常用方法2.2.1 基本的机械分词方法2.2.2 基于统计的分词方法2.2.3 神经网络的分词方法2.2.4 基于期望的分词方法2.2.5 基于理解的分词方法2.2.6 全切分法2.2.7 基于条件随机场的分词方法2.2.8 专家系统分词方法2.3 未登录词识别2.4 歧义切分问题2.4.1 交叉型歧义2.4.2 组合型歧义2.5 中文分词成果2.6 现有分词方法的局限第3章 文本的特征表示和提取的基本方法3.1 特征选择和常用的方法3.1.1 文档频率(Document Frequency,DF)3.1.2 互信息(Mutual Information,MI)3.1.3 信息增益(Information Gain,IG)3.1.4 卡方估计(Chi-square Statistic,CHI)3.1.5 文本证据权(Weight Of Evidence Text)3.1.6 交叉熵(Cross Entropy,CE)3.1.7 优势率(Odds Ratio,OR)3.2 特征抽取和降维3.2.1 主成分分析(Principal Component Analysis,PCA)3.2.2 潜在语义索引(Latent Semantic Indexing,LSI)3.2.3 非负矩阵分解(Non-negative Matrix Factorization,NMF)3.2.4 词汇聚类方法(Term Clustering Method,TCM)第4章 中文文本分类的常用方法4.1 简单向量距离分类方法4.2 贝叶斯分类方法4.2.1 朴素贝叶斯分类方法(Naive Bayes Method,NBM)4.2.2 贝叶斯网络分类方法(Bayes Net Method,BNM)4.2.3 基于EM算法的朴素贝叶斯分类器(NBM Base on Expectation Maximization,EMNBM)4.3 K-NN分类方法4.4 决策树分类方法4.5 粗糙集分类方法4.6 SVM分类方法4.6.1 VC维和结构风险最小化原理4.6.2 支持向量机的二值分类4.7 遗传算法分类方法4.7.1 遗传算法的基本过程4.7.2 遗传算法的优缺点分析4.8 神经网络分类方法4.8.1 神经网络的组成和分类模型4.8.2 Hopfield模型4.8.3 BP网络模型4.8.4 径向基函数网络4.9 基于模糊逻辑的分类方法4.9.1 模糊集合定义及关系4.9.2 模糊(Fuzzy)关系的表示4.9.3 隶属度函数4.10 各种分类性能的评定第5章 结束语参考文献Researching on Chinese Text ClaSSification Based on Naive Bayes[ind BP NeuraI NetworkAbstractChapter 1 Forward1.1 Selected Topic Research Backgrounds and Significance1.2 Text Classification1.3 The shortage of Text Classification-System1.4 Research and Thought1.5 The Organizations and Chapters OutlineChapter 2 Chinesle text Pretretment Technology And Chinese Word Segmentation2.1 The Basic Structure and Characteristics of Chinese Text2.2 Establishment and Maintenance of Corpus2.2.1 The Shortage of Corpus2.2.2 Web Page pretreatment2.3 Chinese Word Segmentation2.3.1 The Segmentation Method Based On mechanical2.3.2 The Segmentation Method Based On Statistics2.3.3 Word Segmentation of This Paper2.4 Chinese Text Feature Selection2.4.1 The Feature Selection Method of This Paper2.5 Summary of This ChapterChapter 3 Feature Dimension Reduction3.1 Feature Selection3.1.1 The Method of Feature Selection3.1.2 The Feature Selection in This Paper3.2 Feature Extraction Based on Latent Semantic Index3.2.1 Feature Extraction Method3.2.2 Feature Extraction Method of This Paper3.3 Summary of This ChapterChapter 4 the Application of Neural Network in Chinese Text Classification4.1 The Common Method of Chinese Text Classification4.1.1 Naive Bayes Method, NBM4.1.2 Naive Bayes Algorithm4.2 The Definition and Characteristic of Neural Network4.2.1 The Concept of Neural Network4.2.2 Property and Function of Neural Network4.2.3 BP Neural Network Model4.3 Text Classification Based on Improved BP Neural Network4.3.1 The Main idea of Algorithm4.3.2 Used VC Dimension to Certain the Number of Neurons in Hidden Layer4.3.3 Construction of Activation Function and Realization of BP Network4.3.4 Analysis of Algorithms4.4 Summary of This ChapterChapter 5 System Design and Experimental Analysis5.1 The Overall Design of CTCS and Chinese Text Set5.2 The Implementation of CTCS5.2.1 Text Pretreatment5.2.2 Train and Test Module5.3 Experiment Results and Analysis5.4 Summary of This ChapterChapter 6 Summary and Prospects6.1 Summary6.2 Further ResearchDiscussing of Chinese Text Classification And Relevant TechnologyAbstractChapter 1 Forward1.1 the Overview of Data Mining1.2 the Overview of Text Mining1.3 Background and Meaning of Text Classification1.4 Research state of Text Classification at PresentChapter 2 the Main Technology and Question of Chinese Word Segmentation2.1 The Aim of Chinese Text Segmentation2.2 The Common Method of Chinese Text Segmentation2.2.1 The Segmentation Method Based On mechanical2.2.2 The Segmentation Method Based On Statistics2.2.3 The Segmentation Method Based On Neural Network2.2.4 The Segmentation Method Based On expectat i on2.2.5 The Segmentation Method Based On Understanding2.2.6 The Total Segmentation2.2.7 The Segmentation Method Based On Conditional Random Fields2.2.8 The Segmentation Method Based On Expert System2.3 The Discernable of Not Logged Word2.4 Ambiguous Segmentation Questions2.4.1 Intersection Ambiguous2.4.2 Combination Ambiguous2.5 Chinese Word Segmentation Achievements2.6 Limitations of Segmentation MethodChapter 3 the Based Method of Text Feature Representation and Extraction3.1 Feature Selection and the Common Method3.1.1 Document Frequency.DF3.1.2 Mutual Information,MI3.1.3 Information Gain,IG3.1.4 Chi-square Statistic,CHI3.1.5 Weight Of Evidence Text,WET3.1.6 Cross Entropy,CE3.1.7 Odds Ratio,OR3.2 Feature Extraction and Dimension Reduction3.2.1 Principal Component Analysis,PCA3.2.2 Latent Semantic Indexing,LSI3.2.3 Non-negative Matrix Factorization,NMF3.2.4 Term Clustering Method,TCMChapter 4 the Common Method of Text Classification4.1 Simple Vector Distance Classification Method4.2 Beyes Classification Method4.2.1 Naive Bayes Method, NBM4.2.2 Bayes Net Method, BNM4.2.3 NBM Base on Expectation Maximization, EMNBM4.3 K-NN Classification Method4.4 Decision Tree Classification method4.5 Rough Sets Classification Method4.6 SVM Method4.6.1 VC structural risk minimization principle4.6.2 Binary Classification of SVM4.7 Genetic Algorithm Classification Method4.7.1 The Basic Process of Genetic Algorithm4.7.2 Analysis on the Advantages and Disadvantages in GA4.8 Neural Network Classification Method4.8.1 The composition of neural network4.8.2 Hopfield Model4.8.3 BP Net Model4.8.4 Raidal Basis Function Net4.9 Classification Based on the of Fuzzy Logic4.9.1 The Definition and Relation of Fuzzy Set4.9.2 The Expression of Fuzzy Relation4.9.3 The Membership Function4.10 The Performance Appraisal of ClassifierChapter 5 Conclusion2005-2008硕士研究生期间发表的论文(第一作者)致谢
相关论文文献
- [1].基于贝叶斯分类器的中文文本分类[J]. 电子技术与软件工程 2016(22)
- [2].中文文本分类系统构架设计[J]. 信息与电脑(理论版) 2012(02)
- [3].中文文本分类中特征提取的方法[J]. 湖北工业大学学报 2010(02)
- [4].中文文本分类反馈学习研究[J]. 情报理论与实践 2009(06)
- [5].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版)网络.预览 2008(07)
- [6].不同情境下中文文本分类模型的表现及选择[J]. 湖南大学学报(自然科学版) 2016(04)
- [7].基于类内关键词的中文文本分类模型的改进[J]. 广西师范大学学报(自然科学版) 2009(03)
- [8].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版) 2008(07)
- [9].基于极限学习机的中文文本分类方法[J]. 重庆理工大学学报(自然科学) 2018(08)
- [10].基于局部线性判别嵌入算法的中文文本分类研究[J]. 情报理论与实践 2014(02)
- [11].基于演化超网络的中文文本分类方法[J]. 江苏大学学报(自然科学版) 2013(02)
- [12].中文文本分类关键技术的研究[J]. 电脑编程技巧与维护 2016(14)
- [13].基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术 2015(02)
- [14].中文文本分类特征选择的研究[J]. 皖西学院学报 2009(02)
- [15].多视图学习的中文文本分类研究[J]. 信息技术与信息化 2016(09)
- [16].中文文本分类中一种基于语义的特征降维方法[J]. 现代情报 2011(11)
- [17].应用于中文文本分类的改进KNN算法[J]. 今日科苑 2010(08)
- [18].中文文本分类中特征提取方法的比较与改进[J]. 兰州工业高等专科学校学报 2010(06)
- [19].基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报 2018(05)
- [20].改进的KNN方法及其在中文文本分类中的应用[J]. 西华大学学报(自然科学版) 2008(02)
- [21].基于朴素贝叶斯的新闻文本分类[J]. 科技风 2020(14)
- [22].DBN在中文文本分类中的应用[J]. 计算机工程与设计 2018(09)
- [23].基于CapsNet的中文文本分类研究[J]. 数据分析与知识发现 2018(12)
- [24].基于SVM的中文文本分类系统的设计与实现[J]. 电子设计工程 2016(16)
- [25].基于SA-SVM的中文文本分类研究[J]. 计算机应用与软件 2019(03)
- [26].基于信息熵加权的Word2vec中文文本分类研究[J]. 长春师范大学学报 2020(02)
- [27].基于TF-IDF中文文本分类实现[J]. 现代计算机 2020(06)
- [28].基于Python的中文文本分类的实现[J]. 福建电脑 2016(12)
- [29].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
- [30].基于张量空间模型的中文文本分类[J]. 合肥工业大学学报(自然科学版) 2010(12)
标签:中文文本分类论文; 特征选择论文; 神经网络论文; 中文分词论文; 文本分类论文;
基于朴素贝叶斯和BP神经网络的中文文本分类问题研究
下载Doc文档