论文摘要
本文讨论文本分类技术和方法。第一章介绍了自动文本分类技术的产生背景及其意义,包括自动文本分类的问题描述、评价方法以及技术的种类,综述了国外技术的研究现状。第二章介绍中文文本自动分类的技术基础。第三章讨论文本分类的关键技术,对文本分类中的文本表示、特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。第四章是本论文的重点,首先对于分词歧义处理的情况进行了分析,讨论了上下文的双向扫描分词算法。引进χ2统计量参与项的权值的计算,把现在通用的tfc加权法的不足之处作了分析。另外,对于文本分类的过程中,老的做法是所有类别都具有同一个特征项集,使所选出的特征并不具备区分类别的能力或者有些类别的特征概括不全。所以本文才讨论对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不是相同。而后又将项的类内文档频率的概念引入项的权重计算中去,加强了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。第五章通过实验阐明了改进后的权重计算方法的优点,更证明了项打分分类算法是可以运用的。
论文目录
内容提要第一章 绪论1.1 课题背景及意义1.2 文本自动分类技术的应用价值1.3 文本分类系统的问题描述1.3.1 评价方法1.3.2 系统任务1.4 文本分类系统的研究情况第二章 文本分类2.1 特征选择2.2 项的权重2.3 文本分类的评估指标2.4 常用分类算法2.4.1 引言2.4.2 文本分类模型2.4.3 几种分类算法的研究第三章 中文文本自动分类的技术基础3.1 相关定义3.2 分类3.2.1 单标记与多标记分类3.2.2 类别的分类与文档的分类3.3 机器学习方法3.4 向量空间模型3.4.1 文献空间3.4.2 项权重3.4.3 相似度度量3.4.4 向量空间模型的优势3.5 中文自动分词3.5.1 词典的分词方法3.5.2 基于统计的分词方法3.5.3 歧义的消解3.5.4 未登录词第四章 中文文本自动分类系统的设计与实现4.1 中文自动分词4.1.1 中文分词模块算法4.1.2 分词词典4.2 系统简介4.3 项打分分类算法的实现4.4 特征提取4.3.1 传统的 TF-IDF 加权法4.3.2 改进的 TF-IDF 加权法4.3.3 本系统所用到的权重设定方法4.5 本章小结第五章 实验及分析5.1 实验所用语料库5.2 权重计算算法比较5.3 项打分法与KNN 法结果比较5.4 T 取不同值的情况下的实验结果比较第六章 总结与展望6.1 总结6.2 展望参考文献摘要ABSTRACT致谢导师及作者简介
相关论文文献
标签:中文分词论文; 文本分类论文; 权重论文; 特征选择论文; 向量空间模型论文;