论文摘要
随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这些文本信息进行分门别类是非常重要的。文本分类技术在一定程度上解决了信息杂乱的问题,而且它已成为搜索引擎、垃圾邮件过滤等领域的基础。所以,对文本分类的研究有着重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。其次通过对权重计算算法TFIDF的分析研究,针对传统TFIDF算法忽略特征项的在整个样本集上各个类之间的分布情况这一不足,在传统算法中增加了表示特征项在各个类间的分布情况的不均衡变量以及表示类内各个文本间分布情况的参数,使改进后的权重计算方法更能够体现出特征项的类别贡献率。对信息增益特征选择方法进行了分析,针对信息增益方法在样本集不均匀时,性能大幅下降的缺点,引入了体现特征项类别表征能力的分散度和集中度两个变量,使信息增益方法进一步提升性能。对KNN和SVM分类方法进行了分析,在此基础上,针对SVM方法在最优分界面附近分类准确度降低的缺点和KNN分类速度慢的缺点,提出了SVM-KNN分类方法,提高了分类精度和速度。并针对该算法在样本分布不平衡时存在的不足之处,加入了惩罚机制,进行了改进。在理论研究的基础上,构建了一个包括预处理模块、权重计算和特征选择模块、分类模块以及性能评测模块四个功能模块的中文文本分类系统,用C++语言实现。最后利用实现的中文文本分类系统作为测试平台,利用Sogou实验室语料库语料为样本集,通过实验验证了对权重计算和特征选择算法以及SVM-KNN分类算法改进的有效性和可行性。
论文目录
相关论文文献
- [1].基于SVM-KNN算法的特色数据库分类体系初探[J]. 情报科学 2009(11)
- [2].基于经验模态分解的SVM-KNN高光谱图像分类方法[J]. 微型电脑应用 2016(12)
- [3].SVM-KNN分类器在异常行为检测中的应用[J]. 辽宁科技大学学报 2010(05)
- [4].基于半监督学习的SVM-KNN[J]. 北京交通大学学报 2009(06)
- [5].基于增量学习的SVM-KNN网络入侵检测方法[J]. 计算机工程 2020(04)
- [6].基于SVM-KNN茶叶图像纹理分类[J]. 中国茶叶加工 2016(06)
- [7].基于案例推理和SVM-KNN的电能质量扰动分类方法[J]. 兰州理工大学学报 2017(04)
- [8].基于多分类SVM-KNN的实体关系抽取方法[J]. 数据采集与处理 2015(01)
- [9].基于SVM-KNN的降雨条件下短时公交客流预测[J]. 交通信息与安全 2018(05)
- [10].一种新的银行信用风险识别方法:SVM-KNN组合模型[J]. 金融监管研究 2020(07)
- [11].基于曲波纹理分析和SVM-KNN分类的假指纹检测算法[J]. 计算机科学 2014(12)
- [12].SVM-KNN分类器在网页分类中的应用[J]. 科学技术与工程 2009(16)
- [13].SVM-KNN分类器在赤潮生物图像识别中的应用[J]. 心智与计算 2009(01)
- [14].基于SVM-KNN的人体步态相位识别[J]. 科技视界 2019(28)
- [15].一种新的基于SVM-KNN的Web文本分类算法[J]. 计算机与数字工程 2010(04)
- [16].傅里叶识别分析在赤潮生物自动识别中的应用研究[J]. 海洋湖沼通报 2011(04)
- [17].基于SVM-KNN的文本分类算法及其分析[J]. 计算机时代 2010(08)
- [18].前缀字母为特征在维吾尔语文本情感分类中的研究[J]. 科教导刊(中旬刊) 2016(09)