论文摘要
随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,另一方面却是信息的杂乱无序。而文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评价的基础上,对特征选择、特征加权进行了深入研究。本文的主要研究工作如下:(1)针对文本分类中的高维特征空间和冗余特征问题,提出了一种基于类别分布的特征选择,并与ECBF算法相结合,给出了一种二次特征选择方法。其中,基于类别分布的特征选择方法可以较好的处理高维空间问题,并且对特征集进行初步筛选,ECBF算法能够合理的衡量特征之间的冗余程度,用来处理特征冗余问题。通过该二次特征选择方法不仅可以为文本分类选择合适的特征,而且还可以减少大量的冗余特征,从而提高文本分类器的性能。(2)针对文本分类中的特征加权问题,本文首先详细分析了最经典也是常用的估算特征权重的TF-IDF方法,发现TF-IDF只是能较好的表达一个特征词对一个文档的区分能力,但是没有引入特征词区分一个类和其他类的能力的表示。文本在研究朴素贝叶斯分类模型和TF-IDF特点后,提出一种改进的特征加权估算方法。该估算方法有效的对各个特征词的类别区分能力给出合适的权重。本文从文本分类的特征选择和特征加权两个方面,分别提出改进的方法,在不同程度上提高了文本分类的性能。
论文目录
相关论文文献
- [1].基于产品特征词关系识别的评论倾向性合成方法[J]. 情报学报 2013(08)
- [2].北京官话区方言特征词说略[J]. 渤海大学学报(哲学社会科学版) 2017(04)
- [3].丰城方言个体特征词研究[J]. 宜春学院学报 2016(05)
- [4].方言特征词理论与研究方法综述[J]. 现代语文(语言研究版) 2014(11)
- [5].汉语特征词跨域使用的类型和特点[J]. 华中学术 2016(04)
- [6].论重庆方言个体特征词[J]. 戏剧之家 2019(31)
- [7].基于特征评分和评论特征词的协同推荐方法[J]. 科学技术创新 2019(30)
- [8].汉语方言“孩子”类称谓的特征词研究[J]. 现代语文(语言研究版) 2016(01)
- [9].闽方言特征词“厝”的语义演变探究[J]. 鸡西大学学报 2013(11)
- [10].基于情感主题特征词加权的微博评论聚类算法研究[J]. 现代电子技术 2020(23)
- [11].微博用户分类的特征词权重优化及推荐策略[J]. 信息网络安全 2012(08)
- [12].关于“方言特征词”理论的回顾及思考[J]. 武陵学刊 2011(05)
- [13].一种面向军事文本的领域特征词向量描述方法[J]. 计算机工程 2016(08)
- [14].基于语法模式的评论特征词提取[J]. 广东水利电力职业技术学院学报 2014(04)
- [15].基于综合支持度的广义空间实体关系特征词提取方法[J]. 计算机与现代化 2014(08)
- [16].基于双粒度模型的中文情感特征词提取研究[J]. 重庆邮电大学学报(自然科学版) 2014(03)
- [17].领域同义特征词的统计规律及其在情感分析上的应用研究[J]. 计算机应用研究 2014(11)
- [18].产品评论文本中特征词提取及其关联模型构建与应用[J]. 中国机械工程 2017(22)
- [19].基于网页特征的特征词提取技术[J]. 西南民族大学学报(自然科学版) 2014(01)
- [20].特征词抽取和相关性融合的伪相关反馈查询扩展[J]. 现代图书情报技术 2011(01)
- [21].贝叶斯文本分类中特征词缺失的补偿策略[J]. 哈尔滨工业大学学报 2008(06)
- [22].基于特征词相交和流形学习的文本分类方法[J]. 河北工业大学学报 2014(02)
- [23].以方言特征词探究皖西南二次葬的文化及根源[J]. 安徽理工大学学报(社会科学版) 2015(05)
- [24].皖西南方言特征词[J]. 安徽理工大学学报(社会科学版) 2014(03)
- [25].面向查询扩展的特征词频繁项集挖掘算法[J]. 现代图书情报技术 2011(04)
- [26].基于特征词权重变更的检索优化策略[J]. 情报科学 2016(07)
- [27].提取核心特征词的惩罚性矩阵分解方法——以共词分析为例[J]. 现代图书情报技术 2014(03)
- [28].基于特征词复合权重的关联网页分类[J]. 计算机科学 2011(03)
- [29].基于特征词位置因素的音乐情感智能分类算法[J]. 电子设计工程 2020(17)
- [30].基于词向量的特征词选择[J]. 计算机技术与发展 2018(06)