基于贝叶斯模型的文档分类及相关技术研究

基于贝叶斯模型的文档分类及相关技术研究

论文摘要

随着Internet的迅猛发展和电子文档信息的不断丰富,文档自动分类日益成为信息检索和自然语言处理领域的研究热点。基于贝叶斯模型的文档分类具有简单、直观、性能稳定的优点,但面对复杂的文档分类问题,仍然存在许多急待解决的问题。本文将针对贝叶斯文档分类的几个关键问题进行深入研究和探索,具体内容和创新成果概括如下:(1)对以朴素贝叶斯模型、半朴素贝叶斯模型、树形增强朴素贝叶斯模型为代表的广义朴素贝叶斯模型在网络结构、分类原理、学习方法等方面的异同进行理论分析,证明通过有效的贝叶斯结构改进,可以提高模型的文档分类性能。这为进一步提升贝叶斯模型提供了理论依据。(2)提出一种基于关联特征扩展的特征选择算法。特征选择对文档分类的性能影响很大,即便是同样的分类器在不同的特征集上的性能也会有很大的差异。论文通过对现有特征选择算法的分析,总结出现有特征选择算法的三个问题:特征空间不完备;特征集中信息冗余明显;特征选择的效率不高。针对这些问题,论文提出先利用关联特征对原始特征集进行扩展,再利用改进的相关性分析测度和启发式规则进行冗余检测和特征选择的方法。由于算法避免了对所有特征对之间的相关性分析,因此具有O ( NlogN)的算法时间复杂度,同时通过冗余分析和排除,增加了特征集的信息量。(3)提出一种贝叶斯潜在语义模型。与传统贝叶斯模型相比,该模型最大的特点在于不仅考虑了词条在文档中的统计特征,而且对每个词条在不同上下文中的语义进行了辨析。通过将概念特征引入到贝叶斯模型中,建立起传统特征与概念,概念与类别之间的映射关系,借助这种映射关系可以更好的利用词频和词义进行文档分类。对模型训练时面临的数据缺失和效率问题,论文采用了改进的EM算法和特征优化、概念选择等预处理,提高了潜在语义模型的分类精度和学习效率。(4)提出一种新的半监督语义分类模型。模型以语义支持向量机和贝叶斯潜在语义模型为基础,利用大量无标记样本和协同训练算法Co-models,对模型在少量标记样本集中的性能加以改进。与传统协同算法Co-training不同,算法Co-models不对文档集有任何依赖和限制,而是利用不同模型间的固有差异,反复对无标记样本进行分类和样本集扩充,并借此逐步提高协同模型对无标记样本的分类精度。通过在文档集Reuters-21578和20NG上的实验,证明该模型在少量标记样本集中同样可以取得较好的泛化性能。(5)提出一种语言独立的贝叶斯集成分类模型。现有文档分类模型一般只针对

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 论文主要工作
  • 1.4 论文组织结构
  • 2 文档分类相关技术
  • 2.1 文档分类
  • 2.1.1 问题描述
  • 2.1.2 多类别文档分类
  • 2.2 文档聚类
  • 2.3 文档表示
  • 2.3.1 文档特征
  • 2.3.2 向量空间模型
  • 2.4 文档预处理
  • 2.4.1 特征选择
  • 2.4.2 特征抽取
  • 2.5 文档分类模型
  • 2.5.1 贝叶斯模型
  • 2.5.2 支持向量机
  • 2.5.3 k 近邻分类器
  • 2.5.4 决策树
  • 2.6 标准数据集
  • 2.7 分类器性能评价
  • 2.8 本章小结
  • 3 贝叶斯分类模型
  • 3.1 概述
  • 3.2 朴素贝叶斯模型
  • 3.3 半朴素贝叶斯模型
  • 3.4 树形增强朴素贝叶斯模型
  • 3.5 TAN 扩展模型
  • 3.6 贝叶斯增量模型
  • 3.7 实验结果与分析
  • 3.8 本章小结
  • 4 文档特征选择算法研究与改进
  • 4.1 概述
  • 4.2 特征选择算法研究
  • 4.2.1 Focus 算法
  • 4.2.2 Relief 算法
  • 4.3 基于关联特征扩展的特征选择算法
  • 4.3.1 基本思想
  • 4.3.2 相关性分析测度
  • 4.4 EFFS 算法分析
  • 4.4.1 关联特征集创建
  • 4.4.2 特征选择
  • 4.5 实验结果与分析
  • 4.5.1 实验设置
  • 4.5.2 实验结果分析
  • 4.6 本章小结
  • 5 贝叶斯潜在语义模型
  • 5.1 引言
  • 5.2 基于词vs 概念的文档分类
  • 5.3 本体库与WordNet
  • 5.4 相关研究
  • 5.4.1 概念特征扩展
  • 5.4.2 潜在语义分析
  • 5.5 贝叶斯潜在语义模型分析
  • 5.5.1 贝叶斯潜在语义模型
  • 5.5.2 模型优化
  • 5.6 实验结果与分析
  • 5.6.1 实验设置
  • 5.6.2 实验结果与分析
  • 5.7 本章小结
  • 6 一种新的半监督语义分类模型
  • 6.1 引言
  • 6.2 相关研究
  • 6.2.1 EM 算法
  • 6.2.2 TSVM
  • 6.2.3 Self-training 算法
  • 6.2.4 Co-training 算法
  • 6.2.5 主动采样方法
  • 6.3 新的半监督语义分类模型
  • 6.3.1 算法框架
  • 6.3.2 语义支持向量机
  • 6.3.3 样本主动选择方法
  • 6.3.4 分类判决集成
  • 6.4 实验结果与分析
  • 6.4.1 实验设置
  • 6.4.2 实验结果
  • 6.5 进一步的讨论
  • 6.6 本章小结
  • 7 语言无关的贝叶斯集成分类模型
  • 7.1 引言
  • 7.2 集成分类模型研究
  • 7.2.1 概述
  • 7.2.2 集成的差异性及其度量
  • 7.2.3 判决集成
  • 7.3 提高集成的差异性和语言独立性
  • 7.3.1 问题提出
  • 7.3.2 贝叶斯分量模型
  • 7.3.3 贝叶斯集成创建
  • 7.4 自适应判决集成方法
  • 7.4.1 问题描述
  • 7.4.2 Clustering and Selection
  • 7.4.3 Dempster-Shafer 方法
  • 7.4.4 CS+DS 集成方法
  • 7.5 实验结果与分析
  • 7.5.1 实验设置
  • 7.5.2 实验结果
  • 7.6 本章小结
  • 8 总结
  • 8.1 论文取得的成果
  • 8.2 进一步的工作
  • 致谢
  • 参考文献
  • 附录:作者在攻读博士期间科研工作和论文发表目录
  • 相关论文文献

    • [1].大数据背景下贝叶斯模型平均的理论突破与应用前景[J]. 统计与信息论坛 2016(06)
    • [2].中国市场化进程与经济增长:基于贝叶斯模型平均方法的实证分析[J]. 经济评论 2016(01)
    • [3].基于深度集成朴素贝叶斯模型的文本分类[J]. 济南大学学报(自然科学版) 2020(05)
    • [4].融合多尺度对比与贝叶斯模型的显著目标检测[J]. 计算机工程与应用 2018(08)
    • [5].贝叶斯模型平均法在流域组合预报中的应用[J]. 水利科技与经济 2014(12)
    • [6].基于贝叶斯模型平均方法的中国通货膨胀的建模及预测[J]. 金融研究 2013(11)
    • [7].多层贝叶斯模型在消费者偏好分析中的应用研究——基于手机市场数据[J]. 统计与信息论坛 2014(03)
    • [8].朴素贝叶斯模型在驾驶员伤情预测中的应用[J]. 机械设计与制造 2020(01)
    • [9].基于贝叶斯模型的股票投资收益探究[J]. 财务与会计 2019(04)
    • [10].基于朴素贝叶斯模型的大学生就业技能分析[J]. 中外企业家 2016(27)
    • [11].贝叶斯模型大数据分析的软件实现——以河北科技大学图书馆为例[J]. 图书馆论坛 2018(05)
    • [12].基于贝叶斯模型的装备剩余寿命预测研究[J]. 火力与指挥控制 2016(05)
    • [13].基于句法分析和二次贝叶斯模型的受限域问题分类[J]. 计算机应用 2012(06)
    • [14].基于稀疏贝叶斯模型的视频恢复方法研究[J]. 中山大学学报(自然科学版) 2012(05)
    • [15].基于分层贝叶斯模型的信控交叉口安全分析[J]. 中国公路学报 2014(02)
    • [16].福建省技术创新能力的影响因素——基于贝叶斯模型平均方法的研究[J]. 东南学术 2014(01)
    • [17].基于贝叶斯模型平均的航空发动机可靠性分析[J]. 航空动力学报 2014(02)
    • [18].基于小波域双层贝叶斯模型的图像复原[J]. 红外与激光工程 2008(05)
    • [19].基于高斯混合-贝叶斯模型的轨迹预测[J]. 计算机与现代化 2019(02)
    • [20].基于贝叶斯模型的中国未来气温变化预估及不确定性分析[J]. 气象学报 2016(04)
    • [21].基于集成朴素贝叶斯模型的在线地图匹配方法[J]. 计算机工程与设计 2014(03)
    • [22].贝叶斯模型比较的多模型组合框架在软测量建模中的应用[J]. 重庆大学学报 2012(06)
    • [23].一种求解贝叶斯模型平均的新方法[J]. 中国科学:地球科学 2011(11)
    • [24].基于非参数贝叶斯模型和深度学习的古文分词研究[J]. 中文信息学报 2020(06)
    • [25].基于区间型贝叶斯模型的湟水干流水质评价[J]. 水利水运工程学报 2020(02)
    • [26].基于分层贝叶斯模型的农作物区域产量保险费率厘定研究[J]. 生态经济 2009(07)
    • [27].基于ARMA-稀疏贝叶斯模型的汇率预测研究[J]. 合肥工业大学学报(自然科学版) 2014(08)
    • [28].改进的增量贝叶斯模型的研究[J]. 计算机应用与软件 2016(08)
    • [29].基于贝叶斯模型平均生存模型的中小企业信用风险估计[J]. 中国管理科学 2012(S1)
    • [30].基于LDP特征和贝叶斯模型的人脸识别[J]. 计算机科学 2017(12)

    标签:;  ;  ;  ;  ;  

    基于贝叶斯模型的文档分类及相关技术研究
    下载Doc文档

    猜你喜欢