基于决策树与SVM融合学习的科技文献分类方法研究

基于决策树与SVM融合学习的科技文献分类方法研究

论文摘要

伴随着在线电子信息容量以几何级数增长,截止2008年7月26日,谷歌搜索引擎建立索引的网页数量已经超过了一万亿幅。这些海量般的信息来自不同的行业,比如新闻资讯、娱乐消息、研究性论文、数字图书馆等。为了适应Internet的快速发展,很多过去以印刷形式发行的期刊报纸也纷纷将自己的刊物搬到了Internet上,尤其是科技期刊的电子化和数字化图书馆的出现极大地丰富了网络空间的知识资源。探讨怎样实现网络科技文献的面向主题的自动获取、自动分类是Web资源开发与利用、实现个性化服务的一个很有意义的课题,当中一个很重要的环节就是文本的自动分类。本文在深入地分析决策树和支持向量机(SVM)的特点后,提出了一种基于决策树和支持向量机融合学习的科技文献分类方法,主要研究工作如下:首先,分析了决策树与SVM融合学习方法的国内外研究现状,探讨了文本分词算法、表示模型及特征选择等中文文本分类关键理论与技术。提出了一种基于支持向量的属性重要性度量方法,并通过计算实例对比分析了其相对于其它的特征降维的统计量的优越性。基于支持向量机分类面模型和支持向量点分布,以决策树分类面与支持向量机分类面有效逼近为基本出发点,探索了决策树与SVM的融合学习新途径。着重研究了基于支持向量点和分类面形状特征的属性重要性度量与属性区间分割优化方法,以实现决策树性能的最优化。根据科技文献的特点,建立了一种基于DT和SVM融合学习方法的文本分类器,在此基础上进行了实验研究,并进行对比分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 前言
  • 1.1 课题的背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 文本分类研究现状
  • 1.2.2 决策树研究现状
  • 1.2.3 支持向量机研究现状
  • 1.2.4 决策树与SVM融合学习研究现状
  • 1.3 文本分类概述
  • 1.3.1 文本分类定义
  • 1.3.2 文本分类方法
  • 1.3.3 文本分类流程
  • 1.3.4 文本分类性能评估
  • 1.4 本文的研究内容和组织结构
  • 第二章 中文文本分类的相关技术
  • 2.1 中文分词现状
  • 2.1.1 典型分词系统
  • 2.1.2 中文分词研究面临的困难
  • 2.2 文本分词算法
  • 2.2.1 分词方法的分析与比较
  • 2.3 文本表示模型
  • 2.3.1 布尔模型
  • 2.3.2 概率模型
  • 2.3.3 向量空间模型
  • 2.4 文本特征选择
  • 2.4.1 文本特征项
  • 2.4.2 特征选择
  • 2.5 特征降维
  • 2.5.1 特征频率
  • 2.5.2 文档频率
  • 2.5.3 互信息
  • 2.5.4 信息增益
  • 2.5.5 期望交叉熵
  • 2.5.6 CHI
  • 2.5.7 基于支持向量的属性重要性度量JP
  • 2.5.7.1 属性重要性与分类面形状特征的关系
  • 2.5.7.2 属性重要性度量方法
  • 2.5.7.3 属性重要性度量计算实例
  • 2.6 实验对比分析
  • 2.6.1 特征降维方法对比实验
  • 2.6.2 特征降维分析与比较
  • 第三章 决策树与SVM融合学习文本分类算法研究
  • 3.1 文本分类算法
  • 3.1.1 K-近邻算法(KNN)
  • 3.1.2 朴素贝叶斯分类(NB)
  • 3.1.3 决策树算法
  • 3.1.4 神经网络算法
  • 3.1.5 支持向量机算法(SVM)
  • 3.1.6 文本分类算法的分析与比较
  • 3.2 基于支持向量的属性区间分割优化
  • 3.2.1 属性区间分割优化
  • 3.2.2 初始区间形成
  • 3.2.3 区间合并
  • 3.2.3.1 二维化分析方法
  • 3.2.3.2 不可判别区域
  • 3.2.3.3 区间冲突性
  • 3.2.3.4 区间合并准则
  • 3.2.4 区间优化
  • 3.2.5 计算实例
  • 3.2.6 结论
  • 3.3 实验与分析
  • 3.3.1 实验系统介绍
  • 3.3.2 核函数及参数对比实验
  • 3.3.3 分类算法对比实验
  • 3.4 本章总结
  • 第四章 基于决策树与SVM融合学习方法的科技文献分类研究
  • 4.1 科技文献分类
  • 4.1.1 行文规范
  • 4.1.2 科技文献研究
  • 4.2 科技文献分类系统设计
  • 4.3 实验对比分析
  • 4.3.1 实验测试环境
  • 4.3.2 实验方法设计
  • 4.3.3 实验结果
  • 4.4 本章总结
  • 第五章 结束语
  • 5.1 论文主要工作
  • 5.2 未来工作展望
  • 参考文献
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].基于SVM的永磁无刷直流电机无位置传感器控制[J]. 电子产品世界 2020(01)
    • [2].基于商空间的黄金价格SVM模型预测[J]. 黄金科学技术 2020(01)
    • [3].基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J]. 工业计量 2020(01)
    • [4].基于SVM的在线医疗信息服务质量关键影响因素研究[J]. 情报科学 2020(03)
    • [5].基于SVM与fMRI技术对精神分裂症的分类研究[J]. 现代计算机 2020(01)
    • [6].基于SVM算法的微博评论数据情感分析[J]. 数字通信世界 2020(01)
    • [7].基于SVM的河道洪峰水位校正预报方法[J]. 水力发电 2020(04)
    • [8].基于SVM的煤与瓦斯突出预测模型及应用[J]. 陕西煤炭 2020(02)
    • [9].基于实时电价和加权灰色关联投影的SVM电力负荷预测[J]. 电网技术 2020(04)
    • [10].基于超声波扫描和SVM的综合管廊故障诊断模型[J]. 科技与创新 2020(07)
    • [11].基于SVM理论的航空发动机飞行数据可视化建模[J]. 科技创新与应用 2020(12)
    • [12].基于SVM的固化土无侧限抗压强度模型[J]. 宁波大学学报(理工版) 2020(04)
    • [13].基于遗传算法和SVM的肝豆状核变性震颤评估方法研究[J]. 西安文理学院学报(自然科学版) 2020(03)
    • [14].基于SVM的高速公路预防性养护效果评价模型及应用[J]. 工程建设 2020(05)
    • [15].基于因子分析和SVM的网络舆情危机预警研究[J]. 重庆工商大学学报(自然科学版) 2020(05)
    • [16].基于SVM的物联网大数据有效信息过滤挖掘[J]. 河南科技 2020(26)
    • [17].基于改进SVM算法的思政教育动态预警系统研究[J]. 微型电脑应用 2020(09)
    • [18].基于SVM技术调剖(驱)潜力预测[J]. 承德石油高等专科学校学报 2019(05)
    • [19].基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法[J]. 电信工程技术与标准化 2016(12)
    • [20].结合主方向和SVM的人脸表情识别[J]. 廊坊师范学院学报(自然科学版) 2016(04)
    • [21].SVM算法支持下的耕地面积退化遥感监测——以昆明市呈贡区为例[J]. 安徽农业科学 2017(01)
    • [22].矿井突水水源的SVM识别方法[J]. 辽宁工程技术大学学报(自然科学版) 2017(01)
    • [23].基于SVM算法的移动智能终端安全等级分级模型[J]. 通信技术 2017(04)
    • [24].图像视觉显著性和改进型SVM在图像分割中的研究[J]. 通讯世界 2017(08)
    • [25].一种基于决策树的SVM算法[J]. 太原学院学报(自然科学版) 2017(01)
    • [26].基于多级SVM分类的语音情感识别算法[J]. 计算机应用研究 2017(06)
    • [27].基于模糊信息粒与SVM的道路交通状态波动分析[J]. 重庆交通大学学报(自然科学版) 2017(07)
    • [28].基于SVM的上证指数预测研究[J]. 软件导刊 2017(08)
    • [29].基于集成SVM的肺部肿瘤PET/CT三模态计算机辅助诊断方法[J]. 生物医学工程研究 2017(03)
    • [30].一种基于SVM的声源定位算法[J]. 计算机技术与发展 2017(09)

    标签:;  ;  ;  ;  ;  

    基于决策树与SVM融合学习的科技文献分类方法研究
    下载Doc文档

    猜你喜欢