基于极限学习机的XML文档分类的研究与实现

基于极限学习机的XML文档分类的研究与实现

论文摘要

XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行有效的管理是当前比较热门的研究方向之一。本文针对XML文档的分类问题进行了深入的研究和讨论,并设计一套XML文档的分类方案。本文首先针对XML文档表达模型设计了分布结构向量模型DSVM (Distributed Structured Vector Model),该模型改善了传统的向量空间模型VSM (Vector Space Model)中计算TFIDF值时的缺陷,充分考虑了文档的类别分布信息,并对XML文档的结构信息进行了优化,使得DSVM模型能够同时具有较高的XML文档的语义信息和结构信息的表达能力。其次,本文设计了基于投票机制的极限学习机优化算法v-ELM (voting-ELM),利用OAO (One-against-one)的思想,将一个多分问题降解为多个二分问题,其中每两个类别形成一个二分分类器,专门用于训练这两类的训练文档。但是这种设计的分类器会产生投票结果上的问题。本文针对相同最大得票数这一情况,设计了针对相同最大得票数的重投票算法REV (Revoting of Equal Votes)和针对相同最大得票数的基于概率的重投票算法p-REV (Probability Based Revoting of Equal Votes)。这两个后处理方法分别使用常规和基于概率的重投票算法对分类结果重新进行决策。本文还针对混淆类问题设计了针对混淆类的重投票算法RCC (Revoting of Confusing Classes),对投票结果属于混淆类的结果进行重新决策,以进一步提高分类性能。从本文设计的一系列实验的结果可以看出,本文提出的DSVM模型在XML文档表达能力方面有了较大的提升,采用p-REV和RCC后处理方法的v-ELM算法虽然相比ELM算法牺牲了一定的训练时问,但仍旧远远优于传统后传神经网络,并且在分类的准确率等方面的性能超过了ELM、支持向量机。整体分类框架取得了令人满意的分类性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究目的与意义
  • 1.3 本文主要工作
  • 1.4 本文组织结构
  • 第2章 相关研究工作
  • 2.1 传统分类算法
  • 2.1.1 分类问题综述
  • 2.1.2 常用分类算法综述
  • 2.2 XML文档分类
  • 2.2.1 XML数据模型
  • 2.2.2 XML文档分类研究综述
  • 2.3 极限学习机的应用
  • 2.4 本章小结
  • 第3章 XML文档的特征表达
  • 3.1 数据预处理
  • 3.2 文本表示模型
  • 3.2.1 向量空间模型
  • 3.2.2 TFIDF的类别分布信息缺陷
  • 3.2.3 包含类别分布信息的TFIDF改进方法
  • 3.3 XML文档表示模型
  • 3.3.1 结构连接向量模型
  • 3.3.2 基于分布信息的结构向量模型
  • 3.4 本章小结
  • 第4章 基于极限学习机的分类模型
  • 4.1 极限学习机
  • 4.2 基于极限学习机的优化改进模型
  • 4.2.1 投票机制与相关概念
  • 4.2.2 基于投票机制的极限学习机算法
  • 4.3 投票结果后处理方法
  • 4.3.1 针对相同得票数的常规重投票算法
  • 4.3.2 针对相同得票数的基于概率的重投票算法
  • 4.3.3 针对混淆类的后处理方法
  • 4.4 本章小结
  • 第5章 实验及结果分析
  • 5.1 实验性能评估标准
  • 5.2 实验环境及实验设计
  • 5.2.1 实验环境
  • 5.2.2 实验数据集
  • 5.2.3 实验方案
  • 5.3 实验结果分析
  • 5.3.1 XML文档表达模型的性能分析
  • 5.3.2 训练时间与测试时间的分析
  • 5.3.3 ELM与v-ELM的性能对比分析
  • 5.3.4 使用后处理方法的性能分析
  • 5.3.5 与传统分类算法性能的比较分析
  • 5.4 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间参加的项目和发表的论文
  • 相关论文文献

    • [1].基于XML的异构数据库信息交互机制的实现[J]. 物联网技术 2019(12)
    • [2].新闻评论类公众号XML内容分发的发展策略研究——基于十家新闻评论微信公众号的实证考察[J]. 出版广角 2020(10)
    • [3].基于FLASH与XML的在线考试系统的设计与实现[J]. 软件导刊(教育技术) 2016(12)
    • [4].密码协议XML描述方法研究[J]. 信息工程大学学报 2016(06)
    • [5].XML在信息系统中的应用[J]. 电脑编程技巧与维护 2017(04)
    • [6].基于XML的数据中心网络统一配置方法[J]. 自动化与仪器仪表 2017(02)
    • [7].基于伪反馈的有效XML查询扩展[J]. 计算机科学与探索 2016(12)
    • [8].基于XML的电子病历隐私数据脱敏技术的研究与设计[J]. 信息技术与信息化 2017(03)
    • [9].基于XML的电子书自排版系统的实现[J]. 出版科学 2017(04)
    • [10].基于XML配置管理的数字多用表检定软件设计与实现[J]. 中国管理信息化 2017(08)
    • [11].基于XML地图符号表达的研究[J]. 测绘标准化 2016(02)
    • [12].XML技术在社区医疗服务系统中的应用与研究[J]. 数字技术与应用 2016(08)
    • [13].基于XML的工作流引擎的设计与实现[J]. 科技风 2014(17)
    • [14].关系模式到XML模式映射模型的建立与实现[J]. 电子制作 2014(20)
    • [15].基于推理树的XML推理控制研究[J]. 通信技术 2015(02)
    • [16].基于XML的工作流模型挖掘[J]. 计算机光盘软件与应用 2014(21)
    • [17].基于XML路径表达式优化及其查询和过滤计算方法研究[J]. 信阳师范学院学报(自然科学版) 2015(04)
    • [18].基于XML的公交查询系统设计[J]. 科教文汇(下旬刊) 2012(07)
    • [19].XML技术的房地产估价数据标准研究[J]. 中国房地产 2013(24)
    • [20].《XML技术》线上教学的实践和探索[J]. 科技风 2020(33)
    • [21].探究XML在影视后期剪辑中的应用[J]. 中国传媒科技 2020(02)
    • [22].基于模型检查的XML树模式优化动作生成[J]. 计算机应用与软件 2017(03)
    • [23].XML与关系数据库之间的转换[J]. 教育教学论坛 2017(18)
    • [24].XML中基于聚类的相似度改进算法[J]. 计算机与数字工程 2015(12)
    • [25].以目标节点为导向的XML关键词查询和排序[J]. 计算机应用与软件 2016(04)
    • [26].一种基于XML的工作流引擎设计和实现[J]. 电脑编程技巧与维护 2016(16)
    • [27].建设基于XML技术电子病历系统的核心价值[J]. 中国数字医学 2009(02)
    • [28].基于XML的结构化电子病历临床诊疗数据库构建[J]. 中国数字医学 2012(05)
    • [29].基于XML的名老中医医案结构化标引系统[J]. 中国数字医学 2013(07)
    • [30].基于XML-关系映射数据访问层的设计与实现[J]. 安徽广播电视大学学报 2015(02)

    标签:;  ;  ;  

    基于极限学习机的XML文档分类的研究与实现
    下载Doc文档

    猜你喜欢