不平衡数据分类在航空安全领域定义抽取中的应用

不平衡数据分类在航空安全领域定义抽取中的应用

论文摘要

随着国内航空业的发展,航空安全成为人们关注的焦点之一,人们对航空从业人员的要求越来越高,因此对航空业培训的需求也迅速提高。目前国内主要的几家航空公司的培训教材主要来源于各种飞行手册和维修手册,这种培训教材和考核试题一般由相关技术人员手工编写。通过实现计算机快速高效地生成培训课件和考核试题,从而减少工作人员手工搜集定义句的工作量,本文进行了航空安全领域术语定义自动抽取的研究。本文研究的是信息抽取的一种常用方法,可以有效地从语料库中抽取到定义句,具备一定的工程实用价值。本文主要进行了以下工作:首先,对航空安全领域教材进行选材、采集和标注,对语料进行预处理,在原有的基础上扩充了语料库,为以后的研究提供基础;其次,研究了信息抽取方法,采用决策树C4.5方法进行分类。由于决策树方法存在过拟合现象,需要对其进行剪枝以避免过拟合现象,本文介绍了常用的四种后剪枝方法分别是REP方法、PEP方法、MEP方法和CCP方法,并分析了四种方法对于各种数据集分类效果的优劣,适用的数据集;同时由于本文针对的是非平衡数据集,根据麦克劳林公式对每个结点进行等价无穷小替换,从而提高分类的效率。最后结合上面两种方法改进C4.5算法,将WEKA平台中的源代码导入Eclipse中进行二次开发;根据实验结果的数据分析得出,采用PEP剪枝方法得到的决策树在训练集或测试集上的分类误差率普遍降低,树的规模明显减小,宏平均F1、F2的值得到了明显的提高。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题的研究意义及目的
  • 1.2 信息抽取技术
  • 1.2.1 基本概念
  • 1.2.2 国内外研究现状
  • 1.3 术语定义自动抽取
  • 1.3.1 基本概念
  • 1.3.2 国内外研究现状
  • 1.4 论文的内容和结构
  • 1.4.1 论文的主要内容
  • 1.4.2 论文的结构
  • 第二章 术语定义抽取相关技术介绍
  • 2.1 语料库技术简介
  • 2.2 航空安全领域语料库建设[23]
  • 2.3 信息抽取技术
  • 2.4 决策树方法的介绍
  • 2.4.1 基本概念
  • 2.4.2 决策树分类算法的学习过程
  • 2.4.3 决策树算法的性能评价
  • 2.5 本章小结
  • 第三章 决策树分类方法及其改进
  • 3.1 ID3 算法
  • 3.1.1 信息论在ID3 算法中的应用
  • 3.1.2 ID3 算法描述
  • 3.1.3 ID3 算法的评价
  • 3.2 C4.5 算法及其优缺点
  • 3.2.1 C4.5 算法实现
  • 3.2.2 C4.5 算法的优缺点
  • 3.3 C4.5 算法的剪枝
  • 3.3.1 过拟合现象
  • 3.3.2 算法介绍
  • 3.3.3 后剪枝方法归纳比较
  • 3.4 结点分裂标准的改进
  • 3.5 本章小结
  • 第四章 实验及数据分析
  • 4.1 实验环境与实验平台
  • 4.2 评价指标[44]
  • 4.3 实验步骤与实验结果分析
  • 4.3.1 实验设置
  • 4.3.2 实验步骤及数据结果
  • 4.3.3 实验结果分析
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 本文总结
  • 5.2 进一步的工作
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    不平衡数据分类在航空安全领域定义抽取中的应用
    下载Doc文档

    猜你喜欢