论文摘要
随着国内航空业的发展,航空安全成为人们关注的焦点之一,人们对航空从业人员的要求越来越高,因此对航空业培训的需求也迅速提高。目前国内主要的几家航空公司的培训教材主要来源于各种飞行手册和维修手册,这种培训教材和考核试题一般由相关技术人员手工编写。通过实现计算机快速高效地生成培训课件和考核试题,从而减少工作人员手工搜集定义句的工作量,本文进行了航空安全领域术语定义自动抽取的研究。本文研究的是信息抽取的一种常用方法,可以有效地从语料库中抽取到定义句,具备一定的工程实用价值。本文主要进行了以下工作:首先,对航空安全领域教材进行选材、采集和标注,对语料进行预处理,在原有的基础上扩充了语料库,为以后的研究提供基础;其次,研究了信息抽取方法,采用决策树C4.5方法进行分类。由于决策树方法存在过拟合现象,需要对其进行剪枝以避免过拟合现象,本文介绍了常用的四种后剪枝方法分别是REP方法、PEP方法、MEP方法和CCP方法,并分析了四种方法对于各种数据集分类效果的优劣,适用的数据集;同时由于本文针对的是非平衡数据集,根据麦克劳林公式对每个结点进行等价无穷小替换,从而提高分类的效率。最后结合上面两种方法改进C4.5算法,将WEKA平台中的源代码导入Eclipse中进行二次开发;根据实验结果的数据分析得出,采用PEP剪枝方法得到的决策树在训练集或测试集上的分类误差率普遍降低,树的规模明显减小,宏平均F1、F2的值得到了明显的提高。
论文目录
摘要Abstract第一章 绪论1.1 课题的研究意义及目的1.2 信息抽取技术1.2.1 基本概念1.2.2 国内外研究现状1.3 术语定义自动抽取1.3.1 基本概念1.3.2 国内外研究现状1.4 论文的内容和结构1.4.1 论文的主要内容1.4.2 论文的结构第二章 术语定义抽取相关技术介绍2.1 语料库技术简介2.2 航空安全领域语料库建设[23]2.3 信息抽取技术2.4 决策树方法的介绍2.4.1 基本概念2.4.2 决策树分类算法的学习过程2.4.3 决策树算法的性能评价2.5 本章小结第三章 决策树分类方法及其改进3.1 ID3 算法3.1.1 信息论在ID3 算法中的应用3.1.2 ID3 算法描述3.1.3 ID3 算法的评价3.2 C4.5 算法及其优缺点3.2.1 C4.5 算法实现3.2.2 C4.5 算法的优缺点3.3 C4.5 算法的剪枝3.3.1 过拟合现象3.3.2 算法介绍3.3.3 后剪枝方法归纳比较3.4 结点分裂标准的改进3.5 本章小结第四章 实验及数据分析4.1 实验环境与实验平台4.2 评价指标[44]4.3 实验步骤与实验结果分析4.3.1 实验设置4.3.2 实验步骤及数据结果4.3.3 实验结果分析4.4 本章小结第五章 总结与展望5.1 本文总结5.2 进一步的工作参考文献致谢在学期间的研究成果及发表的学术论文
相关论文文献
标签:术语定义论文; 信息抽取论文; 算法论文; 后剪枝方法论文; 等价替换论文;