论文摘要
随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方法——词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于Reranking的方法进行领域术语自动获取的研究工作。为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模型的选择和比较是领域术语获取工作的核心。然后本文分别探讨了分类方法、序列数据标注方法、Reranking方法的工作机理和针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的特征表示策略,并通过实验说明了本文提出的方法相比Genia项目提供的baseline方法可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用Reranking进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合形成一个串行的处理流程,即在CRF模型的基础上,通过排序支持向量机对候选标记序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以看到在术语获取问题上,序列数据标注方法优于分类方法,而Reranking方法又在序列数据标注评测结果的基础上有了一定的提高。虽然本文采用的三种统计学习方法相比Genia项目报告的baseline有显著的性能提升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文目前所使用的Reranking方法,可以将代价敏感的排序损失函数引入到rankingSVM中,用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。
论文目录
相关论文文献
- [1].领域术语特征分析——以军语为例[J]. 中国科技术语 2012(05)
- [2].基于条件随机场的领域术语识别研究[J]. 计算机工程与应用 2013(10)
- [3].基于CBC聚类方法对特定领域术语的自动获取[J]. 软件导刊 2008(09)
- [4].基于标准文件的电能质量领域本体构建方法[J]. 电力系统自动化 2020(17)
- [5].利用URL-Key领域术语识别方法[J]. 北京大学学报(自然科学版) 2018(02)
- [6].基于互信息与词语共现的领域术语自动抽取方法研究[J]. 重庆邮电大学学报(自然科学版) 2013(05)