时间表达式识别与归一化研究

论文摘要

在自然语言中,时间是一种重要的语义载体。人们通过了解一个事件的开始、发展和结束的时间信息,把握事件发展的全过程。时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用。本文对时间信息识别的研究现状、研究方法等作了简要的介绍与分析,并简要介绍了TIMEX2标注规范,分别采用了基于规则的方法和和基于统计的方法对中文时间表达式进行识别,并对英文时间表达式的识别和归一化进行了探索。在基于规则方法的中文时间表达式识别中,根据时间表达式范围的句法标准,采用了基于依存句法分析的方法,然后通过将错误驱动方法融合到依存分析方法中,大大改进了实验结果,最终实验结果达到了76%以上。在基于统计方法的中文时间表达式识别中,依次使用了SVM、CRF方法以及改进CRF方法。这是首次将CRF方法应用到中文时间表达式识别中,选用了一系列有效特征,并对特征进行了扩展。用ACE标准评测工具对系统进行了评测,最终识别结果达到90%以上。评测结果表明:基于统计的方法优于基于规则的方法;在基于统计的方法中,CRF方法优于SVM方法;改进后的CRF方法在不影响时间表达式识别效果的情况下,提高了识别的效率。在英文时间表达式识别与归一化中,采用SVM方法对时间表达式进行识别及分类,然后使用规则对每一类时间表达式进行归一化。将统计方法引入时间表达式归一化中,其结果优于纯规则方法且减少了写规则的工作量。总之,本文对中文时间表达式的识别以及英文时间表达式识别与归一化进行了探索,取得了较好效果和有益结论。

论文目录

摘要

Abstract

第1章绪论

1.1 研究的意义及背景

1.2 国内外研究现状

1.3 本文的结构

第2章时间表达式识别与归一化定义

2.1 TIMEX2 时间标注规范介绍

2.1.1 标注的对象

2.1.2 标注的方式

2.1.3 标注的范围

2.2 ACE 语料格式介绍

2.3 本章小结

第3章基于规则方法中文时间表达式识别

3.1 基于词典与依存分析相结合的方法

3.2 基于依存分析和错误驱动相结合的方法

3.3 评测方法及结果

3.4 本章小结

第4章基于统计方法中文时间表达式识别

4.1 机器学习方法概述

4.2 基于支持向量机的方法

4.2.1 支持向量机的提出和基本思想

4.2.2 标注过程

4.2.3 特征选择

4.2.4 实验结果与分析

4.3 基于条件随机域的方法

4.3.1 条件随机域模型概述

4.3.2 标注过程

4.3.3 特征选择

4.3.4 实验结果与分析

4.4 基于二元特征筛选的条件随机域方法

4.4.1 特征筛选方法概述

4.4.2 基于二元特征筛选的CRF 方法

4.4.3 结果分析

4.5 本章小结

第5章英文时间表达式识别与归一化

5.1 问题分析及语料介绍

5.2 标注流程

5.3 英文时间表达式识别

5.4 英文时间表达式归一化

5.5 本章小结

结论

参考文献

攻读学位期间发表的学术论文

致谢

时间表达式识别与归一化研究

论文摘要

论文目录

相关论文文献

猜你喜欢