中文自动文摘系统的研究与实现

论文摘要

自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现,它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,一篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈工大信息检索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRLab-NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。

论文目录

图表目录

摘要

ABSTRACT

第一章绪论

1.1 自动文摘研究的意义

1.2 自动文摘的定义及分类

1.2.1 文摘的定义

1.2.2 自动文摘的定义

1.2.3 自动文摘的分类

1.3 自动文摘研究的历史与现状

1.3.1 国外自动文摘的研究

1.3.2 国内自动文摘的研究

1.4 本文的主要工作

1.5 本文的组织结构

第二章自动文摘的相关理论基础

2.1 向量空间模型

2.1.1 义项的选取

2.1.2 义项的权重计算

2.2 中文词法分析

2.2.1 自动分词

2.2.2 汉语自动分词的难点

2.2.3 词性标注

2.2.4 词法分析器ICTCLAS

2.3 自动文摘系统的评测

2.3.1 评测方法

2.3.2 评测用语料的准备

2.3.3 自动文摘系统评测面临的问题

2.3.4 实验评测指标

2.4 本章小结

第三章概念统计在自动文摘中的应用

3.1 语义资源介绍

3.1.1 《知网》

3.1.2 《同义词词林扩展版》

3.2 基于《同义词词林扩展版》的概念获取

3.2.1 预处理

3.2.2 词义消歧方法

3.2.3 概念获取算法

3.2.4 构造基于概念统计的向量空间模型

3.2.5 概念统计与词频统计VSM比较实验及结果分析

3.3 义项重要度计算

3.4 基于概念统计的自动文摘生成

3.4.1 句子重要度计算

3.4.2 文摘生成

3.5 实验结果

3.6 本章小结

第四章文本篇章结构分析

4.1 相关工作

4.2 相邻段落相似度和连续段落平均相似度相结合的意义段划分

4.2.1 段落向量空间模型的建立

4.2.2 基本思想

4.2.3 文章预处理及实验示例

4.2.4 算法步骤

4.3 实验评测与结果分析

4.3.1 实验设计与结果

4.3.2 结果分析

4.4 本章小结

第五章概念统计和文本结构划分相结合的自动文摘系统

5.1 体系框架

5.2 系统主要模块设计

5.2.1 文本预处理模块

5.2.2 文本结构划分模块

5.2.3 概念获取模块

5.2.4 重要度计算模块

5.2.5 文摘生成模块

5.3 实验结果

5.4 本章小结

第六章自动文摘系统评测实验

6.1 实验一、三个系统性能的比较测试

6.2 实验二、宽泛指标下的有效性测试

6.3 实验三、文摘句共选一致性指标下的有效性测试

6.4 实验四、三个系统对长篇幅文章的有效性比较测试

6.5 实验五、本文摘系统与现有系统的比较测试

6.6 本章小结

第七章结束语

参考文献

致谢

附录一北京大学汉语文本词性标注集

附录二示例文章文摘结果

附录三读研期间参加的科研项目与公开发表的学术论文

中文自动文摘系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢