中文自动文摘系统的研究与实现

中文自动文摘系统的研究与实现

论文摘要

自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现,它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,一篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈工大信息检索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRLab-NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。

论文目录

  • 目录
  • 图表目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 自动文摘研究的意义
  • 1.2 自动文摘的定义及分类
  • 1.2.1 文摘的定义
  • 1.2.2 自动文摘的定义
  • 1.2.3 自动文摘的分类
  • 1.3 自动文摘研究的历史与现状
  • 1.3.1 国外自动文摘的研究
  • 1.3.2 国内自动文摘的研究
  • 1.4 本文的主要工作
  • 1.5 本文的组织结构
  • 第二章 自动文摘的相关理论基础
  • 2.1 向量空间模型
  • 2.1.1 义项的选取
  • 2.1.2 义项的权重计算
  • 2.2 中文词法分析
  • 2.2.1 自动分词
  • 2.2.2 汉语自动分词的难点
  • 2.2.3 词性标注
  • 2.2.4 词法分析器ICTCLAS
  • 2.3 自动文摘系统的评测
  • 2.3.1 评测方法
  • 2.3.2 评测用语料的准备
  • 2.3.3 自动文摘系统评测面临的问题
  • 2.3.4 实验评测指标
  • 2.4 本章小结
  • 第三章 概念统计在自动文摘中的应用
  • 3.1 语义资源介绍
  • 3.1.1 《知网》
  • 3.1.2 《同义词词林扩展版》
  • 3.2 基于《同义词词林扩展版》的概念获取
  • 3.2.1 预处理
  • 3.2.2 词义消歧方法
  • 3.2.3 概念获取算法
  • 3.2.4 构造基于概念统计的向量空间模型
  • 3.2.5 概念统计与词频统计VSM比较实验及结果分析
  • 3.3 义项重要度计算
  • 3.4 基于概念统计的自动文摘生成
  • 3.4.1 句子重要度计算
  • 3.4.2 文摘生成
  • 3.5 实验结果
  • 3.6 本章小结
  • 第四章 文本篇章结构分析
  • 4.1 相关工作
  • 4.2 相邻段落相似度和连续段落平均相似度相结合的意义段划分
  • 4.2.1 段落向量空间模型的建立
  • 4.2.2 基本思想
  • 4.2.3 文章预处理及实验示例
  • 4.2.4 算法步骤
  • 4.3 实验评测与结果分析
  • 4.3.1 实验设计与结果
  • 4.3.2 结果分析
  • 4.4 本章小结
  • 第五章 概念统计和文本结构划分相结合的自动文摘系统
  • 5.1 体系框架
  • 5.2 系统主要模块设计
  • 5.2.1 文本预处理模块
  • 5.2.2 文本结构划分模块
  • 5.2.3 概念获取模块
  • 5.2.4 重要度计算模块
  • 5.2.5 文摘生成模块
  • 5.3 实验结果
  • 5.4 本章小结
  • 第六章 自动文摘系统评测实验
  • 6.1 实验一、三个系统性能的比较测试
  • 6.2 实验二、宽泛指标下的有效性测试
  • 6.3 实验三、文摘句共选一致性指标下的有效性测试
  • 6.4 实验四、三个系统对长篇幅文章的有效性比较测试
  • 6.5 实验五、本文摘系统与现有系统的比较测试
  • 6.6 本章小结
  • 第七章 结束语
  • 参考文献
  • 致谢
  • 附录一 北京大学汉语文本词性标注集
  • 附录二 示例文章文摘结果
  • 附录三 读研期间参加的科研项目与公开发表的学术论文
  • 相关论文文献

    • [1].基于主次关系特征的自动文摘方法[J]. 计算机科学 2020(S1)
    • [2].基于篇章修辞结构的自动文摘连贯性研究[J]. 中文信息学报 2019(01)
    • [3].基于主题模型与冗余控制的中文多文档自动文摘技术研究[J]. 现代计算机(专业版) 2017(14)
    • [4].基于论文关键词和篇章结构的自动文摘抽取方法[J]. 现代计算机(专业版) 2018(13)
    • [5].基于非平衡数据分类的单文档自动文摘方法[J]. 计算机工程与科学 2012(04)
    • [6].自动文摘综述[J]. 中国美容医学 2012(16)
    • [7].基于遗传算法的查询导向式自动文摘[J]. 微计算机信息 2009(28)
    • [8].生成式自动文摘的深度学习方法综述[J]. 情报学报 2020(03)
    • [9].基于自动文摘的答案生成方法研究[J]. 计算机应用与软件 2018(12)
    • [10].面向卷烟质量评价的自动文摘系统设计[J]. 微型机与应用 2013(23)
    • [11].基于局部主题关键句抽取的多文档自动文摘方法[J]. 计算机光盘软件与应用 2013(18)
    • [12].主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用 2012(25)
    • [13].自动文摘的方法研究[J]. 计算机技术与发展 2011(08)
    • [14].基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版) 2014(01)
    • [15].面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报 2012(02)
    • [16].基于全局编码信息的生成式自动文摘模型[J]. 智能计算机与应用 2020(06)
    • [17].主题与子事件发现的多文档自动文摘[J]. 计算机工程与应用 2011(18)
    • [18].基于层次结构的生成式自动文摘[J]. 中文信息学报 2019(10)
    • [19].多文档自动文摘中的特征组合优化[J]. 计算机系统应用 2008(08)
    • [20].基于混合神经网络的单文档自动文摘模型[J]. 浙江理工大学学报(自然科学版) 2019(04)
    • [21].基于深度学习的自动文摘句排序方法[J]. 计算机工程与设计 2017(12)
    • [22].自动文摘的生成方法与评价研究[J]. 图书馆学刊 2009(05)
    • [23].自动文摘抽取的研究[J]. 科技信息 2009(01)
    • [24].基于MapReduce的多文档自动文摘的设计与实现[J]. 计算机工程与应用 2011(35)
    • [25].绿色网络智能文摘算法研究[J]. 计算机应用 2012(07)
    • [26].自动文摘技术研究现状分析[J]. 中外企业家 2011(14)
    • [27].主题模型LDA的多文档自动文摘[J]. 智能系统学报 2010(02)
    • [28].基于LSA和pLSA的多文档自动文摘[J]. 计算机工程与科学 2009(09)
    • [29].基于句群的自动文摘方法[J]. 计算机应用 2016(S1)
    • [30].图模型方法的演化式摘要研究[J]. 福建电脑 2019(05)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    中文自动文摘系统的研究与实现
    下载Doc文档

    猜你喜欢