网络新闻多文档自动摘要技术研究

网络新闻多文档自动摘要技术研究

论文摘要

互联网的日益普及和计算机技术的不断发展给人们获取信息带来了极大的便利,但是面对海量的网络数据环境,如何获取感兴趣、有用的知识仍然是一个亟待解决的问题。在众多的研究方法中,多文档自动摘要被视为解决上述问题的有效工具之一,它是利用计算机将同一话题下的多个文档描述的主要内容通过信息压缩技术提炼为一个短文的自然语言处理技术,在军事和民用方面都具有极其重要的实用意义。本文主要研究网络新闻多文档自动摘要技术,首先从网络新闻话题中抽取相关的事件,然后采用不同的技术组织事件,最终生成摘要。论文的研究成果如下:(1)研究了时间表达式识别技术,提出一种基于条件随机场与自定义规则的时间表达式识别方法。该方法针对传统时间识别方法单一、应用领域局限等缺点,采用条件随机场对时间表达式进行初步识别;然后自定义规则对错识别和漏识别的时间表达式进行修正。实验结果表明,该方法有效提高了时间表达式识别的准确率和召回率,为时间表达式的识别建立了一种弹性的分析模型。(2)研究了事件抽取技术,提出一种基于事件实例驱动的新闻文本事件抽取方法。该方法针对事件触发词或事件元素驱动的事件抽取方法存在的正反例不平衡和数据稀疏问题,采用事件实例进行驱动;然后引入聚类的思想完成新闻文本集中事件的有效抽取,突破了传统方法对事件类别限制的局限性。实验结果表明,该方法显著提高了新闻文本集中事件抽取的性能,是一种有效的事件抽取方法。(3)研究了多文档自动摘要技术,提出一种基于事件抽取的多文档自动摘要方法。该方法针对目前以段落或句子聚类的摘要方法存在的冗余问题,采用事件抽取技术将原始文档转化为以事件为单位的内容逻辑划分;然后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法所生成的摘要更贴近人的理解,从而有效地帮助用户及时、准确、便捷地获取事件的来龙去脉。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题背景与研究意义
  • 1.1.1 选题背景
  • 1.1.2 研究意义
  • 1.2 自动摘要概述
  • 1.2.1 自动摘要的相关定义
  • 1.2.2 自动摘要的基本步骤
  • 1.2.3 自动摘要的研究现状
  • 1.3 事件抽取概述
  • 1.3.1 事件抽取的相关定义
  • 1.3.2 事件抽取的基本任务
  • 1.3.3 事件抽取的研究现状
  • 1.4 论文研究内容与结构安排
  • 第二章 网络新闻语料库构建
  • 2.1 网络新闻语料采集
  • 2.1.1 网络爬虫基本原理
  • 2.1.2 分布式网络新闻采集
  • 2.2 网页主题内容抽取
  • 2.3 预处理
  • 2.3.1 文本去重和分类
  • 2.3.2 句子切分
  • 2.3.3 分词和词性标注
  • 2.3.4 停用词过滤
  • 2.4 实验语料库
  • 2.5 本章小结
  • 第三章 时间表达式的识别和提取
  • 3.1 时间识别主要方法
  • 3.2 条件随机场概述
  • 3.2.1 条件随机场定义
  • 3.2.2 条件随机场模型
  • 3.3 基于条件随机场的时间识别
  • 3.3.1 BIO序列标注
  • 3.3.2 特征选择
  • 3.3.3 识别算法
  • 3.4 自定义规则表
  • 3.5 实验结果与性能分析
  • 3.5.1 实验语料
  • 3.5.2 评价指标
  • 3.5.3 实验结果
  • 3.5.4 实验分析及对比
  • 3.6 本章小结
  • 第四章 网络新闻文本事件抽取
  • 4.1 网络新闻特点分析
  • 4.2 事件抽取方法存在的问题
  • 4.3 网络新闻文本事件抽取算法
  • 4.3.1 基于SVM的事件实例识别
  • 4.3.2 事件实例相似度计算
  • 4.3.3 事件实例驱动的事件抽取算法
  • 4.4 实验结果与性能分析
  • 4.4.1 实验数据
  • 4.4.2 评价指标
  • 4.4.3 实验结果及对比分析
  • 4.5 本章小结
  • 第五章 基于事件抽取的多文档自动摘要
  • 5.1 多文档自动摘要基础
  • 5.1.1 多文档自动摘要研究现状
  • 5.1.2 存在的问题及解决的思路
  • 5.2 基于事件抽取的多文档摘要方法
  • 5.2.1 基于事件抽取的多文档摘要原理与流程
  • 5.2.2 基于事件抽取的多文档摘要关键技术
  • 5.3 系统评价与对比分析
  • 5.3.1 实验数据
  • 5.3.2 实验直观结果
  • 5.3.3 系统评价及性能分析
  • 5.4 本章小结
  • 结束语
  • 一、 全文总结
  • 二、工作展望
  • 参考文献
  • 附录:网络新闻多文档自动摘要实验平台
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].文本自动摘要的迁移学习技术[J]. 数码世界 2018(12)
    • [2].基于句子主题发现的中文多文档自动摘要研究[J]. 情报科学 2020(03)
    • [3].一种基于聚类的文章自动摘要方法及实现[J]. 科研信息化技术与应用 2019(01)
    • [4].基于高质量信息提取的微博自动摘要[J]. 计算机工程 2015(07)
    • [5].内容自动摘要系统的研究[J]. 数码世界 2019(04)
    • [6].基于维基百科的多文档自动摘要系统研究[J]. 微型机与应用 2011(16)
    • [7].上下文敏感的多文档自动摘要生成方法[J]. 计算机工程 2010(21)
    • [8].一种跨语言的自动摘要技术[J]. 电脑与信息技术 2009(04)
    • [9].文本自动摘要的方法研究[J]. 福建电脑 2008(06)
    • [10].卷积自注意力编码过滤的强化自动摘要模型[J]. 小型微型计算机系统 2020(02)
    • [11].基于多特征融合模型的自动摘要[J]. 计算机工程与设计 2020(03)
    • [12].融合句义特征的多文档自动摘要算法研究[J]. 北京理工大学学报 2016(10)
    • [13].基于引文上下文的学术文本自动摘要技术研究[J]. 数字图书馆论坛 2016(08)
    • [14].基于语义的单文档自动摘要算法[J]. 计算机应用 2010(06)
    • [15].浅谈自动摘要技术在边防情报公开文献收集中的应用[J]. 科技信息(学术研究) 2008(05)
    • [16].基于深度学习的文本自动摘要方案[J]. 计算机应用 2019(02)
    • [17].基于混合机器学习模型的多文档自动摘要[J]. 情报理论与实践 2019(02)
    • [18].关键词和被引次数对科技论文自动摘要效果影响研究[J]. 情报学报 2017(11)
    • [19].基于词频统计的多文档自动摘要生成方案[J]. 微计算机信息 2009(06)
    • [20].一种基于深度学习的中文生成式自动摘要方法[J]. 广西师范大学学报(自然科学版) 2020(02)
    • [21].文本自动摘要研究进展[J]. 人工智能 2018(01)
    • [22].基于混合方法的多语言多文档自动摘要系统构建及实现[J]. 图书馆学研究 2013(02)
    • [23].一种英文自动摘要方法[J]. 计算机工程与应用 2009(07)
    • [24].基于句子聚类的中文文本自动摘要算法的研究[J]. 微型电脑应用 2017(08)
    • [25].浅析英文自动摘要技术[J]. 魅力中国 2008(28)
    • [26].自适应主题融合的多文档自动摘要算法[J]. 中南大学学报(自然科学版) 2013(S2)
    • [27].一种新的基于段向量的文本自动摘要方法[J]. 计算机工程与科学 2019(06)
    • [28].基于完全稀疏主题模型的多文档自动摘要[J]. 计算机工程与设计 2014(03)
    • [29].基于文本多维度特征的自动摘要生成方法[J]. 计算机工程 2020(09)
    • [30].基于关键词的代码自动摘要[J]. 计算机研究与发展 2020(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    网络新闻多文档自动摘要技术研究
    下载Doc文档

    猜你喜欢