面向查询的XML文本摘要技术

面向查询的XML文本摘要技术

论文摘要

XML (extensible markup language),即可扩展的标记语言,是一种允许用户用特定领域的标记来描述文本含义和结构的元标记语言。随着互联网和网络技术的快速发展,符合XML规范的数据已广泛的应用到当前的信息社会中。面向查询的XML文本摘要技术任务就是基于特定的查询,通过XML信息检索技术与自动文摘技术有机结合,从大量的查询主题相关的文档中得到一个具有完整意义、良好可读性、连贯且符合用户需求的文本摘要。面向查询的XML摘要技术的出现,将能大大减轻人们的阅读负担,让人们从XML的数据海洋中快速高效的查找到自己需要的信息。本文研究面向查询的XML文本摘要技术,主要工作包括以下几个方面:1、设计并构建了面向查询的XML文本摘要语料库。本文系统介绍构建面向查询的XML文本摘要语料库的一序列工作,包括语料库的规划、构建流程和一些技术细节,并对所构建的语料库的特点进行分析,得到面向查询XML文本摘要句的查询特征、内容特征和结构特征。目前本语料库已收集英文25个查询主题247篇文本、中文32个主题278篇文本。2、构建了面向查询的XML文本摘要模型。首先将查询相关文档集分成句子,然后利用改进的基于密度分析的排序方法将句子分成查询相关句子集和查询不相关句子集。通过查询相关句子集利用改进的话题标签方法对用户提出的查询词进行查询扩展,结合查询扩展词,分别计算文档集中每个句子与用户查询主题之间的关联度得分、句子与查询主题相关文档集合的主题的关联度得分、通过对标签的分布概率给句子的标签赋分、利用改进Z. Szlavik方法得出层次赋分,然后通过线性融合的方法将这些得分组合起来,给每个句子一个得分,利用基于相似度的方法去除重复信息选取摘要句。通过ROUGE-1评测和人工评测证明,本文所提出的方法获取的文摘比较理想。3、本文提出了基于随机冲浪模型的XML文摘句子重排模型。该模型通过句子间的顺序关系(时间顺序、前后位置、句子所在文档树中的层次)和主题相关性关系的线性组合为边的权重、以句子为结点建立一个有向图,使用pagerank算法得到句子的分值并按该分值大小重排XML文摘中的句子。通过这个方法就可以得到一个句子序列,该序列就可以作为最终的摘要。通过实验证明,文摘内容逻辑上更合理、可读性更好、句子间更连贯。

论文目录

  • 摘要
  • Abstract
  • 1.绪论
  • 1.1 研究背景与研究意义
  • 1.2 研究现状
  • 1.2.1 自动文摘的特征选择研究现状
  • 1.2.2 平面自动文摘的研究现状
  • 1.2.3 XML文档自动文摘研究现状
  • 1.3 本文研究的主要内容
  • 1.4 论文的结构安排
  • 2.自动文摘技术概述
  • 2.1 自动文摘技术概要
  • 2.2 多文档摘要
  • 2.2.1 基本方法和问题
  • 2.2.2 文摘评测
  • 2.2.3 代表系统
  • 2.3 面向查询的文本摘要技术
  • 2.3.1 面向查询的摘要机制
  • 2.3.2 面向查询的XML文本摘要的分析
  • 2.4 本章小结
  • 3.特征选取
  • 3.1 XML文摘语料库的构建
  • 3.1.1 XML文摘语料库构建的总体框架
  • 3.1.2 语料的选择
  • 3.1.3 语料的整理与加工
  • 3.2 查询特征
  • 3.2.1 CO查询特性分析
  • 3.2.2 CAS查询特性分析
  • 3.3 内容特征
  • 3.4 结构特征
  • 3.5 本章小结
  • 4.XML文摘句抽取模型
  • 4.1 文本预处理模块
  • 4.1.1 句子划分
  • 4.1.2 查询扩展
  • 4.2 文摘句的选取
  • 4.2.1 查询与句子之间关联度计算
  • 4.2.2 句子与主题的相关性
  • 4.2.3 句子得分获取
  • 4.2.4 文摘句的选择
  • 4.3 实验评价及结果分析
  • 4.4 总结与结论
  • 5.面向查询的XML文摘句子重排
  • 5.1 XML文摘句子重排模型简介
  • 5.2 基于随机冲浪模型的XML文摘句子重排
  • 5.2.1 两种关系
  • 5.2.2 两种关系的集成
  • 5.2.3 句子排序
  • 5.3 试验及结果分析
  • 5.3.1 数据集及相关参数设定
  • 5.3.2 实例及实验结果分析
  • 5.4 本章小结
  • 6.总结与展望
  • 参考文献
  • 附录 攻读硕士学位期间发表论文及参与课题
  • 致谢
  • 相关论文文献

    • [1].基于案件要素指导的涉案舆情新闻文本摘要方法[J]. 中文信息学报 2020(05)
    • [2].结合主题感知与通信代理的文本摘要模型[J]. 西安电子科技大学学报 2020(03)
    • [3].区分冗余序列的抽象文本摘要[J]. 厦门大学学报(自然科学版) 2019(06)
    • [4].文本摘要研究进展与趋势[J]. 网络与信息安全学报 2018(06)
    • [5].基于改进Sequence-to-Sequence模型的文本摘要生成方法[J]. 计算机工程与应用 2019(01)
    • [6].基于文本摘要的影评评分预测研究[J]. 计算机与数字工程 2019(01)
    • [7].带有覆盖率机制的文本摘要模型研究[J]. 计算机科学与探索 2019(02)
    • [8].基于强化学习的混合式文本摘要模型[J]. 信息技术与信息化 2019(01)
    • [9].基于专业词典的文本摘要系统的探讨[J]. 林区教学 2008(02)
    • [10].基于混合注意力与强化学习的文本摘要生成[J]. 计算机工程与应用 2020(01)
    • [11].基于语义感知的中文短文本摘要生成模型[J]. 计算机科学 2020(06)
    • [12].基于序列到序列模型的抽象式中文文本摘要研究[J]. 图书情报工作 2019(11)
    • [13].面向查询的自动文本摘要技术研究综述[J]. 计算机科学 2018(S2)
    • [14].基于自动文本摘要的中文移动简讯系统[J]. 现代计算机(专业版) 2015(30)
    • [15].基于认知心理学模型的自动文本摘要生成技术[J]. 华东理工大学学报(自然科学版) 2009(06)
    • [16].自动文本摘要方法[J]. 计算机工程 2008(01)
    • [17].基于加权主题分布表达的微博文本摘要生成研究[J]. 东北师大学报(自然科学版) 2020(01)
    • [18].基于基本要素方法的中文自动文本摘要模型[J]. 现代图书情报技术 2010(02)
    • [19].基于分类的中文文本摘要方法[J]. 计算机科学 2018(01)
    • [20].基于自交互注意力机制的文本摘要方法[J]. 指挥信息系统与技术 2018(05)
    • [21].基于指针机制与门控卷积单元的抽象式文本摘要方法[J]. 软件 2020(10)
    • [22].自动文本摘要技术综述[J]. 情报杂志 2010(08)
    • [23].文本摘要常用数据集和方法研究综述[J]. 中文信息学报 2019(05)
    • [24].多主题文本摘要抽取的研究与实现[J]. 计算机工程 2011(06)
    • [25].文本摘要的建构渗透度特征模型[J]. 中文信息学报 2018(07)
    • [26].AM-BRNN:一种基于深度学习的文本摘要自动抽取模型[J]. 小型微型计算机系统 2018(06)
    • [27].基于改进Transformer模型的文本摘要生成方法[J]. 电讯技术 2019(10)
    • [28].TSPT:基于预训练的三阶段复合式文本摘要模型[J]. 计算机应用研究 2020(10)
    • [29].DAPC:结合双注意力和指针覆盖的文本摘要模型[J]. 计算机工程与应用 2020(08)
    • [30].基于NN-Attention的中文短文本摘要[J]. 计算机系统应用 2020(07)

    标签:;  ;  ;  ;  ;  

    面向查询的XML文本摘要技术
    下载Doc文档

    猜你喜欢