基于标题特征和词汇关联的文本结构分析

基于标题特征和词汇关联的文本结构分析

论文摘要

文本结构分析在信息检索、自动文摘、信息抽取等领域扮演着重要的角色。文本结构分析是将含有多个子主题结构的文本按语义划分成多个部分,每个部分为一个语义段,由一个或多个自然段落构成,不同的语义段描述不同的主题结构。本文主要进行结构分析的对象是包含多个子主题的文本,根据不同文体各自的特点,将科技论文和其它文本采用不同的方法分开处理。科技论文一般具有比较清晰的结构信息,可以通过文中的小标题进行主题段的划分,但小标题的种类繁多、格式多样,给计算机的自动识别带来一定的困难。本文在识别具有数字标号的小标题时,对单纯的数字识别法进行了改进,并提出一种基于特征词的识别法,用于识别没有数字标号的小标题。在此基础之上,将两种方法结合起来,采用层次识别机制构建了标题识别系统。实验结果表明,该系统能以较高的召回率和正确率有效地识别小标题,从而识别出文本的结构。对于非科技论文的结构分析,主要使用文本分割方法,根据不同的子主题对文本进行语义划分,将来可应用于主题聚类任务。目前已有文本分割方法大多只利用了文本表层的词汇重现信息,难以准确体现主题的连续性,分析结果并不理想。本文利用知网引入词汇的语义信息,提出了一种词汇关联计算方法,将语义信息映射到词汇语义关联矩阵中,通过矩阵拆分语义信息对传统的向量空间模型进行改进,以适合加入语义信息后TextTiling算法的紧凑度计算。实验结果表明,使用语义信息与单纯使用词汇重现信息相比,能够更好的分析文本结构。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 文本结构分析任务
  • 1.3 本文主要工作
  • 1.4 论文的组织结构
  • 第2章 相关技术及研究现状
  • 2.1 基于规则的方法
  • 2.1.1 层次分析
  • 2.1.2 文本标引
  • 2.2 基于统计的方法
  • 2.2.1 文本关系图
  • 2.2.2 TextTiling算法
  • 2.2.3 Dotplotting算法
  • 2.2.4 潜在语义分析
  • 2.2.5 动态规划算法
  • 2.3 性能评价方式
  • 2.3.1 F-measure评价方法
  • 2.3.2 Pk评价方法
  • 2.3.3 WindowDiff评价方法
  • 2.4 小结
  • 第3章 基于标题特征的文本结构分析
  • 3.1 存在问题
  • 3.2 改进的数字识别法
  • 3.3 基于特征词的标题识别
  • 3.3.1 抽取特征词
  • 3.3.2 标题判定
  • 3.3.3 标题选择
  • 3.4 实验和结果分析
  • 3.5 标题识别系统
  • 3.6 小结
  • 第4章 基于词汇关联的文本结构分析
  • 4.1 问题提出
  • 4.2 知网简介
  • 4.3 改进的TextTiling算法
  • 4.3.1 预处理
  • 4.3.2 利用知网获取语义关系
  • 4.3.3 基于语义的紧凑度计算
  • 4.3.4 深度计算
  • 4.3.5 平滑处理
  • 4.3.6 边界选择
  • 4.4 实验结果及分析
  • 4.4.1 测试语料
  • 4.4.2 评价指标
  • 4.4.3 实验结果
  • 4.4.4 结果分析
  • 4.5 小结
  • 结论
  • 附录I 科技论文的标题识别结果XML框架
  • 附录II 摘要模板示例
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].俄罗斯文学作品的标题艺术研究[J]. 国际公关 2019(12)
    • [2].教你写论文系列⑥ 标题怎么起才合适[J]. 成才与就业 2019(12)
    • [3].英语网络信息诱惑式标题分析[J]. 无锡商业职业技术学院学报 2019(06)
    • [4].浅谈报纸编辑如何制作标题[J]. 新闻研究导刊 2020(02)
    • [5].网络“标题党”现象:成因及治理[J]. 地方治理研究 2020(02)
    • [6].谈社论标题复句的适应性[J]. 汉语学报 2020(02)
    • [7].公文写作中大小标题常见逻辑错误[J]. 应用写作 2020(06)
    • [8].科技文献英文标题常见问题及翻译措施[J]. 海外英语 2020(07)
    • [9].微信公众号新闻“标题党”现象及治理对策[J]. 新媒体研究 2020(08)
    • [10].《液压与气动》论文的英文标题、摘要、关键词写作要求[J]. 液压与气动 2020(07)
    • [11].写好网文标题的几个小技巧[J]. 新闻前哨 2020(06)
    • [12].作品标题的保护问题[J]. 戏剧之家 2020(19)
    • [13].“标题党”现象的新闻道德探析[J]. 新闻研究导刊 2020(12)
    • [14].微信公众号标题写作误区及要点分析[J]. 新闻传播 2020(04)
    • [15].党报新媒体如何远离“标题党”[J]. 新闻传播 2020(11)
    • [16].标题用语研究之研究[J]. 萍乡学院学报 2020(02)
    • [17].求“标题党”放我们一马[J]. 中国花卉园艺 2020(14)
    • [18].标题优化不完全指南[J]. 中小学管理 2020(08)
    • [19].浅析微信公众号推文标题的语言特点与技巧[J]. 视听 2020(09)
    • [20].谈中国新闻奖获奖作品标题的经典诗句运用——从标题研究若干问题说起[J]. 传播力研究 2020(15)
    • [21].公众号“菜菜美食日记”头条推文标题研究——以2020年3月为例[J]. 传播与版权 2020(08)
    • [22].新媒体标题创意的26种方法探析与研究——基于侠客岛、政已阅、北青报公众号、新华社公众号等为考察对象的分析[J]. 中国地市报人 2020(09)
    • [23].浅谈如何拟好金融类文章的标题[J]. 应用写作 2018(12)
    • [24].微信“标题党”的危害及治理[J]. 青年记者 2018(32)
    • [25].标题如旗帜[J]. 应用写作 2019(02)
    • [26].如何制作一个吸引人的微信标题[J]. 青年记者 2019(09)
    • [27].修辞在中国高校官微推文标题中的运用与规范技巧[J]. 新闻研究导刊 2019(19)
    • [28].您的稿件为何难以打动编辑“芳心”——浅谈记者拟好标题意识[J]. 传播力研究 2019(28)
    • [29].标题党[J]. 方圆 2017(23)
    • [30].标题党[J]. 方圆 2017(22)

    标签:;  ;  ;  ;  

    基于标题特征和词汇关联的文本结构分析
    下载Doc文档

    猜你喜欢