基于内容的文本分割关键技术

基于内容的文本分割关键技术

论文摘要

一般而言,稍长的文本往往都会涉及几个主题或同一主题的多个方面,如果能够自动划分出文本的这种语义结构,将语义段落作为基本处理单元,则会极大的改善传统文本处理技术以篇章作为基本处理单元的现象,对文本的分析可以从原来的篇章级别细致到语义段落级别。文本分割技术能够将一篇文本按照语义关系自动识别为具有独立意义的若干个语义段落,并用标记将其区分以备深层分析之用。文本的内容是由词组成的,而词又要放到文本中去理解,词与文本之间是相互制约的。文本为了描述同一核心主题,而频繁的出现相同或相似的词汇,这种词汇集聚现象直观的反映了主题的相似性。人们阅读时也往往通过重复出现的词汇了解文本内容。这里所说的词汇重复也包括词汇的语义重复。本论文通过分析文本分割领域著名的模型来总结基于内容的文本分割模型的设计理念。文本分割的本质是根据主题相似性线索在文本内部找到主题与主题之间的边界位置,使得同一语义段落内部具有最大的主题相似性,而不同语义段落之间具有最小的主题相似性。因此,一个文本分割模型要解决的最根本问题就是主题相似性度量和边界搜索策略。本文提出了综合考虑文本相似度,区域相似度、语义段落长度、基于句对距离的相似度加权策略等多种线索来刻画主题相似性,在此基础上选择合适的边界搜索策略,获得性能上的优势。本文通过研究文本分割领域著名模型,针对其存在的问题,提出自己的解决方案。基于全局的文本相似性,用Dotplotting搜索策略每次分割出一个主题边界,本文提出了MMD模型;基于局部的区域相似性,用动态规则方法在所有决策略中搜索最优解,本文提出了MMF模型;基于词汇潜在的语义关系,尝试挖掘词汇间、文本间在上下文环境中的相互关联的量化关系,从而提高文本相似度计算的质量,本文提出了DLSA模型。针对国际公认的文本分割合成语料不能很好的反映分割模型在自然语料上的性能。本文通过构建真实的文本分割语料,来评测本论文所重点讨论的模型的性能优劣。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 文本分割
  • 1.2 研究现状
  • 1.2.1 基于词汇浅层信息
  • 1.2.2 基于词汇语义信息
  • 1.3 研究背景
  • 1.4 本文工作
  • 1.5 论文组织
  • 第2章 文本分割研究内容
  • 2.1 分割粒度
  • 2.2 相似度计算
  • 2.2.1 权重分配
  • 2.2.2 计算公式
  • 2.3 主题相似性评价
  • 2.4 边界搜索策略
  • 2.5 终止条件
  • 2.6 评测方法
  • k评测度量'>2.6.1 Pk评测度量
  • 2.6.2 WindowDiff
  • 2.7 评测语料
  • 2.7.1 合成语料
  • 2.7.2 自然语料
  • 第3章 基于词汇密度的文本分割模型
  • 3.1 Dotplotting模型
  • 3.1.1 模型分析
  • 3.1.2 Dotplotting搜索策略
  • 3.1.3 算法描述
  • 3.2 C99模型
  • 3.2.1 锐化处理技术
  • 3.2.2 分裂式聚类
  • 3.2.3 阀值终止条件
  • 3.3 MMD模型
  • 3.3.1 Dotplotting模型问题分析
  • 3.3.2 评价函数设计
  • 3.4 实验
  • 3.4.1 对比实验
  • 3.4.2 锐化窗口性能实验
  • 3.5 小结
  • 第4章 基于动态规划的文本分割模型
  • 4.1 主题相似性线索
  • 4.1.1 区域内相似度
  • 4.1.2 区域间相似度
  • 4.1.3 文本区域长度
  • 4.1.4 重现词汇距离
  • 4.2 评价函数设计
  • 4.2.1 长度因子
  • 4.2.2 密度因子
  • 4.3 基于动态规划的文本分割建模
  • 4.3.1 动态规划引例
  • 4.3.2 动态规划原理
  • 4.3.3 多维动态规划
  • 4.3.4 文本分割问题
  • 4.3.5 一维动态规划算法描述
  • 4.4 MMF模型
  • 1评价函数'>4.4.1 MMF1评价函数
  • 2评价函数'>4.4.2 MMF2评价函数
  • 4.4.3 二维动态规划算法描述
  • 4.5 实验
  • 4.5.1 重现实验
  • 4.5.2 对比实验
  • 4.5.3 主题相似性线索有效性实验
  • 4.6 小结
  • 第5章 基于潜在语义分析的文本分割模型
  • 5.1 潜在语义分析基本原理
  • 5.1.1 LSA基本原理
  • 5.1.2 截断的奇异值分解
  • 5.2 DLSA模型
  • 5.2.1 语义关系
  • 5.2.2 模型训练
  • 5.2.3 相似度矩阵
  • 5.3 实验
  • 5.3.1 对比实验
  • 5.3.2 空间维度性能实验
  • 5.4 小结
  • 第6章 总结
  • 6.1 研究工作总结
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].塞科“经济正常化”文本四问[J]. 世界知识 2020(20)
    • [25].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [26].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [27].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [28].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [29].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [30].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)

    标签:;  ;  ;  

    基于内容的文本分割关键技术
    下载Doc文档

    猜你喜欢