汉语文本主题分析技术的研究与实现

汉语文本主题分析技术的研究与实现

论文摘要

在当今全球信息一体化的时代,网络资源的不断增长提供给人们的电子文本信息越来越多。人们能从这些文本信息中获取大量的知识或技能,但又面临着信息太多而时间不够的问题。虽然目前有很多搜索网站,人们可以通过搜索关键词的方式来查找相关信息,但搜索出来的信息量依然太多,往往只有人们阅读完文本后才发现不是所需要的信息。因此,如何能有效地对文本进行主题分析成为迫切需要解决的问题。本文针对文本主题分析技术中的主题分割和主题识别展开了研究,主要包括以下几部分工作:首先,分析了当前文本主题分析技术的研究现状、相关的概念与现有的技术,并分析了自然语言处理中常用的评价方法如何在文本主题分析中得到使用。其次,本文提出了基于SVO的段落相似度计算方法,并将该方法应用到文本主题分割中。接着,提出了基于关键句的文本主题识别方法。该方法是基于文本主题分割后的结果,对每个相对独立的主题文本块进行主题识别,找出适合做文本块主题的关键句,并将其进行处理使得关键句语义完整。将这种主题分割和主题识别的方法统称为基于统计的文本主题分析技术。实验结果表明该技术在文本主题分割中比传统的建立段落向量空间模型计算连续段落相似度的方法更有效,在主题识别上找出的关键句在一定程度上优于Microsoft Word寻找的关键句。另外,针对上面先进行主题分割后进行主题识别的方法导致主题漏识的情况,提出了统计与知识相结合的文本主题分析技术。该技术中使用了同义知识和主题知识,先进行主题识别再进行主题分割,将主题分割后的文本块进一步进行主题识别,将两次主题识别结果的并集作为整个文本的主题。该技术一定程度上提高了主题分割和主题识别的准确率。然后,使用VC++和Matlab混合编程实现了文本主题分析系统,将其用于文本主题分析。最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 问题的提出及研究意义
  • 1.1.1 问题的提出
  • 1.1.2 研究意义
  • 1.2 文本主题分析技术的研究现状
  • 1.3 本文的研究内容
  • 1.3.1 论文的主要工作
  • 1.3.2 本文的组织
  • 2 文本主题分析技术
  • 2.1 有关概念
  • 2.1.1 主题
  • 2.1.2 文本分割与主题分割
  • 2.1.3 主题抽取与主题识别
  • 2.1.4 主题分析与自动摘要的关系
  • 2.2 文本主题分析的研究方法
  • 2.2.1 主题分割的研究方法
  • 2.2.2 主题识别的研究方法
  • 2.3 文本主题分析的评价方法
  • 2.4 本章小结
  • 3 基于统计的文本主题分析技术
  • 3.1 思想
  • 3.2 基于SVO的段落相似度计算方法
  • 3.2.1 段落的表示方法
  • 3.2.2 基于SVO的段落相似度计算方法
  • 3.2.3 基于SVO的段落相似度计算方法的特点
  • 3.3 基于统计的文本主题分析技术
  • 3.3.1 文本预处理
  • 3.3.2 基于SVO段落相似度的文本主题分割算法
  • 3.3.3 基于关键句的文本主题识别算法
  • 3.4 实验结果及其评价
  • 3.4.1 文本主题分割实验及其评价
  • 3.4.2 文本主题识别实验及其评价
  • 3.5 本章小结
  • 4 统计与知识相结合的文本主题分析技术
  • 4.1 知识相关内容
  • 4.1.1 知识的定义
  • 4.1.2 知识表示
  • 4.1.3 知识的获取方式
  • 4.2 同义词词林
  • 4.2.1 同义词词林的介绍
  • 4.2.2 基于同义词词林的词语相似度计算
  • 4.2.3 基于同义词词林的句子相似度计算方法
  • 4.2.4 基于同义词词林的文本词语替换方法
  • 4.3 统计与知识相结合的文本主题分析技术
  • 4.3.1 知识库
  • 4.3.2 知识学习过程
  • SK'>4.3.3 主题识别算法TTISK
  • SK'>4.3.4 主题分析算法TTASK
  • 4.4 实验及其评价
  • 4.5 本章小结
  • 5 文本主题分析系统的实现
  • 5.1 开发环境
  • 5.2 系统功能介绍
  • 5.2.1 文本预处理实例
  • 5.2.2 文本命名实例
  • 5.2.3 基于统计的文本主题分析实例
  • 5.2.4 统计与知识相结合的文本主题分析实例
  • 5.3 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录: A.作者在攻读硕士学位期间发表及录用的论文目录
  • B.作者在攻读硕士学位期间参加的科研项目以及得奖情况
  • 相关论文文献

    • [1].云存储中心多源文本主题融合模型研究[J]. 智能计算机与应用 2019(02)
    • [2].撕开“和谐”面纱 挖掘人性之殇[J]. 中学语文教学参考 2017(Z2)
    • [3].让阅读在主题中升华[J]. 语文世界(教师之窗) 2017(05)
    • [4].把握三点,放飞想象的翅膀[J]. 新作文(语文教学研究) 2017(01)
    • [5].融合:随文识字之策——以《会走路的树》为例[J]. 七彩语文(教师论坛) 2017(07)
    • [6].残雪小说的氛围与历史性[J]. 青年文学家 2017(09)
    • [7].找主题、厘情节、析人物——小学记叙文阅读“三法”[J]. 新作文(语文教学研究) 2020(03)
    • [8].概括文本主题思想的几种方法[J]. 语数外学习(高中版中旬) 2018(11)
    • [9].基于深层融合的股票文本主题识别[J]. 计算机科学 2019(S2)
    • [10].加权专利文本主题模型研究[J]. 数据分析与知识发现 2018(04)
    • [11].基于图挖掘的文本主题识别方法研究综述[J]. 中国图书馆学报 2015(06)
    • [12].紧扣文本主题 点染美化灵魂[J]. 新课程学习(下) 2011(12)
    • [13].多原型词向量与文本主题联合学习模型[J]. 中文信息学报 2020(03)
    • [14].挖掘文本主题的阅读指导尝试[J]. 中学教学参考 2018(19)
    • [15].深挖文本主题是阅读教学的关键[J]. 语文天地 2015(36)
    • [16].基于最优化控制模型的文本主题域划分[J]. 吉林大学学报(理学版) 2009(04)
    • [17].整合重构教材,促进阅读表达[J]. 教育艺术 2018(05)
    • [18].基于语义词向量的自媒体短文本主题建模[J]. 计算机时代 2019(12)
    • [19].基于多元关系融合的科技文本主题识别方法研究[J]. 中国图书馆学报 2019(01)
    • [20].文本主题识别关键技术研究综述[J]. 情报科学 2017(01)
    • [21].小学阅读教学中深化文本主题的策略研究[J]. 基础教育参考 2014(19)
    • [22].一种短文本主题特征的改进方法[J]. 工业控制计算机 2015(08)
    • [23].思维导图在初中叙事类文本主题探究中的应用[J]. 基础教育研究 2018(23)
    • [24].颜色词与中职语文文本主题相关性探析[J]. 青年文学家 2018(30)
    • [25].基于对文本主题思考的英语对话教学实践——以修订版PEP六(上)Unit 4 I have a pen pal Part B为例[J]. 小学教学设计 2015(24)
    • [26].文本挖掘中主客观因素影响性的眼追踪研究[J]. 微型机与应用 2017(03)
    • [27].朗读学习一窥[J]. 初中生辅导 2017(34)
    • [28].“三个聚焦”让课堂练笔更有效[J]. 语文天地 2016(27)
    • [29].基于连续词包模型的一种改进的文本主题聚类算法[J]. 电脑知识与技术 2018(17)
    • [30].“树”不尽的“象”思累——“树”意象的象征意义对《宠儿》文本主题的重构[J]. 四川民族学院学报 2012(01)

    标签:;  ;  ;  ;  ;  

    汉语文本主题分析技术的研究与实现
    下载Doc文档

    猜你喜欢