基于语义情感倾向的文本相似度计算

基于语义情感倾向的文本相似度计算

论文摘要

在中文信息处理中,汉语文本相似度计算是一项基础而重要的工作,广泛应用于信息分类、信息检索、信息过滤、信息管理等领域。由于汉语的特殊性和复杂性,中文文本相似度处理一直都是人们研究的热点和难点。传统的中文文本相似度算法是根据语料统计结果或是词语语义来计算,而根据文本中体现出的作者的对描述内容的看法、观点、情感倾向等主观感情色彩进行的研究较少。因此,本文将作者情感倾向引入文本相似度计算当中。作者的情感倾向在语言中体现为语言的褒贬度。在本文中,句子是进行褒贬度度量的最小语言单位。句子的褒贬性确定和褒贬度度量,以及褒贬度如何对句子相似度产生影响都是本文研究的关键。本文主要有如下几个方面的研究成果:1.研究了引入情感倾向对于中文相似度计算的重要性,并研究了情感倾向因素适合使用的文本情况。人类使用自然语言来描述事物,传达信息,交流情感,因此情感是人类语言最显著的特征,我们在对中文文本信息处理时,不应该忽略情感对于信息处理结果带来的影响。情感倾向在两个文本主题相似或完全相同的情况下将对文本相似度计算发挥决定性的作用。2.研究了句子情感倾向的判定,并给出句子褒贬度衡量方法和计算公式。作者通过结合知网等研究成果,构建反义义原词典、程度副词词典和句子结构化模板,提取和识别句子中词语(主要是动词、形容词)的褒贬度和句子结构的褒贬特征,建立褒贬评价规则,计算句子褒贬度。在分别获得待比较句子褒贬度的情况下,提出了褒贬相似度的计算规则,得出句子褒贬度的比较结果。3.针对汉语由词语构成句子,句子构成段落,段落构成文章的特点,分别对汉语中的词语、句子、段落四个层次的相似度计算进行了研究。这四者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过程每一步都利用上一步的计算结果。并对基于知网语义的句子和段落相似度计算方法进行改进,引入了句子长度、词语个数、段落长度等多种特征考察文本相似度。4.以计算机取证系统的模型为实例,体现情感倾向因素在具体应用领域的重要性。并对本文提出的理论进行实验,取得了较好的成绩。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 研究意义
  • 1.4 本文创新之处
  • 1.5 论文组织结构
  • 第二章 文本相似度计算关键问题
  • 2.1 文本相似度的概念
  • 2.2 中文分词
  • 2.2.1 常用分词技术
  • 2.2.2 分词中的难题
  • 2.3 常用文本相似度计算方法
  • 2.3.1 基于语料统计的文本相似度计算方法
  • 2.3.2 基于语义词典的文本相似度计算方法
  • 2.4 小结
  • 第三章 基于知网的语义相似度计算
  • 3.1 汉语语义概述
  • 3.2 知网
  • 3.2.1 知网概述
  • 3.2.2 知网语义描述策略
  • 3.3 基于知网的语义相似度计算
  • 3.3.1 词语相似度计算
  • 3.3.2 句子相似度计算
  • 3.3.3 段落相似度计算
  • 3.4 小结
  • 第四章 情感倾向判断
  • 4.1 汉语语句分析
  • 4.2 褒贬倾向性评价资源构建
  • 4.2.1 反义义原词典
  • 4.2.2 程度副词词典
  • 4.2.3 句子结构化模板
  • 4.3 句子内容褒贬倾向性评价
  • 4.3.1 褒贬特征识别
  • 4.3.2 褒贬评价规则
  • 4.4 小结
  • 第五章 情感倾向引入文本相似度计算
  • 5.1 情感倾向概述
  • 5.1.1 情感倾向引入相似度计算的必然性
  • 5.1.2 情感倾向引入相似度计算的必要性
  • 5.1.3 情感倾向引入相似度计算的条件
  • 5.2 文本相似度计算的四个层次
  • 5.3 基于情感倾向的句子相似度计算
  • 5.3.1 句子语义相似度计算公式的改进
  • 5.3.2 句子褒贬相似度计算
  • 5.3.3 基于情感倾向的句子相似度计算
  • 5.4 基于情感倾向的段落相似度计算
  • 5.4.1 段落语义相似度计算公式的改进
  • 5.4.2 段落褒贬度和褒贬相似度计算
  • 5.4.3 基于情感倾向的段落相似度计算
  • 5.5 基于情感倾向的文章相似度计算
  • 5.6 小结
  • 第六章 验证系统的设计与实现
  • 6.1 实验背景概述
  • 6.2 计算机取证系统文本比对模块的设计方案
  • 6.2.1 中文自动分词模块的实现
  • 6.2.2 知网数据库的搭建
  • 6.2.3 文本相似度计算模块组成
  • 6.2.4 文本相似度计算模块流程
  • 6.3 模块评价
  • 6.3.1 实验结果
  • 6.3.2 实验评价
  • 第七章 结束语
  • 致谢
  • 参考文献
  • 附录1:反义义原词典(部分)
  • 附录2:程度副词词典
  • 附录3:句子结构化模板
  • 附录4:词性标记
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].文本相似度计算研究进展综述[J]. 北京信息科技大学学报(自然科学版) 2019(01)
    • [2].基于微博的用户相似度计算研究[J]. 计算机科学 2017(02)
    • [3].基于自然语言检索的综合相似度计算算法[J]. 计算机系统应用 2017(06)
    • [4].基于抽象知识点模型的句子相似度计算[J]. 计算机系统应用 2015(05)
    • [5].基于本体的概念相似度计算的改进[J]. 世界科技研究与发展 2013(02)
    • [6].基于词语情感倾向的问句相似度计算[J]. 安庆师范学院学报(自然科学版) 2014(02)
    • [7].基于相似度计算的本体映射优化方法[J]. 计算机工程 2008(19)
    • [8].裁判文书类案推送中的案情相似度计算模型研究[J]. 计算机工程与科学 2019(12)
    • [9].面向客服的自动问答系统的相似度计算研究[J]. 信息技术 2020(03)
    • [10].多特征相似度计算在考试评阅系统中的应用探索[J]. 电脑知识与技术 2019(24)
    • [11].问句相似度计算综述[J]. 电脑知识与技术 2014(31)
    • [12].远程高等教育课程学分转换方法探析:课程相似度计算[J]. 开放教育研究 2013(05)
    • [13].语义检索中的词语相似度计算研究[J]. 计算机技术与发展 2011(04)
    • [14].基于分词的语句相似度计算的改进[J]. 石家庄铁道大学学报(自然科学版) 2011(04)
    • [15].本体映射中概念相似度计算的改进[J]. 山西大同大学学报(自然科学版) 2008(04)
    • [16].云环境下制造资源和服务需求相似度计算[J]. 科技管理研究 2018(23)
    • [17].农机部件相似度计算及评价方法[J]. 机械设计 2019(03)
    • [18].专利文献的结构树模型及其在相似度计算中的应用[J]. 情报理论与实践 2015(03)
    • [19].本体映射过程中的综合相似度计算[J]. 电脑学习 2011(02)
    • [20].改进的概念语义相似度计算[J]. 计算机工程与设计 2010(05)
    • [21].基于改进联合相似度计算的图书推荐算法[J]. 计算机与现代化 2019(03)
    • [22].基于免疫原理词表示的词相似度计算[J]. 智能计算机与应用 2015(03)
    • [23].一种基于词语相似度计算的本体映射方法[J]. 现代图书情报技术 2013(02)
    • [24].基于本体的概念相似度计算研究[J]. 计算机光盘软件与应用 2012(05)
    • [25].基于CFN的相似度计算方法[J]. 太原大学学报 2011(01)
    • [26].程序相似度计算技术及其在教学中的应用[J]. 软件导刊(教育技术) 2010(04)
    • [27].协同过滤技术中相似度计算问题研究[J]. 福建电脑 2010(06)
    • [28].一种基于Tree-LSTM的句子相似度计算方法[J]. 北京大学学报(自然科学版) 2018(03)
    • [29].基于马尔科夫模型的汉语语句相似度计算[J]. 哈尔滨商业大学学报(自然科学版) 2017(01)
    • [30].知识图谱中实体相似度计算研究[J]. 中文信息学报 2017(01)

    标签:;  ;  ;  ;  ;  

    基于语义情感倾向的文本相似度计算
    下载Doc文档

    猜你喜欢