本体自动生成中词汇相似度计算的研究

本体自动生成中词汇相似度计算的研究

论文摘要

随着网络技术的飞速发展,人们从互联网上获取的信息资源越来越多。怎样能够快速,准确的在海量的Web信息中挖掘到有价值的信息资源已成为国内外研究的一个热点问题。其中,词汇相似度的计算是信息检索的一个重要问题。词汇相似度计算在文本智能检索,机器翻译,自动应答系统,词义排歧,情报检索,自然语言处理等领域有着广泛的应用。同时随着语义网的兴起,词汇相似度的计算在对实现本体的集成和基于语义的信息检索中也起着重要的作用。基于上述应用背景,本文首先介绍了本体的相关理论和概念,接着介绍了目前国内外关于词语相似度的研究现状以及几种具有代表性的词汇相似度的计算方法,分析其特点及存在的问题。本文在此基础上改进了一种基于词汇向量空间的相似度的计算方法。词典是由一系列的词汇以及其相关的解释语构成,首先选定某一词汇作为关键词,这一词汇被其他解释语所解释,而其解释语又被其他词汇所解释。就这样一级级的传递下去,最后形成一个词汇网络层次结构。然后通过计算每个词汇在相应的解释语中出现的频率,把所有在这些各级解释语中出现的频率数据存储为一个矩阵文件(称为频度矩阵,记为A),通过词汇向量计算公式(I-aA)C=(1-a)A计算出词汇向量C。把某个词汇在任意两个词汇的解释语中出现的概率作为它们的相似度,词汇相似度值代表着一个关键词与另外的一个关键词的解释语中词汇接近的程度。其值越大,说明这两个词汇的语义越接近,反之亦然。这里的词汇是取值于词汇向量文件的,而最终的相似度值也存储为向量文件。通过样本数据来验证了这种计算相似度的方法,实验结果显示其达到预期的效果。并且很好的符合系统的要求,此类计算相似度的方法也为本体词汇分类奠定了基础。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题意义
  • 1.2 国内外研究现状
  • 1.2.1 研究方法
  • 1.2.2 两类方法存在的优缺点
  • 1.3 论文的主要工作
  • 1.3.1 论文的主要内容
  • 1.3.2 论文的组织结构
  • 第2章 本体技术(Ontology)及其应用概述
  • 2.1 本体的提出背景
  • 2.2 本体的概念
  • 2.3 本体的功能
  • 2.4 本体的构建方法
  • 2.4.1 本体构建方法概述
  • 2.4.2 本体自动构建方法论
  • 2.5 本体的应用
  • 2.6 小结
  • 第3章 词汇相似度计算的研究
  • 3.1 词语相似度的概述
  • 3.2 基于本体的概念相似度计算
  • 3.2.1 相关概念介绍
  • 3.2.2 概念相似度的计算
  • 3.3 基于某种世界知识(Ontology)的词汇相似度计算
  • 3.3.1 常用的语义词典简介
  • 3.3.2 基于语义词典的词汇相似度计算方法
  • 3.4 基于知网的词汇相似度计算
  • 3.4.1 《知网》简介
  • 3.4.2 《知网》的结构
  • 3.4.3 基于《知网》的词汇相似度计算方法
  • 3.5 基于统计的词汇相似度计算
  • 3.5.1 常用的语料库简介
  • 3.5.2 基于统计的词汇相似度计算方法
  • 3.6 小结
  • 第4章 基于向量空间相似度计算的研究
  • 4.1 向量空间模型概述
  • 4.2 基于向量空间的文本相似度计算
  • 4.2.1 文本相似度的概念
  • 4.2.2 文本相似度计算的方法
  • 4.3 基于向量空间的句子相似度计算方法
  • 4.4 基于向量空间的词汇相似度的计算
  • 4.4.1 词汇向量
  • 4.4.2 词汇相似度计算算法
  • 4.5 小结
  • 第5章 实验系统的设计与验证
  • 5.1 实验系统
  • 5.1.1 系统简介
  • 5.1.2 功能模块划分
  • 5.2 实验
  • 5.2.1 数据和实验环境
  • 5.2.2 实验结果
  • 第6章 总结与展望
  • 参考文献
  • 附录A 数据存储格式
  • 附录B 词汇向量(部分)
  • 致谢
  • 研究生履历
  • 相关论文文献

    • [1].关于阅读与词汇积累的几点建议[J]. 首都外语论坛 2016(00)
    • [2].中英文对照名词词汇(二)[J]. 中国现代神经疾病杂志 2019(11)
    • [3].中英文对照名词词汇(四)[J]. 中国现代神经疾病杂志 2019(11)
    • [4].中英文对照名词词汇(五)[J]. 中国现代神经疾病杂志 2019(11)
    • [5].中英水果词汇文化涵义的对比研究及意义[J]. 智库时代 2020(01)
    • [6].中英文对照名词词汇(二)[J]. 中国现代神经疾病杂志 2019(12)
    • [7].中英文对照名词词汇(三)[J]. 中国现代神经疾病杂志 2019(12)
    • [8].中英文对照名词词汇(四)[J]. 中国现代神经疾病杂志 2019(12)
    • [9].本刊常用词汇缩略语[J]. 中国乡村医药 2020(01)
    • [10].本刊常用词汇缩略语[J]. 中国乡村医药 2020(03)
    • [11].有关词汇教学的几点思考[J]. 海外英语 2020(01)
    • [12].从词汇理据解析角度进行抗磨蚀词汇教学初探[J]. 呼伦贝尔学院学报 2019(06)
    • [13].浅谈茶文化传播中的茶词汇及其教学策略——以高校留学生茶艺课为例[J]. 福建茶叶 2020(03)
    • [14].说清楚这场战“疫”,5个必备词汇[J]. 中国对外贸易 2020(03)
    • [15].汉语分级阅读的词汇影响因素研究[J]. 语文学刊 2020(01)
    • [16].词汇演变创新、传播的动因和机制[J]. 古汉语研究 2020(02)
    • [17].本刊常用词汇缩略语[J]. 中国乡村医药 2020(09)
    • [18].中英文对照名词词汇(三)[J]. 中国现代神经疾病杂志 2020(05)
    • [19].中英文对照名词词汇(四)[J]. 中国现代神经疾病杂志 2020(05)
    • [20].中英文对照名词词汇(五)[J]. 中国现代神经疾病杂志 2020(05)
    • [21].思维导图在综合英语词汇教学中的应用研究[J]. 延边教育学院学报 2020(01)
    • [22].词块教学在小学英语词汇教学中运用策略分析[J]. 才智 2020(11)
    • [23].词句结合在初中英语词汇教学中的运用[J]. 华夏教师 2020(15)
    • [24].词汇指物意义与概念意义的转化[J]. 现代交际 2020(12)
    • [25].中国英语初学者写作词汇丰富性的发展特征研究[J]. 现代外语 2020(04)
    • [26].基于词汇的微博情感分类分析新方法[J]. 电子技术与软件工程 2020(11)
    • [27].本刊常用词汇缩略语[J]. 中国乡村医药 2020(15)
    • [28].基于语料库的不同语域报刊文章的词汇量化分析[J]. 英语广场 2020(20)
    • [29].二外法语词汇教学探讨[J]. 佳木斯职业学院学报 2020(09)
    • [30].基于建构式词汇联想方法的二语词汇深度研究[J]. 唐山学院学报 2020(04)

    标签:;  ;  ;  

    本体自动生成中词汇相似度计算的研究
    下载Doc文档

    猜你喜欢