跨语言词汇语义相似度计算研究

跨语言词汇语义相似度计算研究

论文摘要

跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度计算的研究逐渐得到了重视。本文致力于中英文词汇语义相似度的研究,证明了HowNet可以用于跨语言词汇语义相似度计算,并且平行语料库中的共现信息对跨语言词汇语义相似度计算的性能有较好的提升作用。本文的跨语言词汇语义相似度计算方法以HowNet作为跨语言知识库,基于HowNet的跨语言词汇语义相似度计算方法与单语词汇语义相似度计算方法类似,以HowNet中的概念定义和义原的树形层次结构作为计算基础,通过把中英文词语转化为义原形式,之后计算义原以及词语之间的语义相似度。评测结果表明HowNet可用于跨语言词汇语义相似度计算,但是HowNet中的一些词语的定义不够准确,对算法的性能产生了不良影响。为进一步提高跨语言词汇语义相似度计算的准确性,本文引入平行语料库作为补充数据源,首先抽取词语在语料库中的上下文词语,之后根据词语的PMI信息对上下文词语进行排序,并采用多种算法计算上下文词语之间的语义相似度,在把基于HowNet的方法与基于平行语料库的方法进行融合之后,跨语言词汇语义相似度计算的准确率得到了较大的提升。实验结果表明通过增加平行语料库的规模,跨语言词汇语义相似度计算的性能还会进一步提高。跨语言词汇语义相似度计算的评测采用与人工判断结果进行比较的方法,但是目前还没有可用的标准评测集。通过对英文词汇语义相似度研究中普遍采用的Miller-Charles评测集进行扩展,本文得到了包含28组中英文词语的评测集,为中英文词汇语义相似度计算提供了标准的评测集。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景与意义
  • 1.2 主要研究内容
  • 1.3 论文组织结构
  • 第二章 相关技术与资源
  • 2.1 单语词汇语义相似度计算
  • 2.1.1 WordNet 介绍
  • 2.1.2 基于知识库的词汇语义相似度计算方法
  • 2.1.3 基于语料库的词汇语义相似度计算方法
  • 2.2 MC 评测集的扩展
  • 2.3 本章小结
  • 第三章 基于HowNet 的跨语言词汇语义相似度计算
  • 3.1 HowNet 介绍
  • 3.2 基于HowNet 的单语词汇语义相似度计算
  • 3.2.1 词汇语义相似度与词汇语义距离
  • 3.2.2 基于HowNet 的词汇语义相似度计算
  • 3.3 基于HowNet 的跨语言词汇语义相似度计算
  • 3.3.1 义原语义相似度计算
  • 3.3.2 概念语义相似度计算
  • 3.3.3 词汇语义相似度计算
  • 3.3.4 实验结果
  • 3.3.5 实验结果偏高分析
  • 3.3.6 实验结果偏低分析
  • 3.4 本章小结
  • 第四章 平行语料库与HowNet 相结合的跨语言词汇语义相似度计算
  • 4.1 基于平行语料库的词汇语义相似度计算方法
  • 4.1.1 词语与上下文词语之间的语义相似度计算
  • 4.1.2 上下文词语之间语义相似度计算
  • 4.1.3 参数估计
  • 4.2 实验结果及分析
  • 4.2.1 实验语料库介绍
  • 4.2.2 词语与词语的上下文词语的语义相似度实验
  • 4.2.3 上下文词语的语义相似度计算实验
  • 4.2.4 基于 How Net 的方法与结合平行语料库的方法的比较
  • 4.2.5 组合参数实验
  • 4.2.6 语料库规模实验
  • 4.3 本章小结
  • 第五章 总结与展望
  • 5.1 本文总结
  • 5.2 展望
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 相关论文文献

    • [1].文本相似度计算研究进展综述[J]. 北京信息科技大学学报(自然科学版) 2019(01)
    • [2].基于微博的用户相似度计算研究[J]. 计算机科学 2017(02)
    • [3].基于自然语言检索的综合相似度计算算法[J]. 计算机系统应用 2017(06)
    • [4].基于抽象知识点模型的句子相似度计算[J]. 计算机系统应用 2015(05)
    • [5].基于本体的概念相似度计算的改进[J]. 世界科技研究与发展 2013(02)
    • [6].基于词语情感倾向的问句相似度计算[J]. 安庆师范学院学报(自然科学版) 2014(02)
    • [7].基于相似度计算的本体映射优化方法[J]. 计算机工程 2008(19)
    • [8].裁判文书类案推送中的案情相似度计算模型研究[J]. 计算机工程与科学 2019(12)
    • [9].面向客服的自动问答系统的相似度计算研究[J]. 信息技术 2020(03)
    • [10].多特征相似度计算在考试评阅系统中的应用探索[J]. 电脑知识与技术 2019(24)
    • [11].问句相似度计算综述[J]. 电脑知识与技术 2014(31)
    • [12].远程高等教育课程学分转换方法探析:课程相似度计算[J]. 开放教育研究 2013(05)
    • [13].语义检索中的词语相似度计算研究[J]. 计算机技术与发展 2011(04)
    • [14].基于分词的语句相似度计算的改进[J]. 石家庄铁道大学学报(自然科学版) 2011(04)
    • [15].本体映射中概念相似度计算的改进[J]. 山西大同大学学报(自然科学版) 2008(04)
    • [16].云环境下制造资源和服务需求相似度计算[J]. 科技管理研究 2018(23)
    • [17].农机部件相似度计算及评价方法[J]. 机械设计 2019(03)
    • [18].专利文献的结构树模型及其在相似度计算中的应用[J]. 情报理论与实践 2015(03)
    • [19].面向自动问答系统的短文本相似度计算[J]. 信息技术与信息化 2020(11)
    • [20].本体映射过程中的综合相似度计算[J]. 电脑学习 2011(02)
    • [21].改进的概念语义相似度计算[J]. 计算机工程与设计 2010(05)
    • [22].基于改进联合相似度计算的图书推荐算法[J]. 计算机与现代化 2019(03)
    • [23].基于免疫原理词表示的词相似度计算[J]. 智能计算机与应用 2015(03)
    • [24].一种基于词语相似度计算的本体映射方法[J]. 现代图书情报技术 2013(02)
    • [25].基于本体的概念相似度计算研究[J]. 计算机光盘软件与应用 2012(05)
    • [26].基于CFN的相似度计算方法[J]. 太原大学学报 2011(01)
    • [27].程序相似度计算技术及其在教学中的应用[J]. 软件导刊(教育技术) 2010(04)
    • [28].协同过滤技术中相似度计算问题研究[J]. 福建电脑 2010(06)
    • [29].一种基于Tree-LSTM的句子相似度计算方法[J]. 北京大学学报(自然科学版) 2018(03)
    • [30].基于马尔科夫模型的汉语语句相似度计算[J]. 哈尔滨商业大学学报(自然科学版) 2017(01)

    标签:;  ;  ;  

    跨语言词汇语义相似度计算研究
    下载Doc文档

    猜你喜欢