面向跨语言信息检索的蒙汉语义词典构建

面向跨语言信息检索的蒙汉语义词典构建

论文摘要

随着全球数字化、网络化的发展,蒙古文网络资源也越来越丰富。然而,蒙古文网络资源中存在编码不统一,无法实现共享等问题,不仅严重阻碍了蒙古文互联网的发展,更是对蒙古文搜索引擎技术带来了挑战。现有的蒙古文互联网搜索引擎还有许多缺陷,同时由于蒙古文网站数量不多,内容单一、更新速度缓慢,致使检索到的有用信息有限。因而蒙古族网络用户查找资源时往往选择其他搜索引擎来查找中文或英文的网站来获取信息。但在蒙古族网络用户构造检索提问式时,受到语言之间差异的影响,很难准确用外语表达自己的需求,从而增加了信息获取的难度。为适应蒙古文互联网发展现状,迫切需要建立一个蒙汉跨语言信息检索系统。蒙汉跨语言信息检索系统能够扩大信息搜索范围,快速获取网上信息,同时也能够很好地缓解民族地区群众上网语言障碍,对促进地区科教文化事业的发展将起到积极作用。在实现蒙汉跨语言信息检索时,可以采用基于机器翻译系统的方法、基于语料库的方法及基于字典的方法,而它们存在着共同缺陷,即在查询转换过程中,只是浅层地进行字符集的转换和匹配,未能达到语义层面上的翻译。为将蒙汉跨语言信息检索提升到语义层面上的翻译检索,亟待需要一个支持蒙汉跨语言信息检索的语义资源。本文的重点是构建面向跨语言信息检索的蒙汉语义词典框架,主要通过以下几个方面的工作来完成。(1)首先以跨语言信息检索为切入点,研究分析了跨语言信息检索的相关理论方法。(2)研究本体技术及其在跨语言信息检索中的应用,为构建面向跨语言信息检索的蒙汉语义词典提供理论基础。(3)采用多语言本体技术构建面向跨语言信息检索的蒙汉语义词典。该方案中充分考虑了语义词典的概念及概念之间关系的表达,并进一步对同义术语语义关系的表达,概念语义相似度的计算及其在跨语言信息检索中的应用进行了深入的剖析和研究。最后以计算机应用技术分支的概念作为领域对象入手,构建了一个实验性的计算机术语蒙汉语义词典。(4)设计并给出了一种基于概念的蒙汉语义词典的查询方法,将查询提升到概念层面,进行语义查询,返回与查询结果具有语义关联(同义、上位、下位等)的相关概念及对应蒙汉术语。本文的工作,不仅丰富了语义词典的构建方法,同时为蒙汉跨语言信息检索提供了基础资源,对蒙古文语言资源建设有促进作用。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.1.1 问题的缘由
  • 1.1.2 课题的理论意义和应用价值
  • 1.2 国内外研究现状
  • 1.2.1 跨语言信息检索国内外研究现状
  • 1.2.2 语义词典国内外研究现状
  • 1.2.3 蒙古文资源建设和加工处理技术
  • 1.3 研究内容、目标及意义
  • 1.4 论文的组织结构
  • 第2章 跨语言信息检索理论与技术
  • 2.1 跨语言信息检索概念
  • 2.2 跨语言信息检索匹配策略
  • 2.2.1 同源匹配
  • 2.2.2 提问式翻译
  • 2.2.3 文献翻译
  • 2.2.4 中间语言技术
  • 2.3 跨语言信息检索相关翻译技术
  • 2.3.1 基于机器翻译系统的方法
  • 2.3.2 基于语料库的方法
  • 2.3.3 基于词典的方法
  • 2.3.4 混合方法
  • 2.4 本章小结
  • 第3章 本体技术
  • 3.1 本体(Ontology)
  • 3.1.1 本体的定义
  • 3.1.2 本体的形式化描述
  • 3.2 本体构建
  • 3.2.1 构建准则
  • 3.2.2 构建方法
  • 3.2.3 本体构建方法之间的比较
  • 3.3 本体的分类
  • 3.4 本体描述语言及构建工具
  • 3.4.1 本体描述语言
  • 3.4.2 本体构建工具
  • 3.5 多语言本体在跨语言信息检索中的应用
  • 3.6 本章小结
  • 第4章 面向跨语言信息检索的蒙汉语义词典的构建
  • 4.1 面向跨语言信息检索的蒙汉语义词典构建方法
  • 4.2 计算机术语蒙汉语义词典的需求分析
  • 4.3 计算机术语蒙汉语义词典的构建
  • 4.3.1 领域信息的收集和分析
  • 4.3.2 重点概念和关系的确定
  • 4.3.3 建立语义词典框架
  • 4.3.4 形式化编码
  • 4.3.5 面向检索应用进行评价与优化
  • 4.4 计算机术语蒙汉语义词典中同义术语的语义关系的表达
  • 4.5 概念语义相似度计算
  • 4.5.1 概念语义相似度的定义
  • 4.5.2 概念语义相似度的计算方法
  • 4.5.3 概念语义相似度计算实验与结果
  • 4.5.4 概念语义相似度在跨语言信息检索中的应用
  • 4.6 蒙汉语义词典构建的关键技术
  • 4.6.1 基于Protege的语义词典建立
  • 4.6.2 OWL描述的计算机术语蒙义词典编码分析
  • 4.7 本章小结
  • 第5章 蒙汉语义词典的查询
  • 5.1 语义词典的查询实现关键技术
  • 5.1.1 SPARQL查询语言
  • 5.1.2 语义网应用系统开发工具Jena
  • 5.2 蒙汉语义词典的查询系统的设计
  • 5.2.1 系统设计
  • 5.2.2 系统体系架构
  • 5.2.3 查询预处理
  • 5.2.4 查询匹配
  • 5.2.5 语义扩展及本体实例检索
  • 5.2.6 显示查询结果
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 下一步工作
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向跨语言信息检索的蒙汉语义词典构建
    下载Doc文档

    猜你喜欢