论文摘要
随着全球数字化、网络化的发展,蒙古文网络资源也越来越丰富。然而,蒙古文网络资源中存在编码不统一,无法实现共享等问题,不仅严重阻碍了蒙古文互联网的发展,更是对蒙古文搜索引擎技术带来了挑战。现有的蒙古文互联网搜索引擎还有许多缺陷,同时由于蒙古文网站数量不多,内容单一、更新速度缓慢,致使检索到的有用信息有限。因而蒙古族网络用户查找资源时往往选择其他搜索引擎来查找中文或英文的网站来获取信息。但在蒙古族网络用户构造检索提问式时,受到语言之间差异的影响,很难准确用外语表达自己的需求,从而增加了信息获取的难度。为适应蒙古文互联网发展现状,迫切需要建立一个蒙汉跨语言信息检索系统。蒙汉跨语言信息检索系统能够扩大信息搜索范围,快速获取网上信息,同时也能够很好地缓解民族地区群众上网语言障碍,对促进地区科教文化事业的发展将起到积极作用。在实现蒙汉跨语言信息检索时,可以采用基于机器翻译系统的方法、基于语料库的方法及基于字典的方法,而它们存在着共同缺陷,即在查询转换过程中,只是浅层地进行字符集的转换和匹配,未能达到语义层面上的翻译。为将蒙汉跨语言信息检索提升到语义层面上的翻译检索,亟待需要一个支持蒙汉跨语言信息检索的语义资源。本文的重点是构建面向跨语言信息检索的蒙汉语义词典框架,主要通过以下几个方面的工作来完成。(1)首先以跨语言信息检索为切入点,研究分析了跨语言信息检索的相关理论方法。(2)研究本体技术及其在跨语言信息检索中的应用,为构建面向跨语言信息检索的蒙汉语义词典提供理论基础。(3)采用多语言本体技术构建面向跨语言信息检索的蒙汉语义词典。该方案中充分考虑了语义词典的概念及概念之间关系的表达,并进一步对同义术语语义关系的表达,概念语义相似度的计算及其在跨语言信息检索中的应用进行了深入的剖析和研究。最后以计算机应用技术分支的概念作为领域对象入手,构建了一个实验性的计算机术语蒙汉语义词典。(4)设计并给出了一种基于概念的蒙汉语义词典的查询方法,将查询提升到概念层面,进行语义查询,返回与查询结果具有语义关联(同义、上位、下位等)的相关概念及对应蒙汉术语。本文的工作,不仅丰富了语义词典的构建方法,同时为蒙汉跨语言信息检索提供了基础资源,对蒙古文语言资源建设有促进作用。
论文目录
中文摘要ABSTRACT第1章 绪论1.1 研究背景1.1.1 问题的缘由1.1.2 课题的理论意义和应用价值1.2 国内外研究现状1.2.1 跨语言信息检索国内外研究现状1.2.2 语义词典国内外研究现状1.2.3 蒙古文资源建设和加工处理技术1.3 研究内容、目标及意义1.4 论文的组织结构第2章 跨语言信息检索理论与技术2.1 跨语言信息检索概念2.2 跨语言信息检索匹配策略2.2.1 同源匹配2.2.2 提问式翻译2.2.3 文献翻译2.2.4 中间语言技术2.3 跨语言信息检索相关翻译技术2.3.1 基于机器翻译系统的方法2.3.2 基于语料库的方法2.3.3 基于词典的方法2.3.4 混合方法2.4 本章小结第3章 本体技术3.1 本体(Ontology)3.1.1 本体的定义3.1.2 本体的形式化描述3.2 本体构建3.2.1 构建准则3.2.2 构建方法3.2.3 本体构建方法之间的比较3.3 本体的分类3.4 本体描述语言及构建工具3.4.1 本体描述语言3.4.2 本体构建工具3.5 多语言本体在跨语言信息检索中的应用3.6 本章小结第4章 面向跨语言信息检索的蒙汉语义词典的构建4.1 面向跨语言信息检索的蒙汉语义词典构建方法4.2 计算机术语蒙汉语义词典的需求分析4.3 计算机术语蒙汉语义词典的构建4.3.1 领域信息的收集和分析4.3.2 重点概念和关系的确定4.3.3 建立语义词典框架4.3.4 形式化编码4.3.5 面向检索应用进行评价与优化4.4 计算机术语蒙汉语义词典中同义术语的语义关系的表达4.5 概念语义相似度计算4.5.1 概念语义相似度的定义4.5.2 概念语义相似度的计算方法4.5.3 概念语义相似度计算实验与结果4.5.4 概念语义相似度在跨语言信息检索中的应用4.6 蒙汉语义词典构建的关键技术4.6.1 基于Protege的语义词典建立4.6.2 OWL描述的计算机术语蒙义词典编码分析4.7 本章小结第5章 蒙汉语义词典的查询5.1 语义词典的查询实现关键技术5.1.1 SPARQL查询语言5.1.2 语义网应用系统开发工具Jena5.2 蒙汉语义词典的查询系统的设计5.2.1 系统设计5.2.2 系统体系架构5.2.3 查询预处理5.2.4 查询匹配5.2.5 语义扩展及本体实例检索5.2.6 显示查询结果5.3 本章小结第6章 总结与展望6.1 总结6.2 下一步工作参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:跨语言信息检索论文; 蒙汉语义词典论文; 本体论文; 计算机术语论文;