基于可比较语料库双语多词表达式对抽取

基于可比较语料库双语多词表达式对抽取

论文摘要

多词表达式对抽取和对齐是自然语言处理学科中的一个重要课题。多词表达式对作为基础资源,广泛地应用于机器翻译、信息抽取以及信息检索等领域。本文挖掘的对象是可比较语料库,与通过人工翻译或者法规文件等而来的平行语料库相比,可比较语料库具有获取代价更低,资料来源更广泛等特点。通过对网络上的资源进行挖掘,构建成大规模、高质量的可比较语料库。但是可比较语料库源文档和目标文档之间的可挖掘信息和可利用资源更少,难度更大。因此,从可比较语料库中进一步挖掘出词级别的信息具有重要的研究意义和应用价值。本文叙述了可比较语料库的相关背景知识,以及可比较语料的特点,多词表达式的定义;接下来介绍了本文可比较语料库的来源,构建方法,文档预处理的方法,通过聚类算法提高同主题文档的数目。介绍抽取中英多词表达式的一些基本方法,然后提出本文中抽取中英多词表达式的方法,并用实验证明抽取的多词表达式是有效的。结合参考文献中中英词条对齐算法提出了本文的中英多词表达式对齐算法,最后本文提出一种修正算法对中文多词表达式候选翻译结果进行重排序。基于以上,构建一个从可比较语料库中自动化抽取多词表达式对的原型系统。在此系统上进行了三方面的实验(1)聚类实验;(2)中英多词表达式抽取实验;(3)中英多词表达式对齐实验。本文通过将聚类得到30对可比较的中英文文档。一共抽取出中文多词表达式对685条,英文多词表达式769条。其中对齐后Top-5,Top-10和Top-30分别达到了24.1%,37.9%,56.6%。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究意义和研究现状
  • 1.2.1 语料库
  • 1.2.2 平行语料库
  • 1.2.3 可比较语料库
  • 1.2.4 多词表达式
  • 1.3 研究内容与主要贡献
  • 1.4 本章小结
  • 1.5 本文的组织结构
  • 2 可比较语料库构建和聚类概述
  • 2.1 可比较语料库构建
  • 2.1.1 可比较语料库相关介绍
  • 2.1.2 采用可比较语料库的构建方法
  • 2.1.3 构建的可比较语料库的特点
  • 2.3 文档聚类
  • 2.3.1 聚类的定义
  • 2.3.2 文档聚类的原因
  • 2.3.3 文档聚类原理
  • 2.3.4 聚类的基本过程
  • 2.3.5 文档聚类具体流程
  • 2.3.6 文档聚类的结果
  • 2.4 语多词表达对抽取的总体结构
  • 2.5 本章小结
  • 3 中英多词表达式抽取
  • 3.1 中文多词表达式抽取
  • 3.1.1 中文词条抽取的相关工作
  • 3.1.2 中文多词表达式抽取的相关工作
  • 3.1.3 中文多词表达式抽取的方法
  • 3.2 英文多词表达式抽取
  • 3.2.1 英文多词表达式抽取的相关工作
  • 3.2.2 英文多词表达式抽取的方法
  • 3.3 实验设计
  • 3.3.1 实验数据
  • 3.3.2 评价标准
  • 3.3.3 实验结果
  • 3.3.4 结果分析
  • 3.4 本章小结
  • 4 中英多词表达式对齐
  • 4.1 中英多词表达式对齐的相关工作
  • 4.2 本文的方法
  • 4.2.1 本文多词表达式对齐的系统框架
  • 4.2.2 模块描述
  • 4.2.3 候选翻译多词表达式修正
  • 4.3 本章小结
  • 5 实验评估及分析
  • 5.1 实验数据
  • 5.2
  • 5.2.1 测试样本
  • 5.2.2 评价的标准
  • 5.2.3 结果对比
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].突发公共卫生事件网络语料库系统构建[J]. 情报学报 2013(09)
    • [2].华裔美国作家哈金作品《落地》建构的中国形象——基于语料库的考察[J]. 乐山师范学院学报 2019(11)
    • [3].近十年国际语料库翻译研究文献计量分析(2008-2018)[J]. 外语与外语教学 2019(06)
    • [4].科技大数据背景下的中英双语语料库的构建及其特点研究[J]. 中国科技资源导刊 2019(06)
    • [5].浅析信息技术背景下口译语料库的研究现状及进展[J]. 教育现代化 2019(99)
    • [6].语料库在俄语教学中的应用探究[J]. 科技风 2020(08)
    • [7].文学作品的语料库检索分析——以小说《呼啸山庄》为例[J]. 现代交际 2020(04)
    • [8].音乐口述史语料库分析方法的理论原理与操作步骤[J]. 中国音乐 2020(01)
    • [9].基于语料库“刚刚”“刚才”的维译对比研究[J]. 汉字文化 2019(23)
    • [10].语料库技术辅助汉译英教学模式探索[J]. 科技视界 2020(03)
    • [11].基于语料库的对话口译模糊限制语性别研究[J]. 甘肃广播电视大学学报 2020(01)
    • [12].《基于语料库的语法研究》评介[J]. 南昌师范学院学报 2019(05)
    • [13].国内基于语料库的翻译研究二十年综述(1999—2018)[J]. 成都理工大学学报(社会科学版) 2020(01)
    • [14].语料库翻译学:在名与实之间[J]. 外语学刊 2020(01)
    • [15].《诗经》汉英平行历时语料库研制与应用[J]. 沈阳大学学报(社会科学版) 2020(02)
    • [16].言者顺应:基于语料库驱动视角[J]. 广东石油化工学院学报 2020(02)
    • [17].基于语料库的习近平国际峰会主旨演讲高频词研究[J]. 法制与社会 2020(11)
    • [18].浅谈中日农业术语对译语料库的建设[J]. 农家参谋 2020(16)
    • [19].基于历时语料库的“先生”称谓语用嬗变研究[J]. 教育教学论坛 2020(18)
    • [20].基于历时语料库的“度”字义项演变探微[J]. 汉字文化 2020(09)
    • [21].俄汉可比语料库翻译等价物抽取的方法设计及应用展望[J]. 欧亚人文研究 2019(01)
    • [22].国内基于语料库的翻译显化和隐化研究综述[J]. 牡丹江大学学报 2020(06)
    • [23].国内语料库翻译研究现状及未来走向探讨[J]. 英语广场 2020(16)
    • [24].基于语料库汉语人体部位词“脸”的认知研究[J]. 汉字文化 2020(10)
    • [25].基于历时语料库的在线词典编纂系统设计[J]. 中文信息学报 2020(05)
    • [26].基于语料库及其技术的思政课优质教学资源建设与共享研究[J]. 思想政治课研究 2020(03)
    • [27].海外社交平台的广州城市形象呈现——基于推特十年涉穗话语语料库分析[J]. 国际传播 2020(03)
    • [28].语料库翻译学视阈下的意识形态显化——《语料库批评翻译学概论》述评[J]. 山东外语教学 2020(04)
    • [29].自建语料库在商务英语翻译教学中的应用[J]. 宁波广播电视大学学报 2020(03)
    • [30].基于语料库的多维翻译文体评估——以《骆驼祥子》的葛浩文译本为例[J]. 海外英语 2020(16)

    标签:;  ;  ;  ;  ;  

    基于可比较语料库双语多词表达式对抽取
    下载Doc文档

    猜你喜欢