基于词汇对齐的未登录词Web挖掘译文候选的重排序

基于词汇对齐的未登录词Web挖掘译文候选的重排序

论文摘要

随着互联网的高速发展,网络上的信息越来越丰富,一种有效的信息处理技术——Web文本挖掘技术得到了研究者广泛关注,同时这也为未登录词的快速准确自动的翻译提供了一种有效的途径。本文针对未登录词Web挖掘译文候选的后处理进行了研究,提出利用词汇对齐技术改善仅依靠频度或其他简单方法对候选译文的排序,使得正确的候选译文排序靠前。具体内容如下:1.本文首先介绍了Web文本挖掘以及未登录词Web信息检索技术的研究背景、研究意义、研究现状和相关基本理论知识。2.介绍了一种方法,该方法是通过搜索引擎的搜索获得返回的含双语摘录的网页,再从中进行译文挖掘。3.研究了双语词汇对齐问题,介绍了算法和综合多种特征以及语言学知识的混合策略的词汇对齐技术。4.利用词汇对齐技术对Web挖掘译文候选的重排序的方法论证及实验。最后作为实验,我们从web挖掘了不同行业的部分汉英词典未收录词组的候选译文作为测试语料,实验结果显示,这一方法具有较好的实际应用价值。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 概述
  • 1.1.1 研究背景
  • 1.1.2 课题研究意义
  • 1.2 主要研究内容
  • 1.3 论文组织结构
  • 第二章 基于网络搜索的汉语未登录词翻译方法
  • 2.1 研究背景与研究现状分析
  • 2.1.1 研究背景
  • 2.1.2 研究现状分析
  • 2.2 基于网络搜索的汉语未登录词翻译算法
  • 2.2.1 基于搜索引擎返回的双语摘录的OOV 挖掘算法
  • 2.2.2 特征的介绍及实验结果分析比较
  • 2.3 总结
  • 第三章 词汇对齐的算法及实验
  • 3.1 研究现状
  • 3.2 词汇对齐的概念、难点及方法
  • 3.3 基于词典的词汇对齐
  • 3.3.1 基于译文相似度的词汇对齐
  • 3.3.2 基于语义相似度的词汇对齐
  • 3.4 基于混合策略的英汉双语词汇对齐
  • 3.4.1 多重对齐的歧义消解
  • 3.4.2 利用语言学知识改善词汇对齐结果
  • 3.5 词汇对齐的算法分析
  • 3.6 实验及本章小结
  • 第四章 基于词汇对齐的未登录词 Web 挖掘译文候选的重排序
  • 4.1 未登录词 Web 挖掘译文候选的重排序的研究与应用背景
  • 4.2 重排序的基本原理
  • 4.3 利用词汇对齐技术进行未登录词挖掘译文候选的重排序
  • 4.3.1 重排序的基本流程
  • 4.3.2 重排序中词汇对齐算法的实现
  • 4.4 重排序实验介绍及实验结果比较
  • 4.5 总结
  • 第五章 总结
  • 5.1 总结
  • 5.2 进一步的工作
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].基于平行周遍原则的汉语未登录词的知识表示与预测[J]. 中文信息学报 2020(08)
    • [2].基于扩展规则与统计特征的未登录词识别[J]. 计算机应用研究 2019(09)
    • [3].基于知识图谱的未登录词语义研究[J]. 计算机科学 2017(01)
    • [4].条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术 2015(04)
    • [5].基于《现代汉语语义词典》的未登录词语义预测研究[J]. 北京大学学报(自然科学版) 2016(01)
    • [6].基于遗传算法的汉语未登录词识别[J]. 计算机应用与软件 2008(07)
    • [7].面向普通未登录词理解的二字词语义构词研究[J]. 中文信息学报 2015(05)
    • [8].汉语框架网中未登录词元的框架选择[J]. 中文信息学报 2014(03)
    • [9].基于知网的汉语普通未登录词语义分析模型[J]. 计算机应用与软件 2012(08)
    • [10].基于知识库的汉语未登录词语义预测[J]. 中文信息学报 2018(01)
    • [11].基于网络的中文未登录词译文挖掘方法研究[J]. 安徽广播电视大学学报 2016(01)
    • [12].基于分词提取重复串的未登录词遗漏量化模型[J]. 中文信息学报 2011(02)
    • [13].基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报 2009(03)
    • [14].中文文本未登录词识别的研究[J]. 电脑知识与技术 2019(20)
    • [15].基于聚类算法的“未登录”敏感信息标注技术研究[J]. 网络安全技术与应用 2016(03)
    • [16].基于隐马尔科夫模型的古汉语词性标注[J]. 微型电脑应用 2020(05)
    • [17].基于子字单元的神经机器翻译未登录词翻译分析[J]. 中文信息学报 2018(04)
    • [18].基于改进PMI和最小邻接熵结合策略的未登录词识别[J]. 计算机系统应用 2020(06)
    • [19].基于条件随机场的词结构分析方法[J]. 武汉大学学报(理学版) 2017(03)
    • [20].基于改进Encoder-Decoder模型的新闻摘要生成方法[J]. 计算机应用 2019(S2)
    • [21].基于层次分析法的中文分词算法改进[J]. 信息技术 2016(10)
    • [22].汉语自动分词技术研究[J]. 计算机与数字工程 2008(11)
    • [23].基于词表和N-gram算法的新词识别实验[J]. 中国索引 2008(01)
    • [24].基于微博短文本的大数据分析方法探索与研究[J]. 江苏通信 2018(01)
    • [25].基于领域文献的未登录词识别方法研究[J]. 情报杂志 2012(01)
    • [26].基于论坛语料识别中文未登录词的方法[J]. 计算机工程与设计 2010(03)
    • [27].一种基于合并策略的机构名称切分方法[J]. 计算机技术与发展 2008(05)
    • [28].现代汉语缩略语自动识别研究的现状与展望[J]. 渭南师范学院学报 2008(06)
    • [29].基于微博内容的新词发现方法[J]. 模式识别与人工智能 2014(02)
    • [30].基于混合策略的中文生物医学领域未登录词识别研究[J]. 现代图书情报技术 2013(01)

    标签:;  ;  ;  ;  

    基于词汇对齐的未登录词Web挖掘译文候选的重排序
    下载Doc文档

    猜你喜欢