论汉英平行语料的平行处理

论汉英平行语料的平行处理

论文摘要

平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。 为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。 本项研究主要取得了以下几方面成果: 第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及类别等等,而且还通过实验详细论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。 第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词+名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。 第三,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。 第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词+名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。 综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的许多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 平行语料库及相关研究综述
  • 1.1.1 语料库研究及发展概况
  • 1.1.2 平行语料库的建设
  • 1.1.3 平行语料库的利用
  • 1.2 本文的研究意义及价值
  • 1.2.1 建设高质量的汉英平行树库的必要准备
  • 1.2.2 解决单语处理中的难点问题
  • 1.2.3 建立高质量的金本位资源
  • 1.3 本文的研究内容及方法
  • 1.3.1 平行处理的含义
  • 1.3.2 研究资源介绍
  • 1.3.3 各层面的平行处理研究及实验方法
  • 第2章 词汇分析的平行处理
  • 2.1 词汇分析研究的现状及难点
  • 2.1.1 汉语词汇分析研究概况
  • 2.1.2 交集型歧义切分的难点
  • 2.1.3 组合型歧义切分的难点
  • 2.1.4 未登录词识别的难点
  • 2.2 平行处理实验的设计
  • 2.2.1 平行语料的词汇考察
  • 2.2.2 分词歧义的平行处理分析
  • 2.2.3 英语人名的汉译名识别实验设计
  • 2.3 平行处理实验结果的分析
  • 2.3.1 英语人名的汉译名识别实验报告
  • 2.3.2 词汇分析有待研究的问题
  • 第3章 词性标注的平行处理
  • 3.1 词性标注研究的现状及难点
  • 3.1.1 汉英词性标注研究概况
  • 3.1.2 汉语兼类词标注的难点
  • 3.1.3 英语兼类词标注的难点
  • 3.2 平行处理实验的设计
  • 3.2.1 平行语料的兼类词考察
  • 3.2.2 汉语兼类词的平行处理实验设计
  • 3.2.3 英语兼类词的平行处理实验设计
  • 3.3 平行处理实验结果的分析
  • 3.3.1 汉语兼类词的平行处理实验报告
  • 3.3.2 英语兼类词的平行处理实验报告
  • 3.3.3 兼类词平行处理有待研究的问题
  • 第4章 词义标注的平行处理
  • 4.1 词义标注研究的现状及难点
  • 4.1.1 汉英词义标注研究概况
  • 4.1.2 汉语多义词标注的难点
  • 4.1.3 英语多义词标注的难点
  • 4.2 平行处理实验的设计
  • 4.2.1 平行语料的多义词考察
  • 4.2.2 汉语多义词的平行处理实验设计
  • 4.2.3 英语多义词的平行处理实验设计
  • 4.3 平行处理实验结果的分析
  • 4.3.1 汉语多义词的平行处理实验报告
  • 4.3.2 英语多义词的平行处理实验报告
  • 4.3.3 多义词平行处理有待研究的问题
  • 第5章 句法结构的平行处理
  • 5.1 句法结构研究的现状及难点
  • 5.1.1 汉英句法结构研究概况
  • 5.1.2 汉语句法标注的难点
  • 5.1.3 英语句法标注的难点
  • 5.2 平行处理实验的设计
  • 5.2.1 汉英短语结构平行处理分析
  • 5.2.2 汉语“动+名”序列考察
  • 5.2.3 汉语“动+名”序列平行处理实验设计
  • 5.3 平行处理实验结果的分析
  • 5.3.1 汉语“动+名”序列平行处理实验报告
  • 5.3.2 汉语句法标注有待研究的问题
  • 5.3.3 英语句法标注有待研究的问题
  • 结语
  • 主要参考文献
  • 附录
  • 附录一 术语表
  • 附录二 图表目录
  • 附录三 PCCE1000统计数据总表
  • 攻读博士学位期间的主要科研项目和成果
  • 后记
  • 相关论文文献

    • [1].基于网络表示学习的作者重名消歧研究[J]. 数据分析与知识发现 2020(Z1)
    • [2].基于多特征融合的同名专家消歧方法研究[J]. 北京大学学报(自然科学版) 2020(04)
    • [3].基于元路径异构网络嵌入的姓名实体消歧方法[J]. 河北科技大学学报 2020(03)
    • [4].融合实体知识描述的实体联合消歧方法[J]. 中文信息学报 2020(07)
    • [5].面向学术文献的作者名消歧方法研究综述[J]. 数据分析与知识发现 2020(08)
    • [6].科学合作网络姓名消歧问题研究[J]. 甘肃科技 2020(16)
    • [7].基于稀疏分布式表征的英文著者姓名消歧研究[J]. 计算机应用研究 2019(12)
    • [8].基于上下文特征的领域文献实体消歧算法[J]. 北京生物医学工程 2018(04)
    • [9].一种易用的实体识别消歧系统评测框架(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2017(02)
    • [10].地名知识辅助的中文地名消歧方法[J]. 地理与地理信息科学 2016(04)
    • [11].消歧审议瑞士行[J]. 中国妇运 2015(02)
    • [12].文献数据库中作者名自动化消歧方法应用研究[J]. 情报杂志 2013(09)
    • [13].自然语言处理中的语义消歧研究[J]. 淮南师范学院学报 2013(05)
    • [14].基于层次聚类的中文人名消歧方法研究[J]. 心智与计算 2010(04)
    • [15].一种论文作者重名消歧方法[J]. 软件导刊 2020(03)
    • [16].基于专家研讨思想的发明人姓名消歧研究[J]. 情报科学 2019(04)
    • [17].基于规则的维吾尔人名智能消歧研究[J]. 数字技术与应用 2017(12)
    • [18].基于双词主题模型的半监督实体消歧方法研究[J]. 电子学报 2018(03)
    • [19].我国专利数据中发明家姓名消歧算法研究[J]. 情报学报 2016(04)
    • [20].姓名消歧方法研究进展[J]. 情报工程 2016(01)
    • [21].一种基于特征映射的中文专家消歧方法[J]. 中文信息学报 2016(02)
    • [22].信息抽取和实体消歧[J]. 福建电脑 2014(11)
    • [23].基于向量空间模型的古汉语词义自动消歧研究[J]. 图书情报工作 2013(02)
    • [24].基于序列标注的全词消歧方法[J]. 中文信息学报 2012(02)
    • [25].机器翻译的一些消歧方法研究[J]. 西南民族大学学报(自然科学版) 2008(04)
    • [26].基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展 2020(01)
    • [27].基于实体关联的消歧算法研究[J]. 中国电子科学研究院学报 2020(03)
    • [28].聚类集成技术在中文人名消歧中的应用研究[J]. 信息系统工程 2020(04)
    • [29].基于特征加权重叠度的中文实体协同消歧方法[J]. 中文信息学报 2017(02)
    • [30].面向实体链接的多特征图模型实体消歧方法[J]. 计算机应用研究 2017(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    论汉英平行语料的平行处理
    下载Doc文档

    猜你喜欢