汉英动词次范畴相关技术的研究

汉英动词次范畴相关技术的研究

论文摘要

动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开:1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础;2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 本文研究的背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状综述
  • 1.2.1 基本概念和术语
  • 1.2.2 次范畴化信息的定义
  • 1.2.3 英语动词次范畴化研究
  • 1.2.4 汉语动词次范畴化研究
  • 1.2.5 本文研究基础
  • 1.2.6 研究现状分析
  • 1.3 本文的主要研究内容
  • 1.3.1 拟解决的关键问题
  • 1.3.2 本文组织结构
  • 第2章 面向真实数据的格式噪音过滤
  • 2.1 引言
  • 2.2 文本的正则化
  • 2.2.1 格式噪音过滤
  • 2.2.2 噪音类型归纳
  • 2.3 基于统一模型的噪音过滤
  • 2.3.1 基于序列标注方式的统一模型
  • 2.3.2 统一模型和使用的特征
  • 2.4 实验
  • 2.4.1 含有格式噪音的真实文本数据
  • 2.4.2 基准对比方法
  • 2.4.3 实验结果
  • 2.4.4 结果分析
  • 2.4.5 名实体识别实验
  • 2.5 本章小结
  • 第3章 汉语分词与词性标注
  • 3.1 引言
  • 3.2 目前汉语词法分析现状
  • 3.3 无向图模型
  • 3.4 基于分类器融合和无向图模型的汉语词法分析
  • 3.4.1 基于分类器融合的汉语自动分词
  • 3.4.2 基于无向图的一体化汉语分词与词性标注
  • 3.4.3 分词与词性标注使用特征
  • 3.5 实验
  • 3.5.1 实验结果
  • 3.5.2 结果分析
  • 3.6 本章小结
  • 第4章 动词次范畴所需语言知识自动获取
  • 4.1 引言
  • 4.2 相关研究与难点分析
  • 4.2.1 SCF 自动获取相关研究
  • 4.2.2 基于论元的SCF 自动获取的难点
  • 4.3 面向SCF 自动获取的主动学习
  • 4.4 基于主动学习的语言学知识自动抽取
  • 4.4.1 问题分析与定义
  • 4.4.2 论元对应关系自动抽取
  • 4.5 实验
  • 4.5.1 含有句法分析错误的数据
  • 4.5.2 论元对应关系获取结果
  • 4.5.3 结果分析
  • 4.6 本章小结
  • 第5章 有指导的汉语动词次范畴自动分析
  • 5.1 引言
  • 5.2 动词次范畴自动获取技术
  • 5.3 有指导的汉语动词次范畴获取
  • 5.3.1 基于论元的汉语动词次范畴分析
  • 5.3.2 以机器学习的方式使用规则
  • 5.4 间隙加权子序列核函数
  • 5.4.1 支持向量机
  • 5.4.2 核函数
  • 5.4.3 间隙加权子序列核函数
  • 5.5 实验
  • 5.5.1 实验数据
  • 5.5.2 实验结果
  • 5.5.3 SCF 整句分析结果
  • 5.6 本章小结
  • 第6章 汉英动词次范畴论元等价对自动获取及应用
  • 6.1 引言
  • 6.2 汉英动词次范畴描写形式
  • 6.3 统计机器翻译研究简介
  • 6.3.1 SMT 发展过程
  • 6.3.2 基于短语的SMT 开源工具
  • 6.3.3 短语等价对概率构建方法
  • 6.4 汉英论元对应关系自动抽取
  • 6.4.1 自动抽取整体流程
  • 6.4.2 汉英论元对应关系主动获取算法
  • 6.4.3 基于汉英等价论元的短语对抽取
  • 6.5 实验
  • 6.5.1 汉英论元对应关系自动获取结果
  • 6.5.2 汉英论元对应关系在SMT 中的应用
  • 6.6 本章小结
  • 结论
  • 参考文献
  • 附录
  • 附录A 汉语词性标注集
  • 附录B 汉语树库短语标记集
  • 攻读学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].试论语义次范畴问题[J]. 语言学研究 2017(02)
    • [2].微分分次范畴的整体维数[J]. 嘉应学院学报 2015(02)
    • [3].k上G-分次范畴的局部化[J]. 福建师范大学学报(自然科学版) 2012(03)
    • [4].k上G-分次范畴的推出范畴[J]. 福建师范大学学报(自然科学版) 2018(06)
    • [5].名词次范畴研究[J]. 语文学刊 2015(12)
    • [6].k上G-分次范畴的平凡扩张[J]. 福建师范大学学报(自然科学版) 2008(02)
    • [7].信息结构中两个对比次范畴的辨析——兼论话题焦点的性质[J]. 学术交流 2009(01)
    • [8].新时期现代汉语动词次范畴研究综述[J]. 语文学刊 2009(01)
    • [9].现代汉语中“面子”的次范畴表达的区分性语用功能[J]. 吉林化工学院学报 2020(08)
    • [10].俄语“帮助”类动词的语义次范畴研究[J]. 国际公关 2019(09)
    • [11].中国特色化的面子次范畴概念的研究[J]. 黑龙江教育学院学报 2018(09)
    • [12].创客教育的创客空间建设(四)[J]. 中国科技教育 2018(08)
    • [13].万德勒的词类次范畴学说及其影响[J]. 浙江外国语学院学报 2015(03)
    • [14].中越核心价值观的认知对比[J]. 新西部(理论版) 2016(04)
    • [15].方式构式物宾类型及范畴研究[J]. 现代语文(语言研究版) 2015(07)
    • [16].主谓同素互动的“X的X”及次范畴化所造成的影响[J]. 语文研究 2010(04)
    • [17].基于体验观的“足”部动词范畴化和词汇化[J]. 现代语文(语言研究版) 2014(08)
    • [18].试论对比话题与对比焦点[J]. 黑龙江社会科学 2009(01)
    • [19].现代汉语减量范畴的构建[J]. 华夏文化论坛 2011(00)
    • [20].词语搭配识别中的动词次范畴问题[J]. 南京师范大学文学院学报 2011(03)
    • [21].原型裂变及次范畴化下的英汉多义词“Eye”和“眼”的对比分析[J]. 科教文汇(上旬刊) 2008(03)

    标签:;  ;  ;  ;  ;  

    汉英动词次范畴相关技术的研究
    下载Doc文档

    猜你喜欢