基于词汇化统计模型的汉语句法分析研究

基于词汇化统计模型的汉语句法分析研究

论文摘要

句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、信息获取、自动文摘等都要依赖句法分析的精确结果才能最终获得满意的解决。另一方面,语言是思维的载体,对自然语言句法分析的研究有助于研究人类思维的本质,因此对自然语言句法分析的研究具有重要的理论和实用价值及深刻的哲学意义。总体上来看,由于起步较晚、树库资源缺乏等原因,汉语句法分析技术不如英语句法分析技术发展的迅速。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求,所以对汉语句法分析的研究既意义重大又任重道远。目前的主流技术还是基于统计的方法,本文主要研究统计框架下汉语句法分析问题。本文工作分四个部分进行,具体内容如下:1、对句子进行词性标注是句法分析的一个重要环节。本文提出一种基于二元同现的汉语词性标注模型。在隐马尔可夫模型的基础上,引入二元词汇信息来加强词性标注模型的歧义消解能力。该方法具有简单、快速、有效的特点。2、统计句法分析的基本理论是构建基于统计句法分析模型的基础,已有的典型句法分析模型是汉语句法分析建模的经验来源和参照目标。本文率先在宾州中文树库5.0上应用中心驱动模型进行汉语句法分析实验,取得了比较成功的效果,验证了应用词汇化统计模型进行汉语句法分析的可行性。3、提出了一个两级中文句法分析方法。根据我们定义的30种短语类型,提出了一个分治策略:即把所有的短语分为基本短语和复杂短语,针对两种短语的语言特点,采用不同的模型来识别它们。首先,把基本短语识别转化为最佳边界标记序列的搜索问题,提出一个基于马尔可夫模型的基本短语识别方法。在此基础上,识别汉语复杂短语。实验结果表明,两级中文句法分析方法一方面可以显著提高句法分析系统的精确率和召回率,另一方面还有效降低了句法分析的复杂度,使系统处理文本的速度得到了提高。4、提出了一种基于语义类的汉语句法分析方法。该方法以中心驱动模型为基础,把自动获取的语义类融入到句法分析模型中,为消解句法歧义提供语义类信息。利用一部语义词典,应用最小描述长度原理,自动地为句法分析模型确定一个粒度在词性与词汇之间的语义类。实验结果表明:与词汇信

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景和意义
  • 1.2 英语句法分析研究综述
  • 1.2.1 基于规则的方法
  • 1.2.2 基于统计的方法
  • 1.3 汉语句法分析研究现状
  • 1.3.1 自动分词
  • 1.3.2 词性标注
  • 1.3.3 浅层分析
  • 1.3.4 深层分析
  • 1.3.5 汉语语料库的建设
  • 1.4 本文的主要研究内容
  • 第2章 基于二元同现的汉语词性自动标注模型
  • 2.1 引言
  • 2.2 汉语自动词性标注及其困难
  • 2.2.1 词性的定义
  • 2.2.2 词性标注
  • 2.2.3 词性歧义
  • 2.2.4 汉语词性标注特有的困难
  • 2.3 现有主要词性标注方法的研究与分析
  • 2.3.1 基于隐马尔可夫模型的词性标注方法
  • 2.3.2 基于最大熵的词性标注方法
  • 2.3.3 基于支持向量机的词性标注方法
  • 2.4 基于二元同现的标注模型
  • 2.4.1 基于二元同现的词性标注模型
  • 2.4.2 同隐马尔可夫模型的对比
  • 2.4.3 参数估计与数据平滑
  • 2.4.4 标注方法的性能评价及实验分析
  • 2.4.5 词性标注集与词性标注正确率的关系
  • 2.5 本章小结
  • 第3章 基于中心驱动模型的汉语句法分析
  • 3.1 引言
  • 3.2 文法
  • 3.2.1 文法的形式化定义
  • 3.2.2 乔姆斯基文法体系
  • 3.2.3 句法模式识别与自然语言句法分析
  • 3.3 统计句法分析模型
  • 3.3.1 统计句法分析模型的基本概念
  • 3.3.2 概率上下文无关文法
  • 3.3.3 词汇化句法分析模型
  • 3.4 基于中心驱动模型的汉语句法分析
  • 3.4.1 宾州中文树库
  • 3.4.2 模型实现时的若干细节
  • 3.4.3 句法分析模型的评价方法
  • 3.4.4 实验结果与分析
  • 3.5 同相关工作的对比
  • 3.6 本章小结
  • 第4章 两级汉语句法分析方法
  • 4.1 引言
  • 4.2 词汇化模型句法分析算法复杂性分析
  • 4.2.1 上下文无关语言的分析算法
  • 4.2.2 CYK算法
  • 4.3 基于分治策略的句法分析方法
  • 4.3.1 并行分治策略的句法分析
  • 4.3.2 串行分治策略的句法分析
  • 4.4 两级汉语句法分析方法
  • 4.4.1 哈工大汉语树库
  • 4.4.2 基本短语
  • 4.5 基于词汇化模型的汉语基本短语识别
  • 4.5.1 汉语基本短语在形式上的特点
  • 4.5.2 非递归短语的识别方法
  • 4.5.3 汉语基本短语的两种识别方法
  • 4.5.4 基于词汇化模型的汉语基本短语识别
  • 4.6 基于中心驱动模型的复杂短语识别
  • 4.7 实验与讨论
  • 4.7.1 实验设置
  • 4.7.2 训练与解码
  • 4.7.3 结果与分析
  • 4.7.4 讨论
  • 4.8 本章小结
  • 第5章 面向小样本的句法分析技术
  • 5.1 引言
  • 5.2 面向小样本的句法分析技术
  • 5.2.1 基于自学习的方法
  • 5.2.2 基于共训练的方法
  • 5.3 基于语义类的汉语句法分析
  • 5.3.1 模型
  • 5.3.2 语义类标注集的确定
  • 5.3.3 基于最小描述长度原则的剪枝
  • 5.3.4 无指导的语义类标注
  • 5.3.5 实验与分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 附录
  • 攻读博士学位期间发表的论文
  • 哈尔滨工业大学博士学位论文原创性声明
  • 哈尔滨工业大学博士学位论文使用授权书
  • 哈尔滨工业大学博士学位涉密论文管理
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].汉语句法实现中的生命度效应及其产生原因[J]. 云南师范大学学报(对外汉语教学与研究版) 2016(06)
    • [2].从歧义分化看汉语句法分析方法的拓展演变[J]. 青年文学家 2013(32)
    • [3].汉语句法中的同义现象[J]. 黑河学院学报 2020(08)
    • [4].《跨语言视角下的汉语句法学》介评[J]. 外语教学与研究 2017(02)
    • [5].向心结构理论难题与其诠释汉语句法的局限性[J]. 语文学刊 2014(02)
    • [6].汉语句法中折射的文化因素与对外汉语教学[J]. 中国科教创新导刊 2013(20)
    • [7].汉语话题结构与句法的灵活性[J]. 外语艺术教育研究 2009(01)
    • [8].汉语句法省略国际学术研讨会征稿启事[J]. 汉语学报 2018(01)
    • [9].汉语句法象似性与对外汉语语法教学[J]. 赤峰学院学报(汉文哲学社会科学版) 2013(07)
    • [10].汉语句法省略问题国际学术研讨会征稿启事[J]. 汉语学习 2018(02)
    • [11].汉语句法省略国际学术研讨会征稿启事[J]. 古汉语研究 2018(02)
    • [12].从汉语句法结构角度分析母语迁移现象对外语学习的影响[J]. 天津中德职业技术学院学报 2015(01)
    • [13].汉语句法省略国际学术研讨会征稿启事[J]. 语言研究 2018(02)
    • [14].从《汉语句法引论》得到的启发[J]. 现代语文(学术综合版) 2012(08)
    • [15].从歧义分化看汉语句法分析方法的拓展演变[J]. 湘潮(下半月) 2010(11)
    • [16].英汉语句法对比综述[J]. 校园英语 2019(14)
    • [17].《汉语句法的类型转变》述评[J]. 当代语言学 2010(03)
    • [18].语言理解中汉语句法启动的“词汇增益”研究——来自眼动的证据[J]. 外语学刊 2020(04)
    • [19].汉语句法启动研究综述[J]. 青年文学家 2018(29)
    • [20].汉语句法省略国际学术研讨会征稿启事[J]. 世界汉语教学 2018(02)
    • [21].“汉语句法省略问题”国际学术研讨会征稿启事[J]. 语文研究 2018(02)
    • [22].格语法与汉语句法研究[J]. 赤峰学院学报(汉文哲学社会科学版) 2009(01)
    • [23].《改革开放以来英语对汉语句法的影响》商榷三题[J]. 通化师范学院学报 2020(03)
    • [24].移位理论对汉语句法结构的解释[J]. 南华大学学报(社会科学版) 2010(04)
    • [25].论现代汉语句法的欧化[J]. 现代语文(语言研究版) 2016(06)
    • [26].论欧化的汉语句法[J]. 语文学刊 2010(24)
    • [27].从“叫”的个案讨论汉语句法格局的形成方式[J]. 语文研究 2017(01)
    • [28].从虚词看古汉语句法的空间蕴涵性特质——与英语对比的视角[J]. 重庆三峡学院学报 2020(02)
    • [29].汉语句法研究新图景——评Waltraud Paul教授的《汉语句法新视角》[J]. 北京第二外国语学院学报 2018(01)
    • [30].《汉语句法的认知结构研究》(修订版)[J]. 读书 2016(08)

    标签:;  ;  ;  

    基于词汇化统计模型的汉语句法分析研究
    下载Doc文档

    猜你喜欢