基于统计学习的中文组块分析技术研究

基于统计学习的中文组块分析技术研究

论文摘要

随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分:第一,对于中文组块的定义和语料库建设方法进行研究,建立了三种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第三种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。第三,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的目的和意义
  • 1.2 组块分析技术的研究现状
  • 1.2.1 英文组块分析研究综述
  • 1.2.2 中文组块分析研究综述
  • 1.2.3 中文组块分析相关领域研究
  • 1.3 本文的研究内容
  • 1.3.1 研究内容概述
  • 1.3.2 本文主要创新点
  • 1.4 本文的内容安排
  • 第2章 组块定义和语料库构建方法
  • 2.1 引言
  • 2.2 组块定义和划分原则
  • 2.2.1 组块定义
  • 2.2.2 组块划分原则
  • 2.3 本文的组块分析语料库获取方法
  • 2.3.1 英文组块分析语料库的类型定义和获取方法
  • 2.3.2 自动抽取的中文组块分析语料库
  • 2.3.3 人工标注的中文组块分析语料库
  • 2.4 本章小结
  • 第3章 基于统计学习模型的组块分析算法
  • 3.1 引言
  • 3.2 问题描述和性能评价
  • 3.2.1 组块分析的问题描述
  • 3.2.2 组块分析的性能评价
  • 3.2.3 组块分析的训练测试集
  • 3.3 基于产生式模型的分析算法
  • 3.3.1 隐马尔科夫模型
  • 3.3.2 组块分析的统计规则算法
  • 3.3.3 实验结果和分析
  • 3.4 基于判别式模型的分析算法
  • 3.4.1 组块分析的最大熵模型算法
  • 3.4.2 基于改进的最大熵马尔科夫模型的组块分析算法
  • 3.4.3 实验结果和分析
  • 3.5 基于条件随机域模型的分析算法
  • 3.5.1 标记偏置问题
  • 3.5.2 模型构建方法
  • 3.5.3 特征选择和算法流程
  • 3.5.4 实验结果和分析
  • 3.6 N-fold模板纠正后处理算法
  • 3.6.1 基于转换的错误驱动方法原理
  • 3.6.2 错误驱动的N-fold模板纠正算法
  • 3.6.3 实验结果和分析
  • 3.7 本章小结
  • 第4章 组块分析算法的特征选取研究
  • 4.1 引言
  • 4.2 判别学习模型中的特征描述和抽取方法
  • 4.3 组块分析中的常用语言特征
  • 4.3.1 词对组块分析的影响分析
  • 4.3.2 词性对组块分析的影响分析
  • 4.3.3 词缀对组块分析的影响分析
  • 4.3.4 其他特征对组块分析的影响分析
  • 4.4 基于语义词典的语义类特征
  • 4.4.1 语义信息词典
  • 4.4.2 语义类特征抽取算法
  • 4.4.3 基于语义类特征的组块分析方法
  • 4.4.4 实验结果和分析
  • 4.5 语料库抽取的新词类特征
  • 4.5.1 基于条件信息熵的词类特征
  • 4.5.2 基于先验知识的词类特征
  • 4.5.3 实验结果和分析
  • 4.6 本章小结
  • 第5章 中文组块分析一体化模型方法
  • 5.1 引言
  • 5.2 基于双层条件随机域的一体化模型
  • 5.2.1 基于条件随机域模型的中文词性标注
  • 5.2.2 双层条件随机域模型
  • 5.2.3 实验结果和分析
  • 5.3 基于新词类特征的一体化模型
  • 5.3.1 特征抽取
  • 5.3.2 模型结构
  • 5.3.3 名实体识别和仿词识别
  • 5.3.4 可信度估计
  • 5.3.5 实验结果和分析
  • 5.4 基于组块的相似度计算
  • 5.4.1 词语相似度计算
  • 5.4.2 基于词语相似度的组块相似度计算方法
  • 5.4.3 实验结果和分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].组块教学在小学语文阅读教学中的应用[J]. 西部素质教育 2020(03)
    • [2].海上石油平台组块与钻机模块电力组网方案研究与设计[J]. 电工技术 2020(08)
    • [3].分配力法在固定式海洋平台组块吊装中的应用研究[J]. 石油和化工设备 2020(05)
    • [4].大型组块拆除方案研究[J]. 中国石油和化工标准与质量 2020(18)
    • [5].大型组块双船浮托拆除分析[J]. 中国石油和化工标准与质量 2020(19)
    • [6].渤海湾海洋平台大型组块浮托方向对比分析[J]. 石油工程建设 2020(05)
    • [7].浅析组块在口译记忆训练中的应用[J]. 英语广场 2018(08)
    • [8].组块式教学的形式与意蕴——听薛法根老师《雾凇》一课有感[J]. 语文知识 2017(02)
    • [9].组块破解形态顿悟的脑认知机理[J]. 科学通报 2017(31)
    • [10].张力腿平台上部组块总体布置研究[J]. 石油和化工设备 2016(07)
    • [11].在组块教学中提升小学生的语文阅读理解力的探究[J]. 新课程(小学) 2019(11)
    • [12].以《寒号鸟》为例谈组块学习[J]. 新课程导学 2020(04)
    • [13].浅谈小古文的教学策略——以《司马光》组块教学为例[J]. 教师 2020(10)
    • [14].组块教学:智慧教学的选择[J]. 试题与研究 2020(20)
    • [15].实施组块教学,全方位培养学生语文能力[J]. 语文天地 2020(24)
    • [16].组块教学的盛会——全国小学语文组块教学实验学校联盟第四届年会掠影[J]. 七彩语文(教师论坛) 2019(01)
    • [17].精于心 简于形 智于言——例谈组块教学设计[J]. 七彩语文(教师论坛) 2019(03)
    • [18].基于学生经验的初中体育组块教学实施策略的研究[J]. 新课程导学 2019(08)
    • [19].基于学生经验的初中体育组块教学评价的研究[J]. 体育风尚 2019(09)
    • [20].组块教学和统编版教材的关联探究[J]. 语文天地 2019(30)
    • [21].从课本图形中引出的问题探究[J]. 初中数学教与学 2017(08)
    • [22].组块策略:赋予儿童知识整合的力量[J]. 小学教学研究 2019(24)
    • [23].组块教学,还需要正确把握[J]. 小学教学参考 2015(13)
    • [24].浅议儿童识字过程中的组块记忆现象[J]. 内蒙古教育 2016(21)
    • [25].言语习得组块教学——以二年级上册“对话言语习得”为例[J]. 小学教学研究 2017(05)
    • [26].词语组块,让词语教学“1+1>2”[J]. 内蒙古教育 2017(08)
    • [27].智趣教育的引路人[J]. 名师在线 2017(02)
    • [28].和组块教学相伴一生[J]. 中国教师 2018(06)
    • [29].组块阅读,建构初中语文智慧课堂[J]. 语文世界(教师之窗) 2017(11)
    • [30].复习笔记的“组块”整理策略[J]. 教学月刊小学版(语文) 2018(10)

    标签:;  ;  ;  ;  ;  

    基于统计学习的中文组块分析技术研究
    下载Doc文档

    猜你喜欢