序列标注问题的监督学习方法及应用

序列标注问题的监督学习方法及应用

论文摘要

随着机器学习理论的发展,机器学习方法逐渐开始处理复杂的学习任务。在监督学习方面,不再局限于解决简单的分类问题,一些复杂问题逐渐进入研究者的视线。其中,序列标注问题因普遍存在于多个研究领域而长期倍受关注。本文主要探讨解决序列标注问题的监督学习方法及其在自然语言处理领域和生物信息学领域的若干应用。研究内容主要包括:第一,基于大间隔的序列标注方法的研究。统计语言模型通常用来解决序列标注问题,并在很多应用中取得了很好的效果。但都存在过拟合问题。基于大间隔的序列标注方法将大间隔的思想引入到序列标注方法中,在理论上保证泛化能力的同时,还能取得好的预测性能。本文正是考虑到基于大间隔的序列标注方法的这些优点,将其应用到英文组块识别、中文分词、生物文本命名实体识别和蛋白质二级结构预测等问题中,均取得了优于其他对比方法的预测性能。第二,置信度加权在线序列标注算法。在自然语言处理领域,序列标注问题具有特征稀疏的特性。为了充分描述这一特性,采用置信度加权分类算法的思想,引入特征权值参数的概率置信度概念,提出了一种新的线性决策式在线序列标注方法:置信度加权在线序列标注算法。在英文组块分析、中文分词、中文命名实体识别以及生物医学命名实体识别等问题上的实验结果表明:置信度加权序列标注算法与现有优秀的在线序列标注算法相比,在预测性能和收敛速度上存在优势;与现有优秀的离线序列标注算法:条件随机场相比,在存储空间和收敛速度上存在优势,且预测精度与之相当。第三,基于频度的在线自适应N-gram序列标注学习算法。N-gram是最基本的序列标注算法,因实现简单、高效而经常被应用系统所采用。在基于N-gram的应用系统中,不同的用户往往对应着不同的N-gram模型。对同一用户而言,Ngram模型也应该随着用户的使用而不断优化。针对这些问题,本文讨论了基于词频的N-gram在线自适应学习算法。这类算法根据用户的每次使用情况,在线自动调整相关频度参数,使N-gram模型达到局部最优。将其应用到音字转换问题中,取得了很好的效果。第四,基于重排序技术的Stacking集成序列标注学习算法。与单一学习算法相比,集成学习往往能通过组合多个单一模型提高预测性能。本文提出了一种基于重排序技术的Stacking集成学习算法,并将其扩展到序列标注问题。该算法采用stacking集成结构,利用重排序技术在训练语料上自动寻找多个单一模型的最优线性组合,分为三个步骤:一、训练多个基模型;二、对每一个训练样本按照样本标签或标签序列将多个基分类器的预测分值组合成新的排序样本;三、对步骤二生成的排序样本重新排序。从理论上讲,这一过程是求解基模型最优线性组合的过程。在分类问题上优于其他对比算法,在生物医学命名实体识别序列标注问题上也获得了优于所有单一模型的预测性能和其他对比算法。第五,多任务序列标注级联学习算法在Hedge识别及其作用范围界定问题中的应用。在实际应用中,存在一类序列标注问题,需要给样本观测序列在不同层次上进行标注,称为多任务序列标注问题,通常采用级联学习算法来解决这类问题。本文把Hedge识别及其作用范围界定问题当作多任务序列标注问题,设计了一个二层结构的级联学习算法用来解决这一问题。所谓Hedge是指表达不确定观点的词后词串,是一个热点研究课题。Hedge识别及其作用范围界定是国际公开评测CONLL-2010的评测内容,本文提供的级联学习算法在CoNLL-2010评测任务上表现出很好的性能。在Hedge识别任务中取得了一个单项第一的成绩;在Hedge作用范围界定任务中,取得了与其它系统相当的成绩。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 研究现状
  • 1.2.1 监督学习方法研究现状
  • 1.2.2 序列标注问题的监督学习方法研究现状
  • 1.3 本文研究的单任务序列标注问题及其研究现状
  • 1.3.1 组块分析及其研究现状
  • 1.3.2 中文分词及其研究现状
  • 1.3.3 中文命名实体识别及其研究现状
  • 1.3.4 生物医学命名实体识别及其研究现状
  • 1.3.5 蛋白质二级结构预测及其研究现状
  • 1.4 本文的研究内容及创新点
  • 1.4.1 研究内容概述
  • 1.4.2 主要创新点
  • 1.5 本文的内容安排
  • 第2章 基于大间隔的序列标注算法研究
  • 2.1 引言
  • 2.2 基于最大间隔马尔科夫网络的英文组块分析
  • 2.2.1 特征模板
  • 2.2.2 实验数据和设置
  • 2.2.3 实验结果和分析
  • 2.2.4 与其它相关工作的比较
  • 2.3 基于最大间隔马尔科夫网络的中文分词
  • 2.3.1 特征模板
  • 2.3.2 实验数据和设置
  • 2.3.3 实验结果和分析
  • 2.3.4 与其它相关工作的比较
  • 2.4 基于结构化支持向量机的生物医学命名实体识别
  • 2.4.1 生物医学命名实体识别
  • 2.4.2 实验数据
  • 2.4.3 特征
  • 2.4.4 实验结果和分析
  • 2.4.5 与其它相关工作的比较
  • 2.5 基于结构化支持向量机的蛋白质二级结构预测
  • 2.5.1 特征提取
  • 2.5.2 实验数据和设置
  • 2.5.3 实验结果和分析
  • 2.6 本章小结
  • 第3章 置信度加权在线序列标注算法
  • 3.1 引言
  • 3.2 线性决策式在线序列标注算法的形式化描述
  • 3.3 置信度加权在线序列标注算法
  • 3.4 实验结果和分析
  • 3.4.1 基于置信度加权序列标注算法的英文组块分析
  • 3.4.2 基于置信度加权序列标注算法的中文分词
  • 3.4.3 基于置信度加权序列标注算法的中文命名实体识别
  • 3.4.4 基于置信度加权序列标注算法的生物医学命名实体识别
  • 3.4.5 置信度相关参数的影响
  • 3.4.6 迭代次数对预测性能的影响
  • 3.5 本章小结
  • 第4章 基于频度的在线自适应N-gram序列标注学习算法
  • 4.1 引言
  • 4.2 基于词频的N-gram序列标注算法
  • 4.3 在线自适应N-gram序列标注学习算法
  • 4.3.1 自然学习
  • 4.3.2 强制学习
  • 4.3.3 类感知器学习
  • 4.4 一种改进的学习模式
  • 4.5 实验和分析
  • 4.5.1 基于词网格的N-gram音字转换
  • 4.5.2 实验结果和分析
  • 4.5.3 在线自适应拼音汉字输入系统
  • 4.6 本章小结
  • 第5章 基于重排序技术的Stacking集成序列标注学习算法
  • 5.1 引言
  • 5.2 基于重排序技术的Stacking集成学习算法
  • 5.2.1 Stacking集成学习
  • 5.2.2 基于重排序技术的Stacking集成学习算法
  • 5.2.3 实验数据和设置
  • 5.2.4 实验结果和分析
  • 小结
  • 5.3 基于重排序技术的Stacking集成序列标注学习算法
  • 5.3.1 实验数据和设置
  • 5.3.2 实验结果和分析
  • 5.3.3 小结
  • 5.4 本章小结
  • 第6章 基于多任务序列标注级联学习算法的Hedge及其作用范围识别
  • 6.1 引言
  • 6.2 Hedge及其作用范围表示形式
  • 6.3 Hedge及其作用范围识别级联系统
  • 6.3.1 Hedge识别子系统
  • 6.3.2 Hedge作用范围识别子系统
  • 6.4 实验结果和分析
  • 6.4.1 Hedge识别结果和分析
  • 6.4.2 Hedge作用范围识别结果和分析
  • 6.5 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的学术论文及其它成果
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].数据标注研究综述[J]. 软件学报 2020(02)
    • [2].群智标注系统中质量管理设计与实现[J]. 舰船电子工程 2020(05)
    • [3].社会化标注系统用户标注动机研究:基于扎根理论的视角[J]. 情报科学 2020(07)
    • [4].语言标注框架评述与对比分析[J]. 网络新媒体技术 2019(03)
    • [5].教育信息资源用户标注模型构建及仿真研究[J]. 现代远距离教育 2017(01)
    • [6].图像标注中的用户标注模式与心理研究[J]. 情报学报 2015(05)
    • [7].医疗语义众包标注平台设计和应用研究[J]. 医学信息学杂志 2020(07)
    • [8].基于众包标注提高教学效果的探索[J]. 科教导刊(上旬刊) 2020(08)
    • [9].自动图像标注技术综述[J]. 计算机研究与发展 2020(11)
    • [10].面向特定标注数据稀缺领域的命名实体识别[J]. 指挥信息系统与技术 2019(05)
    • [11].基于数据均衡的增进式深度自动图像标注[J]. 软件学报 2017(07)
    • [12].基于超网络的社会化标注行为[J]. 系统工程 2015(03)
    • [13].巧用标注手段,助力阅读理解[J]. 广东教育(高中版) 2019(10)
    • [14].网络环境下大众标注行为动机的调查与分析[J]. 图书情报工作 2013(23)
    • [15].来稿中作者署名的标注要求[J]. 西部医学 2010(02)
    • [16].本刊关于标注“通讯作者”的说明[J]. 中国中西医结合影像学杂志 2010(03)
    • [17].科技论文“一文多注(标注)”现象分析[J]. 科学学研究 2009(05)
    • [18].国外社会化标注系统中标注行为研究现状[J]. 情报杂志 2009(11)
    • [19].国外大众标注系统研究进展[J]. 图书馆杂志 2008(11)
    • [20].大众标注研究进展[J]. 图书情报工作 2008(01)
    • [21].汉英篇章结构平行语料库的对齐标注研究[J]. 中文信息学报 2013(06)
    • [22].社会标注系统质量对用户标注意愿的影响机理[J]. 图书馆论坛 2019(06)
    • [23].深度学习图像标注与用户标注比较研究[J]. 数据分析与知识发现 2018(05)
    • [24].用户社会化标注中非理性行为的表现及原因分析[J]. 数字图书馆论坛 2016(12)
    • [25].基于深度学习的自动图像标注研究与实现[J]. 中国高新技术企业 2017(03)
    • [26].汉语二语教学领域词义标注语料库的研究及构建[J]. 中文信息学报 2017(01)
    • [27].汉英篇章结构平行语料库的对齐标注评估[J]. 中文信息学报 2017(03)
    • [28].国内社会标注研究现状及发展趋势[J]. 晋图学刊 2015(06)
    • [29].浅议图书标注发展中的问题解析及对策[J]. 科技创业月刊 2016(17)
    • [30].我院67份滴眼液说明书标注项的调查与分析[J]. 中国药房 2015(13)

    标签:;  ;  ;  ;  ;  

    序列标注问题的监督学习方法及应用
    下载Doc文档

    猜你喜欢