SVM与基于转换的错误驱动学习方法相结合的生物实体识别

SVM与基于转换的错误驱动学习方法相结合的生物实体识别

论文摘要

本文将基于统计的机器学习方法和基于规则的方法有效的结合起来并应用于生物实体识别领域,运用SVM这一统计学习理论的典型代表作为机器学习方法的具体实现,并运用基于转换的错误驱动学习方法对SVM测试得到的结果修正,提高了生物实体识别的准确率和召回率。本文方法首先通过抽取较为丰富的特征集合如单词特征、上下文特征、词性特征、词形特征、核心词特征和停用词特征等,使用JNLPBA发布的训练语料对SVM分类器进行训练,然后使用训练后的SVM模型对JNLPBA公布的测试语料进行生物实体识别。通过对训练语料和测试语料的统计与分析,研究了基于统计的机器学习方法应用于生物实体识别领域所存在的一些问题,如学习器的泛化能力,特征选择问题,外部资源引入问题和数据不均匀现象等等。为进一步提高识别的效果,本文实验利用基于转换的错误驱动学习方法对SVM的标注结果进行校正,转换规则较好地挖掘出生物学文本中的语言现象,进一步提高SVM方法得到的准确率和召回率。通过与其他研究者的比较,本文所采用的方法取得了与很多成熟应用相当的结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文的选题背景和研究意义
  • 1.1.1 信息抽取概述
  • 1.1.2 命名实体识别
  • 1.1.3 生物实体识别
  • 1.2 命名实体识别与生物实体识别方法概述
  • 1.2.1 命名实体识别方法
  • 1.2.2 生物实体识别
  • 1.2.3 进一步的研究方向
  • 1.3 论文研究内容和目标
  • 1.3.1 研究内容
  • 1.3.2 研究目标
  • 1.3.3 论文结构
  • 第二章 生物实体识别相关工作综述
  • 2.1 相关研究方法概述
  • 2.2 基于词典匹配的方法
  • 2.3 基于启发式规则的方法
  • 2.4 基于统计的机器学习方法
  • 2.4.1 隐马尔可夫模型(HMM)
  • 2.4.2 条件随机域(CRF)
  • 2.4.3 支持向量机(SVM)
  • 2.5 混合方法
  • 第三章 SVM与基于转换的错误驱动学习方法
  • 3.1 SVM(支持向量机)理论
  • 3.1.1 四种主要支持向量分类算法
  • 3.1.2 SVM多分类问题
  • 3.2 基于转换的错误驱动学习方法
  • 第四章 SVM与错误驱动学习方法相结合的生物实体识别
  • 4.1 引言
  • 4.1.1 特征选择
  • 4.1.2 训练模型
  • 4.2 基于SVM的生物实体识别
  • 4.2.1 特征选取
  • 4.2.2 SVM特征向量构成
  • 4.2.3 应用libSVM的SVM学习方法
  • 4.3 基于转换的错误驱动学习方法的后处理
  • 4.3.1 初始状态标注器的构造
  • 4.3.2 转换规则模板的构造
  • 4.4 Uneven问题总结
  • 第五章 实验结果与分析
  • 5.1 实验设置
  • 5.1.1 SVM初始标注
  • 5.1.2 错误驱动学习方法的后处理
  • 5.1.3 实验流程
  • 5.2 实验结果分析与对比
  • 5.2.1 实验结果与实验分析
  • 5.2.2 实验错分样例分析
  • 5.2.3 实验对比
  • 5.3 特征选择对生物实体识别影响
  • 5.4 加入词典实验分析
  • 5.5 数据不平衡问题实验分析
  • 5.6 学习曲线
  • 5.7 错分率与泛化能力
  • 第六章 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].条件随机域与上下文线索结合的生物实体识别[J]. 计算机工程 2008(07)
    • [2].基于生物网络的普适服务突现的方法与仿真[J]. 系统仿真学报 2008(01)
    • [3].环境伦理学中从“是”到“善”的转变[J]. 国外社会科学 2014(06)
    • [4].面向专利的化合物和生物实体识别系统[J]. 情报工程 2015(04)
    • [5].从“私人语言”到“内在语言”的哲学嬗变[J]. 西安外国语大学学报 2016(02)
    • [6].NetRD:一种利用Bing搜索结果补充文献挖掘证据集的工具[J]. 北京生物医学工程 2019(04)
    • [7].基于编辑距离和多种后处理的生物实体名识别[J]. 计算机工程 2008(17)
    • [8].心理学研究对象的阐述[J]. 学理论 2014(08)
    • [9].进化计算[J]. 世界建筑 2009(08)
    • [10].美国药师协会评出2011年十大药事[J]. 中国食品药品监管 2012(02)
    • [11].基于科学计量方法的生物实体研究方案[J]. 中华医学图书情报杂志 2015(07)
    • [12].应用粒子群优化-条件随机域的文本生物实体识别[J]. 西安交通大学学报 2010(12)
    • [13].基于生物网络的e-service自进化组合方法研究[J]. 计算机应用研究 2008(04)
    • [14].需要层次论在臂丛神经损伤术后护理中的应用[J]. 中国实用医药 2011(20)
    • [15].你看见它了吗?[J]. 科学与文化 2009(10)
    • [16].微流体数字化技术在生物化学中的应用[J]. 煤炭与化工 2015(02)
    • [17].身体的教育学意义[J]. 教育学术月刊 2009(02)
    • [18].论《黑暗的心》中的身体意象与身体的政治[J]. 中北大学学报(社会科学版) 2017(05)

    标签:;  ;  ;  ;  ;  

    SVM与基于转换的错误驱动学习方法相结合的生物实体识别
    下载Doc文档

    猜你喜欢