TAC-KBP评测中关键问题的研究

TAC-KBP评测中关键问题的研究

论文摘要

Web2.0技术开启了信息爆炸的时代,面对铺天盖地的互联网信息,用户需求的往往不是搜索引擎返回的大量网页,而是从网页中提取的结构化或半结构化信息。实体抽取和关系抽取作为自然语言处理技术的核心研究领域,一方面可以快速满足用户的特定信息需求;一方面可以通过建立实体知识库促进相关技术发展。本文以TAC-KBP评测为基础,对实体属性抽取的关键问题展开研究,共包括三个方面:一是实体连接,二是实体聚类,三是实体属性抽取。论文的主要创新工作和成果如下:一、提出了实体连接任务的四种模型:检索模型、分类模型、共指消解模型和规则模型,解决实体相关文档检索问题。检索模型强调了排序的作用;分类模型侧重于文本分类器的使用;共指消解模型将实体连接任务作跨文档共指消解处理;规则模型对不同类型的实体制定相应的规则。在TAC2010-KBP数据集上的测试表明,使用语义特征的共指消解模型和规则模型的性能指标比检索模型提高10%以上。二、作为实体连接任务的扩展;提出了实体聚类任务的词袋模型和强特征模型,解决实体别名探测问题;同时引用了基于bootstraping算法的双阶段模型。在TAC2009-KBP数据集上的测试表明,强特征模型能够有效地提高系统的准确率,双阶段模型有利于提高系统的召回率;两种模型的F值均比词袋模型高20%以上。三、针对实体属性抽取任务,使用了模式匹配模型和机器学习模型。模式匹配模型通过定义的正则表达式对实体属性进行抽取;机器学习模型通过CRFs算法训练的模型实现实体属性抽取。两种模型的综合使用在TAC2010-KBP的评测中取得了良好效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 分类器在NLP领域的应用现状
  • 1.3 本文的工作及内容安排
  • 第二章 统计分类器概述
  • 2.1 统计分类器的研究背景及意义
  • 2.2 数据训练/测试集
  • 2.2.1 机器学习的种类
  • 2.2.2 统计分类器的训练数据
  • 2.3 预处理
  • 2.3.1 分词
  • 2.3.2 去停用词
  • 2.3.3 词干化/词形归并(stemming/lemmatization)
  • 2.4 常用统计分类器概述
  • 2.4.1 统计分类问题描述
  • 2.4.2 文档的描述
  • 2.4.3 特征选择
  • 2.4.4 基本统计分类方法概述
  • 2.4.5 分类器性能评价
  • 2.5 实验
  • 2.5.1 特征选择实验
  • 2.5.2 分类实验
  • 第三章 实体连接
  • 3.1 TAC-KBP评测简介
  • 3.2 实体连接任务描述
  • 3.3 实体连接任务解析
  • 3.3.1 检索模型
  • 3.3.2 分类模型
  • 3.3.3 共指消解模型
  • 3.3.4 规则模型
  • 3.4 实验
  • 第四章 实体聚类
  • 4.1 WePS评测简介
  • 4.2 WePS评测与TAC-KBP评测的关系
  • 4.2.1 WePS-1与实体连接的关系
  • 4.2.2 WePS-2与实体属性抽取的关系
  • 4.2.3 实体聚类
  • 4.3 聚类算法概述
  • 4.3.1 聚类算法简介
  • 4.3.2 样本表示
  • 4.3.3 样本相似性
  • 4.3.4 聚类算法
  • 4.3.5 数据抽象
  • 4.3.6 聚类评价
  • 4.4 实体聚类模型描述
  • 4.4.1 模型整体框架
  • 4.4.2 词袋模型
  • 4.4.3 强特征模型
  • 4.4.4 双阶段模型
  • 4.5 实验
  • 第五章 实体属性抽取
  • 5.1 Slot Filing任务描述
  • 5.2 Slot Filling任务解析
  • 5.2.1 关系抽取的定义
  • 5.2.2 基于模式匹配的模型
  • 5.2.3 基于机器学习的模型
  • 5.3 实验
  • 第六章 总结及展望
  • 6.1 工作总结
  • 6.2 下一步工作
  • 参考文献
  • 致谢
  • 附录
  • 1.朴素Hobbs算法
  • 2.朴素Hobbs算法示例
  • 3.简化的朴素Hobbs算法
  • 4.基于简化的朴素Hobbs算法的文档摘要提取算法
  • 5.基于主题共指链的文档摘要提取算法
  • 6.特征抽取实验结果1
  • 7.特征抽取实验结果2
  • 8.基于BootStrapping算法的聚类算法
  • 9.SF中ORG类型实体属性列表
  • 10.SF中PER类型实体属性列表
  • 11.域类型
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].健康产业统计分类(2019)[J]. 中华人民共和国国务院公报 2019(23)
    • [2].《国家体育产业统计分类》发布实施[J]. 文体用品与科技 2015(21)
    • [3].科技服务行业统计分类问题探析[J]. 中国统计 2017(10)
    • [4].旅游经济统计应回归国民经济行业分类系统——兼评《国家旅游及相关产业统计分类》[J]. 旅游学刊 2016(03)
    • [5].国家体育产业统计分类[J]. 中华人民共和国国务院公报 2015(35)
    • [6].央行发布《金融工具统计分类及编码标准(试行)》[J]. 中国保险 2010(02)
    • [7].国家旅游及相关产业统计分类[J]. 中华人民共和国国务院公报 2015(33)
    • [8].统计局关于印发《生产性服务业统计分类(2019)》的通知[J]. 中华人民共和国国务院公报 2019(24)
    • [9].关于《国家体育产业统计分类》的几点思考[J]. 运动 2016(07)
    • [10].“十三五”时期河北省应重点发展的服务行业及主要任务[J]. 经济与管理 2015(05)
    • [11].中美服务业统计分类和口径比较[J]. 发展研究 2012(06)
    • [12].体育产业统计分类的核算方法及分析框架[J]. 西安体育学院学报 2017(06)
    • [13].体育产业统计分类(2019)[J]. 中华人民共和国国务院公报 2019(22)
    • [14].健康体育产业统计分类现状研究——基于《体育产业统计分类(2019)》[J]. 体育风尚 2020(01)
    • [15].大数据推动“三新”经济企业统计分类变革[J]. 中国统计 2018(09)
    • [16].健康产业的统计界定与统计分类[J]. 中国统计 2019(04)
    • [17].养老产业统计分类(2020)[J]. 中华人民共和国国务院公报 2020(11)
    • [18].中国地方政府行政支出的简要实证分析[J]. 西北大学学报(哲学社会科学版) 2010(06)
    • [19].各地动态[J]. 青海统计 2011(02)
    • [20].养老产业统计分类细化[J]. 民生周刊 2020(Z1)
    • [21].全域旅游产业统计分类与指标体系构建[J]. 统计与决策 2019(14)
    • [22].我国社会资本投资体育产业的策略与长效机制——基于《国家体育产业统计分类》的分析[J]. 体育学刊 2017(04)
    • [23].金融工具统计分类与会计准则相关内容的比较和思考[J]. 商业会计 2012(19)
    • [24].统计局关于印发《生活性服务业统计分类(2019)》的通知[J]. 中华人民共和国国务院公报 2019(24)
    • [25].黑龙江现代服务业发展潜力和路径选择[J]. 调研世界 2013(12)
    • [26].政策法规[J]. 中国货币市场 2010(02)
    • [27].3338例院前急救病人统计分类调查[J]. 职业卫生与应急救援 2009(04)
    • [28].国家统计局发布《体育产业统计分类(2019)》,电子竞技项目归属体育竞赛[J]. 电子竞技 2019(08)
    • [29].监察·审计·统计[J]. 中华人民共和国国务院公报 2015(36)
    • [30].统计数据在医院管理中的作用[J]. 中医药管理杂志 2015(22)

    标签:;  ;  ;  ;  ;  

    TAC-KBP评测中关键问题的研究
    下载Doc文档

    猜你喜欢