基于认知的非结构化信息抽取关键技术与算法研究

基于认知的非结构化信息抽取关键技术与算法研究

论文摘要

近年来,随着计算机技术的迅猛发展,信息抽取技术已经成为自然语言处理领域的热点研究问题之一,并且机器学习、文本挖掘和图算法等多个方面的技术也在信息抽取中得到了应用,然而信息抽取算法的性能仍然不能达到用户满意的标准,还有许多问题有待进一步研究。本文在分析现有文本表示模型不足的基础上,运用图模型、条件随机场模型、机器学习的相关理论来实现信息抽取算法的设计。为了提高信息抽取的性能,分别提出了基于规则的命名实体识别算法、改进的基于规则的人名识别与抽取算法、基于规则与条件随机场相结合的命名实体识别算法、基于规则的组织机构名称简称生成与识别算法、基于文本分类的人物关系识别与抽取算法。并且通过实验验证了所提出算法的有效性和高效性,为信息抽取技术的进一步发展提供了更为广阔的空间。

论文目录

  • 摘要
  • Abstract
  • 详细摘要
  • Detailed Abstract
  • 1 引言
  • 1.1 论文背景与研究目的
  • 1.2 论文的研究目的与意义
  • 1.3 本文的主要研究内容和创新点
  • 1.4 本文的组织结构
  • 1.5 本章小结
  • 2 文献综述
  • 2.1 面向自然语言处理的智能系统
  • 2.2 自然语言处理概述
  • 2.3 信息抽取的发展与研究现状
  • 2.3.1 国内外研究进展
  • 2.3.2 信息抽取涉及到的主要内容
  • 2.3.3 信息抽取系统设计的两大方法
  • 2.3.4 信息抽取涉及的主要技术
  • 2.4 语言学相关理论
  • 2.4.1 认知语言学
  • 2.4.2 语义学
  • 2.4.3 语用学
  • 2.5 本章小结
  • 3 基于认知的信息抽取文本表示模型研究
  • 3.1 信息抽取的认知基础
  • 3.1.1 信息抽取的认知心理学基础
  • 3.1.2 信息抽取的认知物理学基础
  • 3.1.3 信息抽取的认知生物学基础
  • 3.1.4 信息抽取系统的认知复杂性
  • 3.2 常用文本表示模型
  • 3.2.1 布尔模型
  • 3.2.2 概率模型
  • 3.2.3 向量空间模型
  • 3.2.4 n-Gram 表示模型
  • 3.3 基于图的文本表示方法
  • 3.3.1 图模型与语义空间的研究
  • 3.3.2 基于图的文档模型的定义与生成
  • 3.3.3 基于图模型的文档相似性度量及其性质
  • 3.3.4 试验结果与分析
  • 3.3.5 基于图的文本表示模型应用前景分析
  • 3.4 本章小结
  • 4 图模型下命名实体识别与抽取算法研究
  • 4.1 命名实体识别与抽取在国内外的研究现状
  • 4.2 命名实体识别研究的内容和方法
  • 4.2.1 命名实体识别研究的内容
  • 4.2.2 基于规则的命名实体识别方法
  • 4.2.3 基于统计的命名实体识别方法
  • 4.2.4 统计与规则相结合的命名实体识别方法
  • 4.2.5 中文命名实体识别研究的难点
  • 4.2.6 中文命名实体识别评价指标
  • 4.3 基于规则的命名实体识别算法
  • 4.3.1 基于规则的命名实体识别算法
  • 4.3.2 实验结果
  • 4.4 基于候选人名集合的人名识别与抽取算法研究
  • 4.4.1 候选人名生成算法
  • 4.4.2 基于候选人名集合的人名识别与抽取算法
  • 4.4.3 实验结果
  • 4.5 人名识别中的知识库与规则库
  • 4.5.1 中文汉语姓氏库
  • 4.5.2 称谓知识库
  • 4.5.3 行为知识库
  • 4.5.4 常用于人名的字词知识库
  • 4.5.5 不用于人名的字词知识库
  • 4.5.6 以姓开头不用于人名的词
  • 4.5.7 用于人名的叠音词
  • 4.5.8 部分经济类人名
  • 4.5.9 人名识别与抽取规则库
  • 4.6 图模型下基于规则与条件随机场相结合的命名实体识别算法研究
  • 4.6.1 条件随机场模型
  • 4.6.2 基于条件随机场的命名实体识别算法
  • 4.6.3 算法实验与分析
  • 4.7 本章小结
  • 5 中文组织机构名称及简称识别与抽取算法研究
  • 5.1 中文组织机构名称识别概述
  • 5.1.1 中文组织机构名称识别现状
  • 5.1.2 中文组织机构名称识别难点
  • 5.2 基于条件随机场的中文组织机构名称识别与抽取算法
  • 5.2.1 条件随机场模型在组织机构名称识别与抽取中的应用
  • 5.2.2 训练模板与标注集
  • 5.2.3 训练文件
  • 5.2.4 测试结果
  • 5.3 中文组织机构名称简称生成与识别算法
  • 5.3.1 中文组织机构名称简称
  • 5.3.2 中文组织机构名称简称组成特征
  • 5.3.3 中文组织机构名称简称生成算法
  • 5.3.4 中文组织机构名称简称识别算法
  • 5.3.5 中文组织机构名称简称与全称匹配算法
  • 5.3.6 算法实验与分析
  • 5.4 本章小结
  • 6 图模型下基于分类的人物关系识别与抽取算法研究
  • 6.1 文本分类
  • 6.1.1 文本分类的定义
  • 6.1.2 常用特征抽取方法
  • 6.1.3 文本分类常用的算法
  • 6.2 基于图的文本分类算法研究
  • 6.3 基于分类的人物关系识别与抽取算法研究
  • 6.4 实验结果与分析
  • 6.5 本章小结
  • 7 总结及展望
  • 7.1 工作总结
  • 7.2 创新点
  • 7.3 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 在学期间发表的学术论文
  • 在学期间参加的科研项目
  • 相关论文文献

    • [1].信息抽取研究综述[J]. 计算机科学 2015(02)
    • [2].Web文档评价对象抽取研究[J]. 计算机工程 2011(06)
    • [3].WEB信息抽取的研究[J]. 消费导刊 2008(12)
    • [4].汉语实体关系模式的自动获取研究[J]. 计算机科学 2010(02)
    • [5].使用种子抽取实体关系模式[J]. 计算机与数字工程 2009(09)
    • [6].Web信息抽取策略及其实现方法研究[J]. 科技情报开发与经济 2008(23)
    • [7].信息抽取在自然语言查询接口中的应用与研究[J]. 计算机与数字工程 2008(04)
    • [8].标准内容抽取方法研究[J]. 无线互联科技 2014(08)
    • [9].基于WEB新闻内容的信息抽取方法研究[J]. 江西科技学院学报 2015(03)
    • [10].用C#进行Word信息抽取[J]. 现代计算机(专业版) 2010(04)
    • [11].信息抽取中领域本体建模方法研究[J]. 计算机技术与发展 2011(10)
    • [12].循证医学的移动诊疗关键技术的研究和应用[J]. 信息与电脑(理论版) 2015(10)
    • [13].基于规则匹配的灾难性追踪事件信息抽取的研究[J]. 电脑开发与应用 2012(06)
    • [14].基于数值编码规则的信息抽取方法[J]. 宁夏大学学报(自然科学版) 2009(01)
    • [15].信息抽取与中医药文献资源利用[J]. 电脑知识与技术 2017(22)
    • [16].基于聚类的林业病虫害实体抽取研究[J]. 计算机应用与软件 2015(03)
    • [17].面向信息抽取的指代消解探究[J]. 西安文理学院学报(自然科学版) 2015(02)
    • [18].基于监督学习和半监督学习的蛋白质关系抽取[J]. 江西师范大学学报(自然科学版) 2013(04)
    • [19].基于概念的信息抽取研究[J]. 渤海大学学报(自然科学版) 2018(02)
    • [20].基于Google搜索结果的重名消解方法[J]. 信息与电脑(理论版) 2011(04)
    • [21].新闻网页内容抽取模块的设计与实现[J]. 电信技术 2014(05)
    • [22].基于内容的个性化、自适应的HTML页面转换[J]. 黑龙江工程学院学报(自然科学版) 2009(03)
    • [23].大规模中文实体情感知识的自动获取[J]. 中文信息学报 2018(08)
    • [24].基于HMM的H7N9事件中时间信息的抽取[J]. 中国数字医学 2015(10)
    • [25].基于XML和DOM技术的Web信息抽取模型[J]. 大连交通大学学报 2013(03)
    • [26].命名实体识别研究进展综述[J]. 现代图书情报技术 2010(06)
    • [27].农业Web信息获取系统的研究与设计[J]. 农业网络信息 2009(08)
    • [28].一种刑侦案件的信息抽取架构设计[J]. 电脑编程技巧与维护 2014(02)
    • [29].改进的基于本体的Web信息抽取[J]. 计算机应用与软件 2013(07)
    • [30].基于规则归纳的信息抽取系统实现[J]. 计算机工程与应用 2008(21)

    标签:;  ;  ;  ;  ;  

    基于认知的非结构化信息抽取关键技术与算法研究
    下载Doc文档

    猜你喜欢