基于统计滚雪球模型的知识挖掘理论与方法

基于统计滚雪球模型的知识挖掘理论与方法

论文摘要

随着互联网技术的迅猛发展,互联网已成为一个巨大的信息源,其中含有大量的关于现实世界命名实体的信息。这些命名实体包括机构、地点和人物等,既涵盖了名人也涉及日常生活中的普通人。命名实体搜索引擎从大量的网页中挖掘出命名实体,并总结出与用户查询的命名实体相关的知识,直接返回给用户。与普通搜索引擎返回的非结构化网页相比,这种搜索引擎更快捷、更直观,已成为工业界和学术界关注的热点之一。要构建既快又准的命名实体搜索引擎,就必须对命名实体知识进行深度挖掘。从网页中自动识别命名实体、对命名实体进行摘要和为命名实体建立联系并挖掘出其关系是实体知识挖掘的三个关键科学问题。本文围绕构建命名实体搜索中的这三个科学问题展开了深入的研究,提出了一个基于统计学习的自学习模型——统计滚雪球模型,弥补了现有自学习模型的不足。具体来说,本文的主要研究内容和创新之处如下:1.分析互联网搜索的需求,充分调研了互联网知识挖掘的特点,重点讨论了基于自然语言特征的有监督学习模型和基于模板的自学习模型的知识挖掘算法;分析了这两类方法的基本思想,讨论了每类模型代表性的工作,并发现了其中的不足之处。2.提出了一种基于自学习的关系抽取模型:统计滚雪球模型。该模型使用基于统计的模板评价函数替代传统的基于手动构造的模板评价函数,使之能采用更高效的模板特征;同时采用马尔可夫逻辑网络作为底层的统计模型,从而融入各级关系联合抽取,充分地利用信息达到提高抽取性能的目的。在互联网真实数据上的关系抽取实验表明,相对于传统的自学习方法,统计滚雪球方法能在保持相同准确率的前提下,明显提升抽取的召回率。3.提出了一种迭代式命名实体识别和关系抽取的联合抽取模型。该模型扩展了实体识别的条件随机场模型,将基于关系抽取的特征加入到实体识别的过程中,从而提高实体识别的性能;同时采用迭代挖掘的方法,在命名实体识别和关系抽取两个任务之间建立联系,使各自的结果能被另一个任务在决策时使用。在互联网真实数据下的实验表明,相对于传统的顺序式知识挖掘模型,联合挖掘模型对实体识别和关系抽取任务的性能都有较大提高。4.提出了一种基于统计滚雪球模型的命名实体摘要模型:摘要滚雪球。该模型充分利用互联网数据中命名实体的事实与摘要之间的对偶性,同时完成命名实体的事实挖掘与摘要排序;同时采用自学习统计滚雪球框架,可以从少量种子出发,迭代式地同时增加命名实体事实与摘要。在互联网真实数据上的实验和用户调研表明,该模型在事实挖掘与摘要排序问题上都取得了明显改进,也证明了统计滚雪球模型具有很广的适用性。5.构建了基于10亿网页的中文命名实体搜索引擎人立方和基于30亿网页的英文命名实体搜索引擎EntityCube。这两个命名实体搜索引擎能够在大规模互联网数据中挖掘出关于命名实体的各种有用信息,获得了巨大的成功和很好的反响。本文提出的关系抽取方法已经应用到实际系统之中,其他方法也都经过了真实系统数据的验证。最后,对全文工作进行了总结,并对下一步的研究方向进行了展望。

论文目录

  • 摘要
  • ABSTRACT
  • 图表目录及缩略语
  • 插图目录
  • 表格目录
  • 第1章 绪论
  • 1.1 研究背景与研究意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 关键问题与研究任务
  • 1.2.1 关键问题
  • 1.2.2 研究任务
  • 1.3 研究内容与结构安排
  • 第2章 统计滚雪球模型
  • 2.1 简介
  • 2.1.1 关系抽取任务介绍
  • 2.1.2 相关工作
  • 2.2 统计滚雪球模型架构
  • 2.2.1 关系抽取问题定义
  • 2.2.2 统计滚雪球模型架构
  • 2.3 关系抽取统计模型
  • 2.3.1 马尔可夫逻辑网络
  • 2.3.2 联合推理
  • 2.3.3 加速方法
  • 2.4 产生和选择模板
  • 2.4.1 产生模板
  • 2.4.2 选择模板
  • 2.5 实验
  • 2.5.1 在Sent500 数据集上的实验
  • 2.5.2 在Web1M 数据集上的实验
  • 2.5.3 效率
  • 2.6 本章小结
  • 第3章 实体与关系的联合抽取
  • 3.1 简介
  • 3.1.1 背景介绍
  • 3.1.2 相关工作
  • 3.2 问题定义
  • 3.2.1 命名实体识别任务
  • 3.2.2 命名实体识别与关系抽取联合优化任务
  • 3.3 顺序模型
  • 3.3.1 基于条件随机场的命名实体识别
  • 3.3.2 基于统计滚雪球的关系抽取
  • 3.4 联合抽取模型
  • 3.4.1 关系模板特征
  • 3.4.2 关系抽取特征
  • 3.4.3 扩展模型
  • 3.5 实验
  • 3.5.1 数据集及实验方法
  • 3.5.2 实验结果及讨论
  • 3.6 本章小结
  • 第4章 摘要滚雪球模型
  • 4.1 简介
  • 4.1.1 背景介绍
  • 4.1.2 相关工作
  • 4.1.3 摘要滚雪球模型
  • 4.2 问题定义
  • 4.2.1 网页块
  • 4.2.2 事实和摘要
  • 4.2.3 联合摘要任务
  • 4.3 系统架构
  • 4.3.1 输入部分P1
  • 4.3.2 迭代总结模型P2
  • 4.3.3 后处理P3
  • 4.4 联合摘要模型
  • 4.4.1 事实抽取
  • 4.4.2 摘要排名
  • 4.4.3 联合摘要
  • 4.4.4 推理与训练
  • 4.5 实验
  • 4.5.1 数据集
  • 4.5.2 摘要-事实对偶性
  • 4.5.3 联合摘要模型
  • 4.5.4 自学习迭代框架
  • 4.5.5 用户调研:覆盖率
  • 4.6 本章小结
  • 第5章 命名实体搜索系统
  • 5.1 系统功能介绍
  • 5.2 大规模挖掘算法流程
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 论文总结
  • 6.2 未来研究展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 作者简介
  • 相关论文文献

    • [1].跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学 2017(S1)
    • [2].命名实体情报挖掘方法研究及其在图书馆中的发展[J]. 图书馆理论与实践 2017(10)
    • [3].命名实体类流行语描述性释义的识别研究[J]. 现代语文(语言研究版) 2015(02)
    • [4].基于多标签的军事领域命名实体识别[J]. 计算机科学 2019(S2)
    • [5].基于特征相似度的可比语料挖掘汉柬命名实体等价对[J]. 计算机与数字工程 2017(05)
    • [6].基于转移学习的命名实体挖掘技术[J]. 上海交通大学学报 2011(02)
    • [7].一种无指导命名实体关系抽取研究[J]. 咸宁学院学报 2009(06)
    • [8].基于模板的汉维商品命名实体翻译研究[J]. 现代计算机(专业版) 2015(08)
    • [9].一种基于概率主题模型的命名实体链接方法[J]. 软件学报 2014(09)
    • [10].地理命名实体分类体系的设计与应用分析[J]. 地球信息科学学报 2010(02)
    • [11].基于条件随机场的中医临床医案症状命名实体抽取研究[J]. 世界科学技术-中医药现代化 2020(06)
    • [12].从客户评论中识别命名实体——基于最大熵模型的实现[J]. 现代图书情报技术 2011(05)
    • [13].基于机器翻译语块的命名实体翻译方法研究[J]. 硅谷 2015(03)
    • [14].多特征融合的中文命名实体链接方法研究[J]. 情报学报 2019(01)
    • [15].基于深度表示的中医病历症状表型命名实体抽取研究[J]. 世界科学技术-中医药现代化 2018(03)
    • [16].基于词向量和条件随机场的中文命名实体分类[J]. 计算机工程与设计 2020(09)
    • [17].命名实体关系抽取算法的改进[J]. 计算机工程 2010(24)
    • [18].中文嵌套命名实体关系抽取研究[J]. 北京大学学报(自然科学版) 2019(01)
    • [19].基于用户查询日志的命名实体挖掘[J]. 中文信息学报 2010(01)
    • [20].基于多模型结合的军事命名实体识别[J]. 兵工自动化 2011(10)
    • [21].电子病历中命名实体的智能识别[J]. 中国生物医学工程学报 2011(02)
    • [22].音乐命名实体识别方法[J]. 计算机应用 2010(11)
    • [23].中文网页搜索日志中的特殊命名实体挖掘[J]. 哈尔滨工业大学学报 2011(05)
    • [24].基于条件随机场的中医临床病历命名实体抽取[J]. 计算机工程 2014(09)
    • [25].面向工艺操作说明文本的命名实体深度学习识别方法[J]. 计算机应用与软件 2019(11)
    • [26].中文文本的地理命名实体标注[J]. 测绘学报 2012(01)
    • [27].基于Web的命名实体提取的研究方法[J]. 哈尔滨师范大学自然科学学报 2010(02)
    • [28].基于知识图谱的命名实体消歧方法研究[J]. 计算机产品与流通 2020(08)
    • [29].基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报 2012(05)
    • [30].基于正反例训练的SVM命名实体关系抽取[J]. 计算机应用 2008(06)

    标签:;  ;  ;  ;  ;  ;  

    基于统计滚雪球模型的知识挖掘理论与方法
    下载Doc文档

    猜你喜欢