面向人物追踪的知识挖掘研究

面向人物追踪的知识挖掘研究

论文摘要

近年来,关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,目前的研究偏重于综合利用各种手段来更好地满足新的应用场景,一系列国际评测也推动了各项技术的发展。尽管在移动通信领域,跟踪人物行踪的技术已相对成熟;然而,在自由文本空间内,如何根据人物的报道自动整理出相关人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。为此,本文提出了“人物追踪”的概念,首先对“人物追踪”进行了概括性的介绍,论述了“人物”和“人物追踪”的内涵和外延,提出了“人物模型”的文本表示方法,并对其进行了形式化的定义。随后,给出了人物追踪要解决的主要问题,相关的技术基础,处理文档资料的系统流程以及人物追踪在学术上和应用上的意义。在对人物追踪涉及到的主要技术进行了理论和方法上的综述后,本文结合人物追踪的系统流程,介绍了人物追踪数据预处理的方法。处理的文档主要是汉语的新闻网页。重点研究了网页解析和人物属性抽取的方法。通过数据预处理,把文本内容转化成人物模型的信息片断。接下来,本文研究了人物模型的同一性判断方法和数据融合方法。主要是处理人物模型片断的信息,不仅要把不同人物的信息区分开,还要把同一人物的信息进行整合,形成相对完整的人物生平履历。本文在这部分重点介绍了人物模型的特征表示和相似度计算方法。在人物模型同一性判断基础上,针对同一人物的活动报道,本文研究了人物活动事件的组织方法。事件的组织分为“微观粒度的事件组织”和“宏观粒度的事件组织”。本文对宏观粒度事件组织进行了重点的研究,按照国际上标准的TDT系列评测的要求,以文档或段落为基本的处理单位,不涉及具体的事件角色框架来对事件报道进行组织。本文不仅研究了宏观粒度事件的识别技术,还研究了事件之间层次关系的组织方法。随后,本文探讨了人物追踪若干细粒度挖掘任务的处理方法,并以“流通度理论”和“动态流通语料库理论”为基础,重点研究了人物知名度的计算方法。通过跟踪人物不同时期的知名度变化,绘制出人物知名度变化的曲线图。通过结合人物追踪的理论和技术研究,本文最后给出了人物信息搜索引擎的设计方案。不仅设计了体系结构,还给出了人物搜索引擎的索引结构和搜索结果显示界面。本文的研究成果为自由文本空间内人物信息的大规模组织奠定了坚实的基础,所提出的“人物追踪”概念为文本挖掘领域提供了一个崭新的研究视角和方向,对于抽象对象的挖掘具有重要的启发意义和实用价值。

论文目录

  • 摘要
  • 图目录
  • 表目录
  • 第一章 引言
  • 1.1 人物追踪产生的背景
  • 1.1.1 信息增长的现实驱动
  • 1.1.2 业务模式发展的内在要求
  • 1.1.3 技术发展的内在逻辑
  • 1.2 人物角度信息组织的研究现状
  • 1.3 人物和人物追踪的内涵及外延
  • 1.3.1 人物
  • 1.3.2 人物追踪
  • 1.3.3 人物追踪的主要问题
  • 1.3.4 人物追踪的技术基础
  • 1.3.5 人物追踪的系统流程
  • 1.4 人物追踪的意义
  • 1.5 本文的组织结构
  • 第二章 人物追踪的相关技术综述
  • 2.1 网页解析
  • 2.1.1 基于HTML标记分布规律的解析方法
  • 2.1.2 基于HTML标记间的关系的解析方法
  • 2.1.3 基于视觉特征的解析方法
  • 2.1.4 基于TABLE标记布局特性的解析方法
  • 2.2 信息抽取
  • 2.2.1 信息抽取的发展历史
  • 2.2.2 信息抽取系统的基本流程
  • 2.2.3 信息抽取的发展方向
  • 2.3 文本聚类
  • 2.3.1 文本的表示
  • 2.3.2 距离的度量
  • 2.3.3 聚类的算法体系
  • 2.4 话题识别与跟踪
  • 2.4.1 话题识别与跟踪的背景与历史
  • 2.4.2 话题识别与跟踪的主要任务
  • 2.4.3 话题识别的主要技术
  • 2.5 本章小结
  • 第三章 人物追踪中的数据预处理
  • 3.1 数据预处理的主要流程
  • 3.2 网页噪音过滤
  • 3.2.1 网页解析算法TVPS
  • 3.2.2 实验结果与分析
  • 3.3 人名的识别
  • 3.4 人名指代的处理
  • 3.5 人物对应语段的确定
  • 3.6 时间和时序标签的确定
  • 3.7 人物属性的抽取
  • 3.7.1 人物属性抽取的总体框架
  • 3.7.2 人物属性抽取语料集的标注
  • 3.7.3 分类器的模型表示
  • 3.7.4 分类器的训练
  • 3.7.5 分类器的测试
  • 3.8 本章小结
  • 第四章 人物模型的同一性判别与动态填充
  • 4.1 概述
  • 4.2 相关研究工作
  • 4.2.1 混合类型数据的聚类
  • 4.2.2 IE在IR中的应用
  • 4.2.3 人名消歧的主要方法
  • 4.3 人物模型(Person Model)的特征表示
  • 4.3.1 属性特征的表示
  • 4.3.2 数值特征的表示
  • 4.3.3 各项特征的分布规律
  • 4.4 人物模型的相似度计算方法
  • 4.4.1 基本属性的相似度计算
  • 4.4.2 介绍性属性的相似度计算
  • 4.4.3 词场的相似度计算
  • 4.4.4 人物模型总的相似度计算
  • 4.5 人物模型的同一性判别与合并
  • 4.6 实验结果与分析
  • 4.6.1 数据集
  • 4.6.2 评测方法
  • 4.6.3 实验结果
  • 4.7 本章小结
  • 第五章 基于事件的信息组织
  • 5.1 微观粒度的事件组织
  • 5.2 宏观粒度的事件组织
  • 5.2.1 宏观粒度事件的特征
  • 5.2.2 针对事件特点的话题识别方法
  • 5.2.3 基于多层聚类的话题层次化组织方法
  • 5.2.4 实验结果与分析
  • 5.3 本章小结
  • 第六章 人物知名度的追踪与人物搜索引擎的设计
  • 6.1 人物知名度的追踪方法
  • 6.1.1 概述
  • 6.1.2 词语流通度的计算
  • 6.1.3 人物知名度的计算
  • 6.1.4 流行人物的挖掘
  • 6.2 人物搜索引擎的设计
  • 6.2.1 人物搜索引擎的体系结构
  • 6.2.2 人物搜索引擎的索引结构
  • 6.2.3 搜索界面及结果
  • 6.3 本章小结
  • 第七章 结束语
  • 7.1 本文主要贡献与创新
  • 7.2 下一步研究工作
  • 7.3 前景与展望
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].基于特征关联的视频中群体人物行为语义抽取[J]. 计算机技术与发展 2020(04)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    面向人物追踪的知识挖掘研究
    下载Doc文档

    猜你喜欢