论文摘要
近年来,关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,目前的研究偏重于综合利用各种手段来更好地满足新的应用场景,一系列国际评测也推动了各项技术的发展。尽管在移动通信领域,跟踪人物行踪的技术已相对成熟;然而,在自由文本空间内,如何根据人物的报道自动整理出相关人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。为此,本文提出了“人物追踪”的概念,首先对“人物追踪”进行了概括性的介绍,论述了“人物”和“人物追踪”的内涵和外延,提出了“人物模型”的文本表示方法,并对其进行了形式化的定义。随后,给出了人物追踪要解决的主要问题,相关的技术基础,处理文档资料的系统流程以及人物追踪在学术上和应用上的意义。在对人物追踪涉及到的主要技术进行了理论和方法上的综述后,本文结合人物追踪的系统流程,介绍了人物追踪数据预处理的方法。处理的文档主要是汉语的新闻网页。重点研究了网页解析和人物属性抽取的方法。通过数据预处理,把文本内容转化成人物模型的信息片断。接下来,本文研究了人物模型的同一性判断方法和数据融合方法。主要是处理人物模型片断的信息,不仅要把不同人物的信息区分开,还要把同一人物的信息进行整合,形成相对完整的人物生平履历。本文在这部分重点介绍了人物模型的特征表示和相似度计算方法。在人物模型同一性判断基础上,针对同一人物的活动报道,本文研究了人物活动事件的组织方法。事件的组织分为“微观粒度的事件组织”和“宏观粒度的事件组织”。本文对宏观粒度事件组织进行了重点的研究,按照国际上标准的TDT系列评测的要求,以文档或段落为基本的处理单位,不涉及具体的事件角色框架来对事件报道进行组织。本文不仅研究了宏观粒度事件的识别技术,还研究了事件之间层次关系的组织方法。随后,本文探讨了人物追踪若干细粒度挖掘任务的处理方法,并以“流通度理论”和“动态流通语料库理论”为基础,重点研究了人物知名度的计算方法。通过跟踪人物不同时期的知名度变化,绘制出人物知名度变化的曲线图。通过结合人物追踪的理论和技术研究,本文最后给出了人物信息搜索引擎的设计方案。不仅设计了体系结构,还给出了人物搜索引擎的索引结构和搜索结果显示界面。本文的研究成果为自由文本空间内人物信息的大规模组织奠定了坚实的基础,所提出的“人物追踪”概念为文本挖掘领域提供了一个崭新的研究视角和方向,对于抽象对象的挖掘具有重要的启发意义和实用价值。
论文目录
摘要图目录表目录第一章 引言1.1 人物追踪产生的背景1.1.1 信息增长的现实驱动1.1.2 业务模式发展的内在要求1.1.3 技术发展的内在逻辑1.2 人物角度信息组织的研究现状1.3 人物和人物追踪的内涵及外延1.3.1 人物1.3.2 人物追踪1.3.3 人物追踪的主要问题1.3.4 人物追踪的技术基础1.3.5 人物追踪的系统流程1.4 人物追踪的意义1.5 本文的组织结构第二章 人物追踪的相关技术综述2.1 网页解析2.1.1 基于HTML标记分布规律的解析方法2.1.2 基于HTML标记间的关系的解析方法2.1.3 基于视觉特征的解析方法2.1.4 基于TABLE标记布局特性的解析方法2.2 信息抽取2.2.1 信息抽取的发展历史2.2.2 信息抽取系统的基本流程2.2.3 信息抽取的发展方向2.3 文本聚类2.3.1 文本的表示2.3.2 距离的度量2.3.3 聚类的算法体系2.4 话题识别与跟踪2.4.1 话题识别与跟踪的背景与历史2.4.2 话题识别与跟踪的主要任务2.4.3 话题识别的主要技术2.5 本章小结第三章 人物追踪中的数据预处理3.1 数据预处理的主要流程3.2 网页噪音过滤3.2.1 网页解析算法TVPS3.2.2 实验结果与分析3.3 人名的识别3.4 人名指代的处理3.5 人物对应语段的确定3.6 时间和时序标签的确定3.7 人物属性的抽取3.7.1 人物属性抽取的总体框架3.7.2 人物属性抽取语料集的标注3.7.3 分类器的模型表示3.7.4 分类器的训练3.7.5 分类器的测试3.8 本章小结第四章 人物模型的同一性判别与动态填充4.1 概述4.2 相关研究工作4.2.1 混合类型数据的聚类4.2.2 IE在IR中的应用4.2.3 人名消歧的主要方法4.3 人物模型(Person Model)的特征表示4.3.1 属性特征的表示4.3.2 数值特征的表示4.3.3 各项特征的分布规律4.4 人物模型的相似度计算方法4.4.1 基本属性的相似度计算4.4.2 介绍性属性的相似度计算4.4.3 词场的相似度计算4.4.4 人物模型总的相似度计算4.5 人物模型的同一性判别与合并4.6 实验结果与分析4.6.1 数据集4.6.2 评测方法4.6.3 实验结果4.7 本章小结第五章 基于事件的信息组织5.1 微观粒度的事件组织5.2 宏观粒度的事件组织5.2.1 宏观粒度事件的特征5.2.2 针对事件特点的话题识别方法5.2.3 基于多层聚类的话题层次化组织方法5.2.4 实验结果与分析5.3 本章小结第六章 人物知名度的追踪与人物搜索引擎的设计6.1 人物知名度的追踪方法6.1.1 概述6.1.2 词语流通度的计算6.1.3 人物知名度的计算6.1.4 流行人物的挖掘6.2 人物搜索引擎的设计6.2.1 人物搜索引擎的体系结构6.2.2 人物搜索引擎的索引结构6.2.3 搜索界面及结果6.3 本章小结第七章 结束语7.1 本文主要贡献与创新7.2 下一步研究工作7.3 前景与展望参考文献致谢作者简历
相关论文文献
- [1].基于特征关联的视频中群体人物行为语义抽取[J]. 计算机技术与发展 2020(04)
标签:人物论文; 人物追踪论文; 知识挖掘论文; 人物模型论文; 人物属性抽取论文; 同一性判断论文; 事件信息组织论文; 知名度计算论文; 人物搜索引擎论文;