单类中心学习及其在二元关系抽取中的应用

单类中心学习及其在二元关系抽取中的应用

论文摘要

在互联网上进行二元关系抽取,是当前信息抽取的重要研究方向。为利用互联网的大量未标定语料,许多文献提出了基于self-training机制的学习方法:即在小标注集上训练初始系统,然后在系统运行过程中,自动标定可靠候选,重新训练,以改进系统性能。实践证明:上述方法在二元关系抽取中是行之有效的,但已有文献缺乏对学习过程的理论分析。本文首先将在二元关系抽取中的模式学习问题转化为单类文本中心的学习问题。在文本向量空间中,当初始中心被给定后,可将其足够小邻域内的文本向量作为自动标定数据。本文要解决的核心问题是:当数据集具有何种特性时,利用自动标定数据能确定地改进对单类中心的学习?为解决该问题,本文研究文本向量空间的分布特性。为克服高斯混合模型在描述具有硬聚类特性的数据分布时的缺点,本文提出了基于k-means算法划分区域的TGMK模型,并揭示了TGMK模型与k-means算法、高斯混合模型的密切联系。实验结果表明:TGMK模型适合描述多类文本数据。本文在k-means算法基础上提出了single-mean算法。文中证明:当多类数据集适合被1-TGMK的泛化模型—1-TGMR模型所描述时,新算法从目标类的初始中心出发,将收敛到实际中心。至此,完成了对核心问题的解答。实验表明了新算法在文本数据上的有效性,从而说明了self-training机制在二元关系抽取中的有效性。本文为二元关系抽取工作建立了基于single-mean算法的形式化学习模型,并针对在互联网上进行二元关系抽取的特殊性,提出了新的候选评分方法和自动标定方法。本文将学习模型应用到中文问答对和中英文术语对的抽取中。与前人工作不同的是:本文将self-training机制引入中文问答模式和中英文术语模式的学习中,使得系统对人工标定语料的依赖度减到最小;本文利用启发规则,改进模式和候选的评分方法。实验表明:与同类系统相比,新系统能在更小的标注集上,实现更优的性能。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究主线
  • 1.3 论文创新点
  • 第二章 文献综述与分析
  • 2.1 基于self-training学习机制的信息抽取技术
  • 2.1.1 文献概述
  • 2.1.2 文献分析
  • 2.1.3 本文要解决的几个基本问题
  • 2.2 二元关系抽取问题在文本分类角度下的描述
  • 2.3 与两类分类问题的区别
  • 2.4 单类分类概述
  • 2.4.1 多类分类
  • 2.4.2 两类分类的局限性
  • 2.4.3 单类学习的方法
  • 2.4.4 小结
  • 第三章 词条分布与文本向量中心的关系
  • 3.1 文本的向量化
  • 3.2 朴素贝叶斯的词概率估计
  • 3.3 文本的词条分布与k-means的中心估计
  • 3.4 中心向量所对应的词分布与潜在概率分布的关系
  • 第四章 基于k-means划分的多类数据描述
  • 4.1 k-means算法及其数据假设
  • 4.1.1 k-means算法
  • 4.1.2 k-means算法中的潜在数据假设
  • 4.2 高斯混合模型
  • 4.2.1 高斯混合模型的EM迭代算法
  • 4.2.2 高斯混合模型实例
  • 4.2.3 由高斯混合模型引导的基于划分的数据描述
  • 4.3 基于k-means划分的截尾高斯模型
  • 4.3.1 截尾高斯分布
  • 4.3.2 TGMK模型
  • 4.4 TGMK模型与k-means算法和高斯混合模型的关系
  • 4.5 实验
  • 4.5.1 在自动生成数据集上的实验
  • 4.5.2 在文本数据集上的实验
  • 4.6 问题与讨论
  • 第五章 基于k-means和半监督机制的单类中心学习
  • 5.1 k-means算法应用到单类中心学习
  • 5.2 single-mean算法
  • 5.2.1 single-mean算法与均值漂移算法
  • 5.2.2 算法在具有特定性质的数据集上的收敛性
  • 5.3 实验
  • 5.3.1 在自动生成数据集上的实验
  • 5.3.2 在文本数据集上的实验
  • 5.4 结论
  • 第六章 基于互联网和self-training的二元关系模型
  • 6.1 形式模型
  • 6.1.1 符号及指称
  • 6.1.2 算法
  • 6.1.3 候选实例评分公式的改进
  • 6.1.4 学习流程
  • 6.2 关于候选选择准则可靠性的讨论
  • 6.2.1 加强条件
  • 6.2.2 命题及证明
  • 第七章 基于互联网和self-training的中文问答模式学习
  • 7.1 引言和相关工作
  • 7.2 基于self-training方法的问答系统
  • 7.2.1 学习流程
  • 7.2.2 可靠答案选择和self-training
  • 7.3 实验结果
  • 7.3.1 自训练集与测试集
  • 7.3.2 Self-training和骨架模式的作用
  • 7.3.3 准确率
  • 7.3.4 程序实现
  • 7.4 结论
  • 第八章 基于互联网和self-training的术语模式学习
  • 8.1 引言
  • 8.2 相关工作
  • 8.3 术语模式学习
  • 8.3.1 模式获取和评分
  • 8.3.2 候选术语的查找和评分
  • 8.3.3 可靠术语选择和self-training
  • 8.4 实验结果
  • 8.4.1 测试集
  • 8.4.2 初始训练和self-training
  • 8.4.3 准确率
  • 8.4.4 程序实现
  • 8.5 结论
  • 第九章 总结与展望
  • 9.1 总结
  • 9.2 展望
  • 参考文献
  • 发表论文和科研情况说明
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    单类中心学习及其在二元关系抽取中的应用
    下载Doc文档

    猜你喜欢