论文摘要
在互联网上进行二元关系抽取,是当前信息抽取的重要研究方向。为利用互联网的大量未标定语料,许多文献提出了基于self-training机制的学习方法:即在小标注集上训练初始系统,然后在系统运行过程中,自动标定可靠候选,重新训练,以改进系统性能。实践证明:上述方法在二元关系抽取中是行之有效的,但已有文献缺乏对学习过程的理论分析。本文首先将在二元关系抽取中的模式学习问题转化为单类文本中心的学习问题。在文本向量空间中,当初始中心被给定后,可将其足够小邻域内的文本向量作为自动标定数据。本文要解决的核心问题是:当数据集具有何种特性时,利用自动标定数据能确定地改进对单类中心的学习?为解决该问题,本文研究文本向量空间的分布特性。为克服高斯混合模型在描述具有硬聚类特性的数据分布时的缺点,本文提出了基于k-means算法划分区域的TGMK模型,并揭示了TGMK模型与k-means算法、高斯混合模型的密切联系。实验结果表明:TGMK模型适合描述多类文本数据。本文在k-means算法基础上提出了single-mean算法。文中证明:当多类数据集适合被1-TGMK的泛化模型—1-TGMR模型所描述时,新算法从目标类的初始中心出发,将收敛到实际中心。至此,完成了对核心问题的解答。实验表明了新算法在文本数据上的有效性,从而说明了self-training机制在二元关系抽取中的有效性。本文为二元关系抽取工作建立了基于single-mean算法的形式化学习模型,并针对在互联网上进行二元关系抽取的特殊性,提出了新的候选评分方法和自动标定方法。本文将学习模型应用到中文问答对和中英文术语对的抽取中。与前人工作不同的是:本文将self-training机制引入中文问答模式和中英文术语模式的学习中,使得系统对人工标定语料的依赖度减到最小;本文利用启发规则,改进模式和候选的评分方法。实验表明:与同类系统相比,新系统能在更小的标注集上,实现更优的性能。
论文目录
中文摘要ABSTRACT第一章 绪论1.1 研究背景和意义1.2 研究主线1.3 论文创新点第二章 文献综述与分析2.1 基于self-training学习机制的信息抽取技术2.1.1 文献概述2.1.2 文献分析2.1.3 本文要解决的几个基本问题2.2 二元关系抽取问题在文本分类角度下的描述2.3 与两类分类问题的区别2.4 单类分类概述2.4.1 多类分类2.4.2 两类分类的局限性2.4.3 单类学习的方法2.4.4 小结第三章 词条分布与文本向量中心的关系3.1 文本的向量化3.2 朴素贝叶斯的词概率估计3.3 文本的词条分布与k-means的中心估计3.4 中心向量所对应的词分布与潜在概率分布的关系第四章 基于k-means划分的多类数据描述4.1 k-means算法及其数据假设4.1.1 k-means算法4.1.2 k-means算法中的潜在数据假设4.2 高斯混合模型4.2.1 高斯混合模型的EM迭代算法4.2.2 高斯混合模型实例4.2.3 由高斯混合模型引导的基于划分的数据描述4.3 基于k-means划分的截尾高斯模型4.3.1 截尾高斯分布4.3.2 TGMK模型4.4 TGMK模型与k-means算法和高斯混合模型的关系4.5 实验4.5.1 在自动生成数据集上的实验4.5.2 在文本数据集上的实验4.6 问题与讨论第五章 基于k-means和半监督机制的单类中心学习5.1 k-means算法应用到单类中心学习5.2 single-mean算法5.2.1 single-mean算法与均值漂移算法5.2.2 算法在具有特定性质的数据集上的收敛性5.3 实验5.3.1 在自动生成数据集上的实验5.3.2 在文本数据集上的实验5.4 结论第六章 基于互联网和self-training的二元关系模型6.1 形式模型6.1.1 符号及指称6.1.2 算法6.1.3 候选实例评分公式的改进6.1.4 学习流程6.2 关于候选选择准则可靠性的讨论6.2.1 加强条件6.2.2 命题及证明第七章 基于互联网和self-training的中文问答模式学习7.1 引言和相关工作7.2 基于self-training方法的问答系统7.2.1 学习流程7.2.2 可靠答案选择和self-training7.3 实验结果7.3.1 自训练集与测试集7.3.2 Self-training和骨架模式的作用7.3.3 准确率7.3.4 程序实现7.4 结论第八章 基于互联网和self-training的术语模式学习8.1 引言8.2 相关工作8.3 术语模式学习8.3.1 模式获取和评分8.3.2 候选术语的查找和评分8.3.3 可靠术语选择和self-training8.4 实验结果8.4.1 测试集8.4.2 初始训练和self-training8.4.3 准确率8.4.4 程序实现8.5 结论第九章 总结与展望9.1 总结9.2 展望参考文献发表论文和科研情况说明致谢
相关论文文献
标签:单类中心学习论文; 二元关系抽取论文; 高斯混合模型论文; 问答模式学习论文; 术语模式学习论文;