基于上下文的统计关系学习研究

基于上下文的统计关系学习研究

论文题目: 基于上下文的统计关系学习研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 田永鸿

导师: 高文

关键词: 统计关系学习,上下文模型,多粒度挖掘,上下文依赖网络,链接语义核,影响模型

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是独立且同分布的。然而在现实世界中存在着大量的半结构化关系数据,如超文本、Web网页(网站)、Web图像、数字图书、教育资源等,这些数据集合由不同类型的数据对象组成,数据对象本身具有复杂的内部结构,同时不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。传统的统计学习方法忽略了数据对象间的关系结构,而这些语义信息却有助于使学习算法具有更好的性能。因此本论文研究的中心内容就是如何在统计机器学习中明确地利用数据实例间的关系信息来构建健壮的学习模型。本论文采用的主要方法论是上下文建模与分析。在研究中,上下文被定义为使得目标对象具有唯一的和可理解的语义的关联对象和其他影响因素的集合;相应地,上下文依赖关系则是传达了明确语义相关的“关系”。论文在对上下文分析和建模、统计关系学习等两方面的研究现状进行全面综述的基础上,以不同的应用问题为背景,开展了基于上下文分析的统计关系学习方法的研究。创新和研究成果如下:第一,提出了基于多粒度语义模型的Web站点挖掘方法。Web站点可以看作是一种具有复杂结构的超文本文档。论文用多粒度树来作为站点的描述模型,同时提出四种上下文模型来刻画树中结点间的主题相关关系。在此基础上,论文采用隐Markov树作为树结构的统计模型,研究了两阶段分类和多粒度分类等两个Web站点分类算法,以期通过利用结点间的上下文依赖关系来优化分类性能。同时,还利用两阶段文本去噪程序和基于熵的页面树动态剪枝策略来减少网页下载开销并进一步提高分类准确率。实验结果表明,多粒度语义模型能有效地刻画复杂对象内部的上下文依赖关系,而相应的分类算法能在较少的时间开销内达到较高的站点分类准确率。第二,通过扩展依赖网络模型,提出了一种上下文依赖网络模型(CDN)来刻画链接结构中的上下文主题依赖关系。在各种现实的链接关系数据(如Web)中,噪声链接或不相关“关系”是普遍存在的。为刻画这种复杂的链接规律性,CDN模型用链接特征和互信息来定量刻画链接对象间的上下文依赖关系,并利用一个简单但有效的上下文优化方法来优化对象的关系近邻,从而有效地减少噪声链接信息对分类过程的影响。CDN模型具有对链接特征的选择能力,易于适应不同的内容模型,并比传统的DN具有更简单的参数估计。实验结果表明,CDN模型在噪声数据集上具有较好的健壮性,并能为链接对象的属性提供较好的预测。第三,提出了链接语义核来刻画链接对象之间的语义关系。特别地,将链接图中的语义相关关系看作一种扩散过程,提出了一种“语义扩散核”,并在核空间利用特征分解来获得潜在链接语义核。在此基础上描述了两类基于链接语义核的算法,即核化上下文依赖网络(KCDN)来进行协作分类,以及基于链接语义核的相关页发现算法。论文在

论文目录:

摘要

英文摘要

图目录

表目录

第一章 绪论

1.1 引言

1.2 统计上下文分析简介

1.3 本文的贡献

1.4 论文的组织

第二章 相关研究综述

2.1 统计关系学习

2.1.1 关系学习和统计学习的交汇点

2.1.2 任务

2.1.3 学习框架与模型

2.1.4 数据集

2.1.5 小结

2.2 上下文分析

2.2.1 上下文的概念

2.2.2 上下文的分类

2.2.3 基于上下文的学习算法

2.2.4 上下文分析方法的应用

2.2.5 小结

2.3 总结

第三章 基于多粒度语义模型的Web站点挖掘算法

3.1 引言

3.2 相关工作

3.3 多粒度语义模型

3.3.1 Web站点结构模型

3.3.2 上下文模型

3.3.3 两种站点描述模型

3.4 Web站点分类算法

3.4.1 隐Markov树模型及其学习算法

3.4.2 基于HMT模型的两阶段分类算法

3.4.3 多粒度分类算法

3.5 去噪和剪枝

3.5.1 两阶段去噪

3.5.2 基于熵的剪枝

3.6 实验及分析

3.6.1 数据集

3.6.2 Web站点分类实验

3.6.3 Web站点挖掘实验

3.6.4 小结

3.7 应用系统iExpert

3.8 总结

第四章 学习上下文依赖网络模型

4.1 问题描述

4.2 上下文依赖网络模型

4.2.1 依赖网络模型简介

4.2.2 上下文依赖网络

4.2.3 隐上下文依赖网络

4.2.4 讨论

4.3 建模关系上下文

4.3.1 计算上下文依赖函数

4.3.2 上下文优化

4.4 学习和推理

4.4.1 参数估计

4.4.2 Gibbs推理

4.5 实验与分析

4.5.1 数据集

4.5.2 实验设计

4.5.3 结果与分析

4.5.4 讨论

4.6 总结

第五章 链接语义核

5.1 链接规律与模式

5.1.1 定性描述

5.1.2 定量量化

5.1.3 链接规律性对统计关系模型的影响

5.2 链接关系向量模型

5.3 链接语义核

5.3.1 核方法简介

5.3.2 链接核

5.3.3 潜在链接语义核

5.4 分类任务

5.4.1 分类模型

5.4.2 实验设计

5.4.3 结果及讨论

5.5 相关网页发现任务

5.5.1 KernelRank模型

5.5.2 实验及结果

5.5.3 讨论

5.6 基于块的链接语义核计算方法BlockKernel

5.6.1 链接数据的块结构

5.6.2 BlockKernel算法

5.6.3 实验及结果

5.7 总结

第六章 基于多上下文模型的Web图像分类

6.1 语义图像分类概述

6.2 ConWic系统框架

6.3 Web图像描述模型

6.3.1 视觉特征描述

6.3.2 文本特征描述

6.3.3 链接特征描述

6.4 多上下文建模

6.4.1 跨模态相关分析

6.4.2 链接相关模型

6.5 分类模型

6.6 实验及分析

6.6.1 数据集

6.6.2 结果与分析

6.7 总结

第七章 在线社会网络的影响力模型及其增量学习算法

7.1 引言

7.2 背景知识

7.2.1 IM模型

7.2.2 耦合隐Markov模型

7.3 在线社会网络的影响力模型

7.4 模型学习

7.4.1 扩展前向-后向程序

7.4.2 增量学习算法

7.5 实验及分析

7.5.1 合成数据实验

7.5.2 协作信息搜索实验

7.5.3 在线病毒式行销实验

7.6 总结

第八章 结束语

8.1 论文工作总结

8.2 未来工作展望

参考文献

致谢

作者简历

发布时间: 2006-12-27

相关论文

  • [1].Web挖掘中的降维和分类方法研究[D]. 孙建涛.清华大学2005
  • [2].Web信息智能获取若干关键问题研究[D]. 贾自艳.中国科学院研究生院(计算技术研究所)2004
  • [3].自由文本的信息抽取模式获取的研究[D]. 姜吉发.中国科学院研究生院(计算技术研究所)2004
  • [4].高性能文本分类算法研究[D]. 谭松波.中国科学院研究生院(计算技术研究所)2006
  • [5].贝叶斯学习理论及其应用研究[D]. 宫秀军.中国科学院研究生院(计算技术研究所)2002
  • [6].基于Web访问信息挖掘的推荐方法研究[D]. 王实.中国科学院研究生院(计算技术研究所)2001
  • [7].个性化信息分发及概念检索的研究[D]. 张磊.中国科学院研究生院(计算技术研究所)2002
  • [8].面向感知网的上下文敏感计算技术研究[D]. 秦怀峰.西北工业大学2006

标签:;  ;  ;  ;  ;  ;  

基于上下文的统计关系学习研究
下载Doc文档

猜你喜欢