图和词典模型的统计方法及应用

论文摘要

通过对观测或实验数据的积累和分析来了解对研究对象的行为,是现代科学研究的重要方法。随着科学的发展、技术的进步,人们研究客观世界的范围越来越广。在许多新兴的研究领域,人们的经验或先验知识往往非常有限,常常需要运用数据挖掘的方法,通过对大量数据的分析来发现系统的内在规律和潜在模式,并在此基础上对系统行为进行推断、预测或控制。本文对这一领域进行了研究,在前人工作的基础上进一步发展了与“图模型”有关的理论和方法,并对一类新型数据挖掘问题提出了“广义词典模型”的新方法。作为进行多变量数据分析的重要手段,“图模型”近年来得到了人们的广泛关注,并被应用于许多重要领域。关于图模型的研究主要包括两大方面:图模型的结构学习和基于图模型的统计推断。虽然人们已经在这些方面进行了许多研究,但仍有许多重要问题有待解决。例如,在小样本下的图模型结构学习和大规模图模型上的统计推断就是两类一直未能很好解决的重要问题。在本文中,我们对这两个问题分别进行了研究。对前一类问题,我们利用相互信息量（mutual information）的性质,提出了通过寻找各节点的邻居来构建整个网络的启发式方法,部分地解决了这一难题。对于后一类问题,我们从计算机通讯研究中的一个实际问题——delay tomography出发,抽象出了一个非常重要的基于图模型的统计推断问题——“树结构上的大尺度反卷积问题”,并创造性地提出了可以完全解决这一问题的重要方法——“序贯填补EM算法”。该方法的提出,丰富了缺失数据分析的理论和方法,对大规模图模型分解计算的研究有着积极的推动作用。图模型虽然可以简洁清晰地描述变量之问的复杂关系,但是一旦这些关系具有明显的层次性,在现有图模型的框架下却难以得到很好的处理。为了弥补这种不足,较好地解决具有复杂层次性关系的数据挖掘问题,我们提出了“广义词典模型”的方法。在该方法中,我们将系统中的各种潜在模块编制成“词典”,并用一个概率模型来描述这个词典的行为;在此基础上,我们分别使用EM算法和模型选择等统计技术来估计模型参数、更新模型结构,从而得到了一种可以有效识别复杂层次性关系的数据挖掘算法。该算法准确度高,反应灵敏,具有一系列很好的性质。在理论上,该方法和双向聚类（bi-clusters）、独立成分分析（independent component analysis）和图模型等统计方法有着密切的内在联系,很有可能推动这些已有方法的进一步发展;在应用上,新方法可以有效解决中医学、社会学、生物学、文本挖掘、网络搜索等众多领域中一系列非常重要的问题,具有相当的应用价值。

论文目录

摘要

Abstract

第一章绪论

第二章无向图模型结构学习及其在中医学中的应用

2.1 无向图模型的基本概念

2.2 相互信息量及其性质

2.3 无向图结构学习的启发式算法

2.4 在中医诊断中的应用

第三章序贯填补EM算法及其在大尺度反卷积中的应用

3.1 Delay Tomography中的大尺度反卷积问题

3.1.1 背景介绍

3.1.2 数学描述

3.2 文献中的相关工作

3.3 序贯填补EM算法

3.3.1 完全观测似然函数和部分观测似然函数

3.3.2 自上而下的序贯填补

3.3.3 用动态规划来完成计算

3.3.4 算法流程和复杂度分析

0下的Loss Tomography'>3.4 独立模型M₀下的Loss Tomography

3.4.1 "丢失观测"、"扩展丢失观测"和"丢失模式"

3.4.2 依据丢失模式来合并不同丢失观测从而实现算法加速

第四章广义词典模型及其应用

4.1 中医方剂分析中的统计问题

4.2 词典模型及其可识别性

4.3 模型参数的估计

4.4 模型结构的更新

4.5 EM算法中的计算问题

4.6 运用词典模型来分析"观测"的结构

4.7 计算机模拟和与已有算法的比较

4.8 应用实例

4.8.1 文本数据挖掘

4.8.2 中医数据分析

4.8.3 在生物信息学中的潜在应用

4.9 讨论

4.9.1 似然函数中的微妙含义

4.9.2 词典结构更新中的有用技巧

4.9.3 对长观测的处理

第五章结论

第六章附录

参考文献

致谢

图和词典模型的统计方法及应用

论文摘要

论文目录

相关论文文献

猜你喜欢