论文摘要
通过对观测或实验数据的积累和分析来了解对研究对象的行为,是现代科学研究的重要方法。随着科学的发展、技术的进步,人们研究客观世界的范围越来越广。在许多新兴的研究领域,人们的经验或先验知识往往非常有限,常常需要运用数据挖掘的方法,通过对大量数据的分析来发现系统的内在规律和潜在模式,并在此基础上对系统行为进行推断、预测或控制。本文对这一领域进行了研究,在前人工作的基础上进一步发展了与“图模型”有关的理论和方法,并对一类新型数据挖掘问题提出了“广义词典模型”的新方法。作为进行多变量数据分析的重要手段,“图模型”近年来得到了人们的广泛关注,并被应用于许多重要领域。关于图模型的研究主要包括两大方面:图模型的结构学习和基于图模型的统计推断。虽然人们已经在这些方面进行了许多研究,但仍有许多重要问题有待解决。例如,在小样本下的图模型结构学习和大规模图模型上的统计推断就是两类一直未能很好解决的重要问题。在本文中,我们对这两个问题分别进行了研究。对前一类问题,我们利用相互信息量(mutual information)的性质,提出了通过寻找各节点的邻居来构建整个网络的启发式方法,部分地解决了这一难题。对于后一类问题,我们从计算机通讯研究中的一个实际问题——delay tomography出发,抽象出了一个非常重要的基于图模型的统计推断问题——“树结构上的大尺度反卷积问题”,并创造性地提出了可以完全解决这一问题的重要方法——“序贯填补EM算法”。该方法的提出,丰富了缺失数据分析的理论和方法,对大规模图模型分解计算的研究有着积极的推动作用。图模型虽然可以简洁清晰地描述变量之问的复杂关系,但是一旦这些关系具有明显的层次性,在现有图模型的框架下却难以得到很好的处理。为了弥补这种不足,较好地解决具有复杂层次性关系的数据挖掘问题,我们提出了“广义词典模型”的方法。在该方法中,我们将系统中的各种潜在模块编制成“词典”,并用一个概率模型来描述这个词典的行为;在此基础上,我们分别使用EM算法和模型选择等统计技术来估计模型参数、更新模型结构,从而得到了一种可以有效识别复杂层次性关系的数据挖掘算法。该算法准确度高,反应灵敏,具有一系列很好的性质。在理论上,该方法和双向聚类(bi-clusters)、独立成分分析(independent component analysis)和图模型等统计方法有着密切的内在联系,很有可能推动这些已有方法的进一步发展;在应用上,新方法可以有效解决中医学、社会学、生物学、文本挖掘、网络搜索等众多领域中一系列非常重要的问题,具有相当的应用价值。
论文目录
相关论文文献
标签:图模型论文; 无向图结构学习论文; 缺失数据填补方法论文; 算法论文; 图模型的分解论文; 词典模型论文; 模式识别论文; 文本挖掘论文; 中医方剂分析论文; 中医诊断模型论文;