Bayesian网的学习及其在数据挖掘中的应用

Bayesian网的学习及其在数据挖掘中的应用

论文摘要

在信息大爆炸的今天,信息过量几乎成为人人需要面对的问题。人们迫切需要一强有力的工具来“挖掘”其中的有用信息,否则大量的不能使用的数据可能成为包袱,甚至成为垃圾。面对于数据的海洋,人们却饥饿于知识的挑战,因此,数据挖掘(Data Mining,DM)和知识发现(Knowledge Discovery in Database,KDD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。从信息海洋中提炼精华、发现其中蕴含的固有规则,已成为当今信息处理技术的研究热点。作为数据挖掘技术中的重要分支──贝叶斯网络,它具备概率推理能力强、语义清晰、易于理解等技术特点,可以发现数据集中潜在的关系和模式,因此在数据挖掘中显示出了其独特的优越性。基于此点,本文将贝叶斯网络学习作为核心研究内容,通过系统的理论研究和实验分析,以图建立一套贝叶斯网络学习理论体系和计算方法,为贝叶斯网络的构建和实际应用提供有力的依据。纵观全文,本文主要从以下几个方面做了工作:1、首先,全面论述了数据挖掘内容及技术,分析了数据挖掘中现存在的问题及其难点,包括挖掘技术的选取及其结果评价、挖掘中应当注意的一些问题等。其次,描述了贝叶斯网络的基本概念及其国内外的最新研究进展,其在数据挖掘中的应用等。给出了贝叶斯网络进行数据挖掘的一般框架,剖析其在数据挖掘中所具有的优势及存在的一些NP问题和缺点,并通过与数据挖掘其他技术方法如决策数、关联规则、聚类、神经网络点等的分析,指出贝叶斯网络挖掘技术与它们相比所具有的优势和特点。2、对于网络结构已知,样本完整下贝叶斯网络的参数学习,本文介绍了基于样本统计和贝叶斯的参数学习方法,并对该方法进行了局部优化处理,使其能完成贝叶斯网的参数学习,有效的提高了参数的学习能力,并给出了样本统计法的算法流程;对于网络结构已知,样本缺值下的贝叶斯网络参数学习,介绍了基于EM和Gibbs采样法的Bayesian网络的参数学习算法原理及流程。3、网络结构未知,样本缺值的情况下,贝叶斯网的结构学习现还缺乏一行之有效、普遍适用的解决方法。本文主要是针对完整样本下贝叶斯网的结构学习进行研究,通过引入基于最大后验概率(MAP)和最小描述长度(MDL)集成算法进行贝叶斯网络结构学习,为分析和解决这一复杂而繁琐的学习任务提供一个新的视角和思路。基于MAP-MDL集成算法把贝叶斯网络结构看成一个系统,在专家领域知识、先验信息、样本观测数据的共同作用和影响下,通过MAP-MDL的集成计算,得到一个与样本数据最佳匹配的贝叶斯网络结构。MAP-MDL集成算法不仅有利于综合利用相关先验信息,降低问题计算复杂度,又可避免由于主观偏见或数据噪音给结果带来的片面性;而且有机地结合网络结构的简洁性和精确性,使得结构模型与数据实例达到最佳匹配。算法分三个阶段完成贝叶斯网络的结构学习任务。首先,基于数据样本和专家知识,通过互信息测度和条件独立性检验学习出一个最小无向图,近似于无向版的贝叶斯网络;其次,通过相关的领域知识和规则,对无向图进行部分边定向。这二步学习得到的结果及相关信息可以有效减少后一阶段结构学习的搜索空间,降低算法的计算复杂度,提高算法学习效率。最后,运用MAP-MDL集成准则,确定最简约的贝叶斯网络;并用集成准则对贝叶斯模型结构模型评估及优化,从而学习出与样本数据达到最佳匹配的网络结构模型。4、在应用方面,将贝叶斯网络应用于宁波大学研究生入学考试升学预测模型。从给定的数据样本中,构建了基于贝叶斯网络的升学预测模型,预测结果对于学校安排招生计划及相关教学资源的重新分配有重要意义,为贝叶斯网络在数据挖掘中的应用开展了有益的尝试。通过宁波大学研究生入学考试升学率预测模型的成功实例,也说明和验证了本文所提出算法的可行性和正确性。

论文目录

  • 摘要
  • Abstract
  • 引言
  • 1 绪论
  • 1.1 数据挖掘概述
  • 1.1.1 数据挖掘的内容及技术
  • 1.1.2 数据挖掘中的问题与难点
  • 1.2 贝叶斯网络与数据挖掘
  • 1.2.1 贝叶斯网络的概念
  • 1.2.2 基于贝叶斯网络的数据挖掘
  • 1.2.3 贝叶斯网络用于数据挖掘的优点
  • 1.2.4 贝叶斯网络在数据挖掘中的应用研究及现状分析
  • 1.3 本章小结
  • 2 贝叶斯网络参数学习
  • 2.1 基于统计学的完整样本集的 Bayesian 网络参数学习
  • 2.2 基于贝叶斯的完整样本集的 Bayesian 网络参数学习
  • 2.3 基于 EM 的缺值样本集的 Bayesian 网络参数学习
  • 2.4 基于 Gibbs 采样的缺值样本集的 Bayesian 网络参数学习
  • 2.5 本章小结
  • 3 贝叶斯网络结构学习
  • 3.1 互信息与条件独立性
  • 3.2 互信息的相关属性与独立性关系
  • 3.3 d-separation 标准
  • 3.4 基于MAP-MDL 的集成学习算法
  • 3.4.1 MAP 和MDL 原理
  • 3.4.2 MAP-MDL 集成准则
  • 3.4.3 结构似然P(D|S)的计算
  • 3.4.4 结构描述长度L(S)的计算
  • 3.5 基于MAP-MDL 的网络结构学习算法的实现
  • 3.5.1 算法的设计流程
  • 3.5.2 基于互信息测度及条件独立性的最小无向图构建算法
  • 3.5.3 基于规则的最小无向图边定向算法
  • 3.5.4 基于MAP-MDL 集成准则确定贝叶斯网络结构S 算法
  • 3.5.5 基于MAP-MDL 的贝叶斯网络模型评估优化算法
  • 3.6 本章小结
  • 4 基于 Bayesian 网的研究生入学预测模型
  • 4.1 数据样本的选择
  • 4.2 相关因素及指标的定义
  • 4.2.1 变量定义及离散化处理
  • 4.3 模型构建
  • 4.3.1 模型结构S 的构建及实现总图
  • 4.3.2 学习准备阶段
  • 4.3.3 基于MAP-MDL 的算法搜索最佳贝叶斯网络模型S
  • 4.3.4 贝叶斯网络模型评估及优化
  • 4.4 贝叶斯模型的参数学习
  • 4.5 实验结果评估
  • 4.5.1 计算联合概率分布
  • 4.5.2 计算组合概率
  • 4.5.3 学生升学率预测
  • 4.5.4 样本检测
  • 4.5.5 决策分析
  • 4.5.6 模型展望
  • 4.6 本章小结
  • 5 结论与展望
  • 5.1 主要研究工作与创新点
  • 5.2 未来展望
  • 参考文献
  • 在学研究成果
  • 致谢
  • 相关论文文献

    • [1].均匀先验分布Bayesian自适应波束形成方法[J]. 信号处理 2020(05)
    • [2].Bayesian inference for ammunition demand based on Gompertz distribution[J]. Journal of Systems Engineering and Electronics 2020(03)
    • [3].Variational Inference Based Kernel Dynamic Bayesian Networks for Construction of Prediction Intervals for Industrial Time Series With Incomplete Input[J]. IEEE/CAA Journal of Automatica Sinica 2020(05)
    • [4].Fault prediction method for nuclear power machinery based on Bayesian PPCA recurrent neural network model[J]. Nuclear Science and Techniques 2020(08)
    • [5].Bayesian regularized quantile regression:A robust alternative for genome-based prediction of skewed data[J]. The Crop Journal 2020(05)
    • [6].Simulation of Silty Clay Compressibility Parameters Based on Improved BP Neural Network Using Bayesian Regularization[J]. Earthquake Research in China 2020(03)
    • [7].Failure Statistics Analysis Based on Bayesian Theory: A Study of FPSO Internal Turret Leakage[J]. China Ocean Engineering 2019(01)
    • [8].Bayesian Analysis of Complex Mutations in HBV, HCV,and HIV Studies[J]. Big Data Mining and Analytics 2019(03)
    • [9].Hyperparameter Optimization for Machine Learning Models Based on Bayesian Optimization[J]. Journal of Electronic Science and Technology 2019(01)
    • [10].Comparison Between χ~2 and Bayesian Statistics with Considering the Redshift Dependence of Stretch and Color from JLA Data[J]. Communications in Theoretical Physics 2019(09)
    • [11].Bayesian Planning of Optimal Step-stress Accelerated Life Test for Log-location-scale Distributions[J]. Acta Mathematicae Applicatae Sinica 2018(01)
    • [12].Efficient Bayesian networks for slope safety evaluation with large quantity monitoring information[J]. Geoscience Frontiers 2018(06)
    • [13].A Novel Approach for QoS Prediction Based on Bayesian Combinational Model[J]. 中国通信 2016(11)
    • [14].Big Learning with Bayesian methods[J]. National Science Review 2017(04)
    • [15].MapReduce Based Parallel Bayesian Network for Manufacturing Quality Control[J]. Chinese Journal of Mechanical Engineering 2017(05)
    • [16].A Bayesian Based Process Monitoring and Fixture Fault Diagnosis Approach in the Auto Body Assembly Process[J]. Journal of Shanghai Jiaotong University(Science) 2016(02)
    • [17].Reliability Risk Evaluation Method for Complex Mechanical System Based on Optimal Bayesian Network[J]. Journal of Donghua University(English Edition) 2016(02)
    • [18].Prediction of TBM jamming risk in squeezing grounds using Bayesian and artificial neural networks[J]. Journal of Rock Mechanics and Geotechnical Engineering 2020(01)
    • [19].Calibrate complex fracture model for subsurface flow based on Bayesian formulation[J]. Petroleum Science 2019(05)
    • [20].Semiparametric Bayesian Inference for Accelerated Failure Time Models with Errors-in-Covariates and Doubly Censored Data[J]. Journal of Systems Science & Complexity 2017(05)
    • [21].Nonlinear Bayesian Estimation:From Kalman Filtering to a Broader Horizon[J]. IEEE/CAA Journal of Automatica Sinica 2018(02)
    • [22].Bayesian Regularized Regression Based on Composite Quantile Method[J]. Acta Mathematicae Applicatae Sinica 2016(02)
    • [23].Bayesian Reliability Assessment and Degradation Modeling with Calibrations and Random Failure Threshold[J]. Journal of Shanghai Jiaotong University(Science) 2016(04)
    • [24].Traffic-load prediction based on echo state network improved by Bayesian theory in 10G-EPON[J]. The Journal of China Universities of Posts and Telecommunications 2015(02)
    • [25].Investigating Genotype 1a HCV Drug Resistance in NS5A Region via Bayesian Inference[J]. Tsinghua Science and Technology 2015(05)
    • [26].基于Bayesian多分支岩石可钻性值估计[J]. 中国石油大学学报(自然科学版) 2014(03)
    • [27].基于异常值检验的Bayesian方法验前信息可信度计算[J]. 科学技术与工程 2012(31)
    • [28].Application of Bayesian approach to hydrological frequency analysis[J]. Science China(Technological Sciences) 2011(05)
    • [29].Phylogeny of Devonian Lycopsids Inferred from Bayesian Phylogenetic Analyses[J]. Acta Geologica Sinica(English Edition) 2011(03)
    • [30].随机加速寿命试验的Bayesian分析[J]. 淮阴工学院学报 2009(03)

    标签:;  ;  ;  ;  ;  

    Bayesian网的学习及其在数据挖掘中的应用
    下载Doc文档

    猜你喜欢