论文摘要
近年大量研究表明癌症是多因素的疾病,不仅与病人所处的环境和自身体征有关,它还是多基因参与的一种渐进积累转化性疾病,疾病的变化首先就发生在基因水平上。因此结合临床资料与基因表达谱数据对癌症进行综合分析,将从宏观与微观两个角度发现癌症诊断与治疗的相关因素,从而为癌症的预测、疗效分析和制定预防措施提供依据。本文将贝叶斯网络引入临床和微阵列数据的分析,从概率角度定量描述各因素间的影响,揭示多指标之间,多层次的多重因果关系。首先本文介绍了贝叶斯网络的基本概念及其分类情况,详细阐述了贝叶斯网络的结构学习和参数学习的原理,以及与决策树算法相结合的优化算法,并运用Matlab7.0的FullBNT工具箱实现了贝叶斯网络模型的构建。在实例分析中,本文首先分析了包含1441个肝癌病人的临床资料,建立了一个包含48个变量,71条有向弧的贝叶斯网络模型。此模型揭示了包含患者的年龄、性别、有无肝癌家族史等一般情况和治疗前理化检查、手术及治疗前情况、术后治疗、复发后治疗5个方面的各项指标的影响关系。在网络学习过程中,笔者讨论了最大父结点数的设置和贝叶斯网络对小概率事件发生率的估计能力,并于数据中随机设置1/5的缺失值,探讨贝叶斯参数估计的EM算法对于含缺失值的数据的处理能力。在对胃癌临床资料的分析中,本文探讨了运用卡方检验筛选变量对构建贝叶斯网络的影响,分析了包含122个胃癌病人的临床资料,建立了一个包含4个变量,5条有向弧的贝叶斯网络模型。阐述了胃癌分期、淋巴结转移、腹膜扩散以及浸润深度这几个变量之间的相互关系,探讨了如何依据模型进行疾病诊断。从微观角度,本文详细描述了微阵列数据的贝叶斯网络模型构建的整个流程。微阵列杂交实验的操作过程中不可避免地会造成基因表达谱数据的缺失,同样的本文引用的胃癌基因表达谱数据也存在大量缺失值,本文运用KNN算法对缺失值进行了填充。基因表达谱数据往往都是连续型数据,在贝叶斯网络虽然也能使用连续型数据,但是连续数据的实际意义往往无法明确,且数据离散化后能够明显提高网络学习精度,因此本文将基因表达数据进行μ±σ的三值离散化后再进行贝叶斯网络的构建。最终,本文构建了一个包含37条基因,35条有向弧的贝叶斯网络模型,并例分析了有较多子结点的两条基因的在网络中的作用与影响。通过以上试验比较,本研究的主要结论有:①对临床资料及微阵列数据进行贝叶斯网络分析是可行的,它能够从概率角度描述各变量间的相互作用,从而揭示多指标间多层次的,多因多果的相互影响关系,可用于指导临床诊断与治疗方案的选择;②贝叶斯网络具有较强的缺失值的处理能力,能通过对含有缺失值的数据的学习,得到较为精确的网络参数;③对贝叶斯网络结构学习算法进行了探讨,结合决策树对网络结构学习算法进行优化,解决结点排序问题,提高结构学习效率;④建立了微阵列数据的贝叶斯网络模型的构建流程,运用KNN算法进行缺失值的填充,进而运用μ±σ三值离散法,对表达谱数据进行离散,从而提高贝叶斯网络学习的速度与实际解释能力。⑤贝叶斯网络对小概率事件的发生率估计能力有所不足,因此在建立分类指标时不宜过细。综上所述,贝叶斯网络作为数据挖掘的一种有效方法之一,有着很好的理论基础和清晰的知识表达形式,将其引入临床资料与微阵列实验数据的分析,能较好地构建模型,分析各临床指标及基因间的相互作用与影响,可广泛应用于肿瘤学的研究,观察肿瘤治疗所引起的基因表达变化,探讨肿瘤细胞对临床治疗反映的决定因素等。