大肠早癌辅助诊断数据挖掘方法研究

大肠早癌辅助诊断数据挖掘方法研究

论文摘要

随着医疗诊断技术的发展,各个医疗部门积累了大量医疗诊断信息,如病人的医学影像资料、生理生化指标、生物信息学指标、病人背景资料等,这些数据资料背后隐藏着很多有可能成为临床辅助诊断依据的重要信息,因此有必要利用相关技术对这些重要信息进行分析处理。数据挖掘是广泛应用于医疗诊断数据分析处理的技术之一,采用数据挖掘技术可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,从而依据患者的年龄、性别、生活习性、辅助检查结果、生化指标等做出判断,排除人为因素的干扰,客观性强,得到的诊断规则有着较好的普遍性。本文以数据挖掘技术为基础,以激光诱导自体荧光大肠早癌诊断数据为载体,通过分析诊断数据特征,从数据预处理、训练数据集的形成以及分类预测方法三个方面,对大肠早癌诊断数据进行深入分析研究,形成激光诱导大肠早癌辅助诊断系统,为临床医生提供辅助诊断的手段。本文首先分析了激光诱导自体荧光诊断大肠早癌的机理、特点、研究意义,根据医疗诊断数据特征,提出了激光诱导自体荧光大肠早癌辅助诊断数据分析处理流程,并对各部分进行了分析,着重阐述光谱数据采集系统组成以及光谱数据的采集方法,同时进行了滤除高频电子噪音,剔除光谱基线、截取有效带宽信号以及归一化荧光光谱的数据除噪处理。面向不完整的大肠早癌荧光数据,通过分析比较特征提取方法,本文提出基于容错关系的信息熵粗糙集主成分分析算法,容错关系粗糙集较之传统粗糙集能满足诊断数据的不完备性,同时引入随信息量减小而单调下降的信息熵,在此基础上提出属性约简方法,对光谱数据进行属性约减,并利用主成分分析算法进行进一步的特征属性提取。通过该算法,提取了影响大肠早癌诊断的特征数据,降低数据维度,减少后续数据处理的复杂度。由于医疗诊断数据中多为混合数据的特性,通过分析现有混合数据聚类算法,本文提出了基于格论的混合数据聚类算法。利用格进行数据分布以消除数值型属性和符号属性的分布差别,利用数据间格的涵盖数目来进行聚类计算,因此该算法在进行混合数据处理时不再需要进行数据转换。针对算法中的参数,即初始聚类数目和中心点的选取进行了优化分析,其中初始聚类数目利用遗传算法进行优化,获得初始聚类数目的取值空间;同时对中心点的选取进行了优化说明,同时对算法性能进行了分析。以形成的聚类数据集为基础,利用均值方差法和荧光强度比值判别法进行数据特征的提取,得到正常组织和癌症组织的分类特征,为分类判别提供依据。针对医疗诊断数据中实时性要求,通过分析所采用的分类算法性能,发现该分类算法存在着大量重复计算,因此算法复杂度和算法的空间复杂度比较高。为解决这一问题,本文提出了基于检索树结构的处理方法,通过构建检索树,将多数重复计算节点构建在检索树的高层,无重复节点建立在检索树的下层,以此来降低算法的重复计算,有效地降低了算法复杂度以及空间复杂度,以满足诊断实时性要求。针对医疗诊断数据中的不平衡性,在分析了非平衡数据分布特征以及当前的非平衡数据处理方法后,利用样本处理技术,本文提出了全局密度非平衡数据分类,μ-密度非平衡数据分类方法以及边界样本局部密度的非平衡数据分类方法,全局密度非平衡数据分类方法以各自类别的样本为基础进行综合平均,这种方法有利于稀疏数据的分类而降低密集数据分类有效性;μ-密度非平衡数据分类方法通过代价敏感方法,分析样本分类正确性代价,得到合适的μ值进行样本数据的选取,以提高非平衡数据分类有效性;边界样本局部密度的非平衡数据分类方法着重分析处于非平衡数据集中的边界样本数据,通过多种方法进行边界数据的分类,同时对算法中的相关参数进行分析。这三种算法都是通过样本数据选择,提高少数类样本数据量以减少数据非平衡性。论文最后总结了全文的创新点,提出了今后将继续进行的研究方向。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 数据挖掘技术概述
  • 1.2.1 数据规约
  • 1.2.2 数据聚类方法研究
  • 1.2.3 数据分类与预测方法研究
  • 1.3 数据挖掘技术在医疗诊断中的应用研究现状
  • 1.4 本文的主要研究内容及章节安排
  • 1.4.1 本文的主要研究内容
  • 1.4.2 本文的章节安排
  • 第二章 激光诱导自体荧光大肠早癌诊断数据分析系统
  • 2.1 医疗诊断数据的特征及数据挖掘中的关键技术
  • 2.2 激光诱导大肠早癌诊断数据分析
  • 2.3 数据采集
  • 2.3.1 激光诱导荧光的基本原理
  • 2.3.2 自体荧光检测系统
  • 2.3.3 标本选取
  • 2.3.4 光谱采集
  • 2.4 数据除噪处理
  • 2.5 数据预处理
  • 2.5.1 数据集成
  • 2.5.2 数据约简
  • 2.6 聚类分析与分类预测
  • 2.6.1 确定聚类模式
  • 2.6.2 形成初始训练样本集
  • 2.6.3 数据特征提取
  • 2.6.4 分类和预测
  • 2.7 本章小结
  • 第三章 粗糙主成分分析的属性约简方法
  • 3.1 特征提取概述
  • 3.2 粗糙集理论的基本概念
  • 3.2.1 基于粗糙集理论的知识表达系统
  • 3.2.2 约简与核
  • 3.2.3 信息熵
  • 3.3 基于容错关系的粗糙集模型
  • 3.3.1 基于容错关系的粗糙集模型基本概念
  • 3.3.2 基于容错关系的信息熵
  • 3.3.3 基于容错关系信息熵的属性约简框架
  • 3.4 基于容错关系信息熵的粗糙主成分分析方法(RPCA)
  • 3.4.1 算法思想
  • 3.4.2 实例分析
  • 3.4.3 算法分析
  • 3.5 实验结果与分析
  • 3.5.1 数据集的说明
  • 3.5.2 实验结果
  • 3.6 本章小结
  • 第四章 基于格论的数据聚类算法
  • 4.1 基本概念
  • 4.1.1 格的定义
  • 4.1.2 格的域空间(Domain lattice)
  • 4.1.3 覆盖关系
  • 4.2 相似性的度量
  • 4.2.1 基本思想
  • 4.2.2 产生所有子格
  • 4.2.3 计算所有的覆盖格
  • 4.2.4 度量并聚类
  • 4.3 算法描述
  • 4.3.1 基本思想
  • 4.3.2 产生所有子格
  • 4.3.3 计算所有的覆盖格
  • 4.3.4 度量并聚类
  • 4.3.5 算法步骤
  • 4.4 实验结果
  • 4.4.1 公共数据集测试
  • 4.4.2 大肠早癌临床数据实验
  • 4.5 数据特征的提取
  • 4.5.1 均值方差法
  • 4.5.2 荧光强度比值判别法
  • 4.6 算法分析
  • 4.6.1 聚类数目k值的优化
  • 4.6.2 聚类中心初始化方法
  • 4.6.3 聚类质量分析
  • 4.7 本章小结
  • 第五章 基于检索树的改进分类算法
  • 5.1 CwkNN算法简介
  • 5.1.1 CwkNN举例
  • 5.1.2 CwkNN算法实验性能分析
  • 5.2 检索树的构建
  • 5.2.1 检索树树节点的结构
  • 5.2.2 检索树的构建
  • 5.3 实验结果及算法比较
  • 5.4 本章小结
  • 第六章 非平衡医疗数据分类研究
  • 6.1 引言
  • 6.2 样本密度对数据分类的影响
  • 6.3 基于μ-密度的数据分类算法
  • 6.3.1 基于全局密度的改进计数最近邻算法
  • 6.3.2 μ-密度分类算法
  • 6.3.3 实验结果及分析
  • 6.3.4 参数的选择与分析
  • 6.4 基于边界样本局部密度分类算法
  • 6.4.1 基于边界样本局部密度分类算法
  • 6.4.2 基于边界样本局部密度分类算法实验结果
  • 6.4.3 密度算法中参数分析
  • 6.5 密度算法对大肠早癌数据集的实验结果及分析
  • 6.5.1 大肠早癌数据集的说明
  • 6.5.2 各改进密度算法和CwkNN的比较
  • 6.5.3 边界样本局部密度分类算法和CwkNN的比较
  • 6.6 密度算法和vkNN/tkNN的比较
  • 6.6.1 对公共数据集的比较
  • 6.6.2 对大肠早癌数据集的比较
  • 6.7 本章小结
  • 第七章 总结与展望
  • 7.1 全文总结
  • 7.2 研究与展望
  • 参考文献
  • 攻读博士学位期间的著作、学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    大肠早癌辅助诊断数据挖掘方法研究
    下载Doc文档

    猜你喜欢