基于DMarker系统的癌症特异性标志物挖掘

基于DMarker系统的癌症特异性标志物挖掘

论文摘要

癌症是威胁人类健康的头号疾病,提高病人存活率的关键在于癌症的早期发现与诊断。基因芯片技术在医学研究中的广泛应用为癌症生物标志物的发掘提供了方法和手段。本文研究的目的是要通过生物信息学方法从基因芯片数据里发现用于临床检测的具有特异性的复合生物标志物。本文通过芯片数据的预处理,芯片数据差异表达分析,基因入血的判断,基因排序等步骤得到一个大小适度的候选基因列表。然后将每一个基因视为一个可以甄别健康或疾病的证据,通过计算根据临界值而定义的mass函数得到每个证据的信任分配值。之后采用Dempster-Shafer证据理论的合成规则对证据进行合成,从而得到基因间的组合,再用基本信任值来排序组合后的结果,然后综合考虑证据间的冲突衡量因子后选出候选的复合生物标志物,最后通过DMarker系统的注释以及比较功能查看找到的复合生物标志物的各种属性以及诊断的特异性。经过以上步骤本研究最终找到了几个潜在的可以入血的具有一定特异性的复合生物标志物。本文通过计算手段得到的结果为进一步实验手段的验证提供参考,为癌症的早期发现和诊断提供一条新的方法和途径。

论文目录

  • 提要
  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 癌症
  • 1.2 生物标记物
  • 1.3 预测生物标志物
  • 1.3.1 生物学方法
  • 1.3.2 生物信息学方法
  • 1.4 本论文的工作
  • 第2章 基因芯片分析与蛋白入血预测
  • 2.1 基因芯片分析
  • 2.2 蛋白入血预测
  • 第3章 DEMPSTER-SHAFER证据理论
  • 3.1 证据理论概述
  • 3.2 D-S证据理论的基本概念
  • 3.2.1 识别框架
  • 3.2.2 基本信任分配函数
  • 3.3 证据的合成规则
  • 3.4 证据冲突的衡量
  • 3.4.1 证据一致量与冲突量
  • 3.4.2 证据冲突强度
  • 3.4.3 证据冲突/一致度
  • 第4章 基于DMARKER系统的数据分析
  • 4.1 DMARKER系统概述
  • 4.2 DMARKER功能简介
  • 4.3 DMARKER数据分析
  • 4.3.1 数据的对数转换
  • 4.3.2 芯片间的标准化
  • 4.4 差异表达基因分析
  • 4.4.1 T检验
  • 4.4.2 分布曲线
  • 4.5 蛋白入血的预测方法
  • 4.5.1 收集入血与非入血蛋白
  • 4.5.2 特征的构建
  • 4.5.3 分类和特征选择
  • 4.6 临界值的选取
  • 4.7 生物标志物的D-S合成
  • 第5章 总结与展望
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于DMarker系统的癌症特异性标志物挖掘
    下载Doc文档

    猜你喜欢