基因表达谱数据特征选择算法研究

基因表达谱数据特征选择算法研究

论文摘要

基因芯片技术是一种新型的分子生物学技术,也是一项具有深远影响的重大科学成就。基因芯片技术可以快速准确的生成大量的微阵列基因表达谱数据,使人们从分子水平上了解基因的表达模式和微观层面上研究生命现象。由于基因表达谱数据具有样本小、维数高、噪声大、冗余基因大量存在、分布不平衡等特点。所以,采用合适的方法降低特征维数,选择具有代表性的特征基因就成为一项重要的数据处理的工作。针对基因表达谱数据样本小,分布不平衡,噪声大,不符合正态模型的特点。提出了两种基于稳健统计思想的估计量,这两种统计量即考虑了样本总体的信息,但同时避免过于依赖对正态模型的假设。实验表明,将这些统计量应用到T统计量算法选择差异表达基因的问题中,获得了较好的分类效果。支持向量机技术是一种基于结构风险最小化的分类技术,L-J算法是一种通过研究支持向量机分类提出的特征选择算法。根据K-L变换理论,任意向量都可以写成正交空间中投影到各个坐标的分量的和的形式。因此,改进后的L-J算法用分类超平面的梯度向量在各坐标轴的分量取代了梯度向量与各坐标轴的夹角计算,同时能获得与L-J算法相同的效果。针对基因表达谱数据含有大量冗余基因,冗余基因的存在影响分类效果的问题,提出了一种基于相关系数的方法将基因表达谱数据的每个基因映射成为特征空间的向量,然后在特征空间将映射后的向量按某种规则聚类,聚类完成后,在每一子类中选取一个代表向量组成特征子集。实验表明,该算法降低了特征维数,提高了分类效果。遗传算法是一种智能化的大规模搜索算法。本文在充分考虑基因表达谱数据的特点的基础上,提出了一种应用于特征选择的改进型遗传算法。该算法将遗传算法,免疫算法,过滤法,启发式方法,支持向量机分类技术相结合,获得了较小的,分类能力较强的特征子集。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 生物信息学
  • 1.2 生物芯片与基因微阵列信息处理
  • 1.2.1 生物芯片技术
  • 1.2.2 基因芯片的基本概念
  • 1.2.3 微阵列数据的获取与数据标准化
  • 1.2.4 基因表达谱数据的特点与研究意义
  • 1.3 论文主要内容的安排
  • 第2章 特征选择
  • 2.1 特征选择的概念及其在生物信息学中的应用
  • 2.2 特征选择策略
  • 2.2.1 按搜索策略划分特征选择算法
  • 2.2.2 按特征集合评价策略划分特征选择算法
  • 2.3 本章小结
  • 第3章 基于稳健统计思想的参数估计
  • 3.1 稳健统计(robust statistic)思想
  • 3.2 提出基于稳健统计思想的两种统计量
  • 3.2.1 第一种稳健统计量
  • 3.2.2 实验分析第一种稳健统计量的性质
  • 3.2.3 第二种稳健统计量
  • 3.2.4 实验分析第二种稳健统计量
  • 3.3 本章小结
  • 第4章 基于K-L 变换的改进支持向量机特征选择算法
  • 4.1 支持向量机基本原理
  • 4.1.1 线性支持向量机
  • 4.1.2 非线性支持向量机
  • 4.1.3 软间隔优化
  • 4.2 L-J 特征选择算法
  • 4.3 K-L 展开式
  • 4.3.1 傅里叶级数展开式
  • 4.3.2 K-L 展开式
  • 4.4 基于K-L 展开式的改进L-J 特征选择算法
  • 4.5 实验
  • 4.6 本章小结
  • 第5章 冗余基因处理
  • 5.1 非监督学习
  • 5.1.1 类分离的直接方法
  • 5.1.2 基于样本间相似性的间接聚类法
  • 5.1.3 分级聚类算法
  • 5.1.4 模糊聚类分析
  • 5.2 相关系数
  • 5.3 基于聚类算法的冗余基因约简
  • 5.4 实验
  • 5.5 本章小结
  • 第6章 基于改进遗传算法的特征选择
  • 6.1 遗传算法
  • 6.1.1 遗传算法的特点
  • 6.1.2 遗传算法的理论研究问题
  • 6.2 模拟退火算法
  • 6.3 免疫规划算法
  • 6.4 一种改进遗传算法的特征选择算法
  • 6.4.1 遗传算法的改进策略
  • 6.4.2 一种改进遗传算法的特征选择算法
  • 6.5 实验
  • 6.6 本章小结
  • 结论
  • 1. 对本文研究的总结
  • 2. 对未来工作的展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 大摘要
  • 相关论文文献

    • [1].基因表达谱技术分析棒曲霉毒素肾细胞毒性的机制[J]. 现代食品科技 2017(06)
    • [2].基于高通量测序的数字基因表达谱技术研究进展[J]. 北方园艺 2015(10)
    • [3].基因表达谱技术:贵亦需有道[J]. 医学争鸣 2010(04)
    • [4].我国发现Ⅰ型糖尿病的多基因表达谱,有助于该病的预测[J]. 生物学教学 2014(09)
    • [5].基于加权极限学习机的肿瘤基因表达谱数据分类[J]. 东北大学学报(自然科学版) 2017(06)
    • [6].奥美拉唑对人脐静脉内皮细胞全基因表达谱的影响及机制分析[J]. 南方医科大学学报 2012(04)
    • [7].脂多糖活化巨噬细胞的数字基因表达谱分析[J]. 中国药理学与毒理学杂志 2013(06)
    • [8].肾阴虚证和肾阳虚证基因表达谱的比较研究[J]. 山西医科大学学报 2012(09)
    • [9].口腔鳞癌细胞外泌体分离鉴定及基因表达谱研究[J]. 中华肿瘤防治杂志 2018(19)
    • [10].原发性骨质疏松症肾阳虚证骨组织全基因表达谱研究[J]. 中国骨质疏松杂志 2017(07)
    • [11].结肠癌基因表达谱降噪算法研究[J]. 医学理论与实践 2015(14)
    • [12].黄芩素对白念珠菌基因表达谱的影响[J]. 第二军医大学学报 2010(07)
    • [13].气滞血瘀证大鼠舌部基因表达谱变化初探[J]. 中国比较医学杂志 2017(09)
    • [14].中医药对类风湿关节炎细胞凋亡及基因表达谱的影响[J]. 中华中医药杂志 2010(04)
    • [15].重金属胁迫下白骨壤数字基因表达谱分析[J]. 林业科学研究 2017(02)
    • [16].高温胁迫下坛紫菜的数字基因表达谱研究[J]. 海洋学报(中文版) 2014(06)
    • [17].基于流形学习的基因表达谱数据可视化[J]. 生物信息学 2009(01)
    • [18].鼻息肉基因芯片检测及基因表达谱的研究[J]. 临床耳鼻咽喉头颈外科杂志 2008(11)
    • [19].转化生长因子β对人肾小管上皮细胞全基因表达谱的影响及其生物信息学分析[J]. 临床肾脏病杂志 2019(06)
    • [20].溃疡性结肠炎患者结肠黏膜基因表达谱生物信息学分析[J]. 解放军医药杂志 2019(11)
    • [21].基因表达谱微阵列网络数据库在肿瘤研究中的应用[J]. 中国生物化学与分子生物学报 2016(03)
    • [22].识别乳腺癌固有成像表型:与基因表达谱相关的初步研究[J]. 国际医学放射学杂志 2014(05)
    • [23].2型糖尿病的基因表达谱分析[J]. 中国实用内科杂志 2012(07)
    • [24].正常-脑瘫双生子基因表达谱差异研究[J]. 辽宁中医杂志 2009(11)
    • [25].脂多糖诱导实验性急性水肿性胰腺炎演变为急性坏死性胰腺炎的基因表达谱变化[J]. 胃肠病学 2008(06)
    • [26].基因表达谱技术从消化道肿瘤基础研究到临床转化[J]. 世界华人消化杂志 2018(34)
    • [27].变应性鼻炎发病相关基因表达谱的生物信息学分析及作为药物筛选新方法的探索[J]. 临床耳鼻咽喉头颈外科杂志 2018(19)
    • [28].干旱胁迫下丹参数字基因表达谱分析[J]. 基因组学与应用生物学 2018(10)
    • [29].盐胁迫下旱地棉叶片数字化基因表达谱分析[J]. 江苏农业学报 2016(03)
    • [30].依硫磷酸调控人类基因表达谱的预测及生物信息学分析[J]. 中国实验血液学杂志 2011(03)

    标签:;  ;  ;  ;  ;  ;  

    基因表达谱数据特征选择算法研究
    下载Doc文档

    猜你喜欢