高维特征非线性快速筛选及其在生物信息学应用

高维特征非线性快速筛选及其在生物信息学应用

论文摘要

特征选择是数据挖掘和模式识别领域的研究热点之一。为了提高对高维数据所建模型的泛化推广能力,有必要去除无关、冗余特征。从m个特征中选取P(P≤m)个最优特征子集理论上有2m种可能,已知这是一个完全多项式非确定性问题,在m较大时无法穷举。本文针对现有多数非穷举特征筛选方法易陷入局部最优的弊端,充分利用支持向量机的优点,发展了一种新的高维特征非线性快速筛选方法。对于分类问题,针对现有特征选择算法缺少通用、可靠的特征重要性评估手段的局限,进一步提出了特征显著性测验方法——伪支持向量回归成对数据t测验法。肽、蛋白质功能本质上由其一级结构——氨基酸残基序列决定。蛋白质三级结构测定耗时费力,而肽、蛋白质一级结构简便易得,因此肽、蛋白质的定量序效关系(Quantitative Sequence-Activity Relationship,QSAR)研究极为重要,在研发肽类新药、揭示蛋白质结构与功能关系方面有广泛应用前景。蛋白质、肽QSAR建模的一个重要内容是其一级结构表征。本文以氨基酸的531个物化性质参数直接表征肽的结构,将高维特征非线性快速筛选应用于苦味二肽和ACE抑制剂2个肽体系的QSAR建模(回归问题),各筛选获得10个意义明确的保留描述子。以保留描述子建立支持向量回归(Support Vector Regression,SVR)模型,其拟合精度、留一法交叉测试精度、外部预测精度较文献报道结果均有较大幅度提升,优势明显;对所建SVR模型进行了非线性回归显著性测验、单因子相对重要性显著性测验、单因子效应分析,增强了模型的可解释性。肿瘤等复杂疾病基因表达数据(分类问题)具样本小、维数高、噪声大、冗余度高、非线性等特征,如何深入挖掘一直是生物信息学研究的重点与难点。本文将高维特征非线性快速筛选新方法应用于急性白血病基因表达谱与结肠癌基因表达谱2个肿瘤数据,各筛选获得6个和4个保留基因。以保留基因建立支持向量分类(Support Vector Classification,SVC)模型,其留一法交叉测试精度、全折交叉测试精度、独立预测精度获得了优于或与文献相当的结果。以伪SVR成对数据t测验法对所建SVC模型进行保留信息基因显著性测验,给出了保留基因相对重要性排序。蛋白质间的相互作用不仅对细胞和生物通路的功能发挥着关键性的作用,而且理解这些相互作用对各种疾病的发病机理和治疗也具有极大的推进作用。为了进一步验证高维特征非线性快速筛选在复杂大样本高维数据特征选择上的有效性,将其应用于人类蛋白质相互作用数据库中的所有样本数据。首先对蛋白质互作对进行特征提取,产生686维特征。由于支持向量机对大样本的训练建模时间复杂度过大,改用松弛变量核密度估计(Relaxed Variable Kernel Density Estimation, RVKDE)为分类器进行特征筛选,最终得到232个保留特征。以保留特征建立RVKDE模型,获得了比文献报道结果略高的独立预测精度。高维特征非线性快速筛选方法在肽QSAR建模等回归预测领域、肿瘤基因表达谱小样本高维数据分类领域、复杂大样本高维数据领域等有广泛应用前景。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1 研究意义、目的及研究背景
  • 1.1 特征选择方法概述
  • 1.1.1 特征选择方法定义
  • 1.1.2 特征选择方法分类
  • 1.1.3 高维特征选择
  • 1.2 基于支持向量机的特征选择方法
  • 1.2.1 基于机器学习的特征选择算法
  • 1.2.2 支持向量机理论
  • 1.2.3 基于SVM的特征选择算法
  • 1.3 特征选择在生物信息学上的应用
  • 1.3.1 特征选择应用于序列分析
  • 1.3.2 特征选择应用于单核苷酸多态性
  • 1.3.3 特征选择应用于微阵列分析
  • 2 研究内容与创新点
  • 2.1 主要研究内容
  • 2.2 主要创新点
  • 3 本文内容编排
  • 第二章 高维变量非线性快速筛选与肽QSAR建模
  • 1 原理和方法
  • 1.1 肽结构表征
  • 1.2 基于SVR的高维特征非线性快速筛选
  • 1.3 模型验证
  • 1.4 模型解释
  • 2 结果与讨论
  • 2.1 苦味二肽QSAR研究
  • 2.2 血管紧张素转化酶抑制剂QSAR研究
  • 3 结论
  • 第三章 复杂疾病基因表达谱信息基因选择
  • 1 原理和方法
  • 1.1 基于SVC的高维特征非线性快速筛选
  • 1.2 模型验证方法与评价指标选择
  • 1.3 伪SVR成对数据t测验法
  • 2 结果与讨论
  • 2.1 急性白血病基因表达谱信息基因选择研究
  • 2.2 结肠癌基因表达谱信息基因选择研究
  • 3 结论
  • 第四章 蛋白质相互作用预测
  • 1 材料和方法
  • 1.1 数据集及其预处理
  • 1.2 特征向量提取
  • 1.3 基于RVKDE的高维特征非线性快速筛选
  • 1.4 模型验证
  • 2 结果与讨论
  • 3 结论
  • 第五章 结论与展望
  • 1 论文创新点及其主要结论
  • 2 论文不足及其展望
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].基于高维特征选择的跳频电台细微特征识别[J]. 系统工程与电子技术 2020(02)
    • [2].样本空间基于多级高维特征表示的微小故障诊断[J]. 电子学报 2020(08)
    • [3].基于高维特征检索智能算法的图像检索技术的研究[J]. 科技通报 2013(11)
    • [4].面向云环境的图像高维特征索引框架[J]. 计算机集成制造系统 2011(08)
    • [5].声-固耦合模型下自适应高维特征焊缝缺陷超声检测[J]. 组合机床与自动化加工技术 2020(03)
    • [6].大数据状态下城市智慧交通的研究[J]. 电脑编程技巧与维护 2017(22)
    • [7].多分类器融合的快速高维特征聚类图像分割[J]. 电讯技术 2010(03)
    • [8].基于遗传算法的高维特征选择的研究[J]. 郑州轻工业学院学报(自然科学版) 2010(02)
    • [9].面向高维特征和多分类的分布式梯度提升树[J]. 软件学报 2019(03)
    • [10].改进的PSO高维特征选择算法[J]. 信息通信 2020(11)
    • [11].基于高维LPQ特征与联合贝叶斯的人脸识别[J]. 河北工业大学学报 2017(03)
    • [12].恶意代码分类的一种高维特征融合分析方法[J]. 计算机应用研究 2017(04)
    • [13].广义形态差值滤波与AN降维在故障诊断中的应用[J]. 电子测量与仪器学报 2020(03)
    • [14].基于小样本高维特征的人脸自动识别算法研究[J]. 计算机科学 2014(06)
    • [15].基于随机复杂度约束的高维特征自动选择算法[J]. 电子学报 2011(02)
    • [16].基于支持向量机的高维特征非线性快速筛选与肽QSAR建模[J]. 物理化学学报 2011(07)
    • [17].一种改进的快速压缩跟踪算法[J]. 江苏科技大学学报(自然科学版) 2015(02)
    • [18].基于高维特征表示的交通场景识别[J]. 智能科学与技术学报 2019(04)
    • [19].基于条件分布的超高维特征筛选[J]. 数学的实践与认识 2018(09)
    • [20].基于图像高维特征压缩映射的混凝土表面裂缝检测算法[J]. 北京理工大学学报 2019(04)
    • [21].基于高维特征提取的可视化SOM故障诊断方法及其在PX氧化过程中的应用(英文)[J]. Chinese Journal of Chemical Engineering 2015(09)
    • [22].一种改进的FCM图像分割算法[J]. 机械管理开发 2010(03)
    • [23].基于TripletLoss损失函数的舌象分类方法研究[J]. 北京生物医学工程 2020(02)
    • [24].基于标准序列浮动前向特征选择的改进算法研究[J]. 计算机测量与控制 2017(07)
    • [25].基于多重压缩感知和距离计算的视频关键帧提取[J]. 江苏科技大学学报(自然科学版) 2015(05)
    • [26].一种多层次分布式数据挖掘方法的改进研究[J]. 现代电子技术 2017(09)
    • [27].随机维哈希量化视词字典的目标检索方法[J]. 计算机应用与软件 2015(09)
    • [28].教育大数据价值挖掘对教学改革的启示[J]. 价值工程 2016(25)
    • [29].基于ITD与LLTSA的轴承故障诊断方法[J]. 电子测量技术 2020(08)
    • [30].基于Rough Set的高维特征选择混合遗传算法研究[J]. 南京大学学报(自然科学) 2015(04)

    标签:;  ;  ;  ;  ;  ;  

    高维特征非线性快速筛选及其在生物信息学应用
    下载Doc文档

    猜你喜欢