论文题目: 聚类和分类技术在生物信息学中的应用
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 黄金
导师: 张兆功
关键词: 生物信息学,基因表达,蛋白质序列,分类,聚类
文献来源: 黑龙江大学
发表年度: 2005
论文摘要: 大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析,从中提取规律,上升为理论,“读懂”基因组的遗传信息,以便指导研究工作,对生物信息学提出了很高的要求,也对信息理论与技术提出了挑战。数据挖掘作为一种以数据库、统计学和人工智能学为基础的新兴技术,给生物学家提供了前所未有的数据分析工具,为基因和蛋白质信息的分析和提取提供了强有力的手段。 本文主要对基因表达数据、蛋白质序列数据的分类和聚类进行了研究。本文提出了蛋白质序列数据的分类算法,主要根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法,对每类数据挖掘得到的频繁模式进行类间裁减,用每类独有的频繁序列对测试数据进行分类。还提出了蛋白质序列数据聚类算法,它首先应用连续频繁模式挖掘算法找出频繁定长模式,然后对频繁模式进行裁减,利用剩余的模式建立新空间,把蛋白质序列数据在新空间上投影,计算序列间的相似矩阵,最后应用K-means方法进行聚类。还提出的基因表达数据分类算法中,首先利用基因表达值的期望和方差对基因进行裁减,把基因表达数据离散化,然后转变成P-tree的形式,利用P-tree结构的数据计算信息增益构建多棵决策树对测试数据分类。提出了一个并行计算基因表达数据聚类的方法,是一个基于KNN密度聚类的方法。首先把基因表达数据均分到服务器上,然后在各台服务器上分别计算基因的密度,求出核心基因,聚类核心基因,求得部分数据的簇中心点,客户机聚类各台服务器求得的簇中心点,计算出全体数据的簇中心点。实验结果表明所提出的算法是较优的。
发布时间: 2005-09-23
参考文献
- [1].基于非线性理论方法的生物序列特性的研究[D]. 管维红.江南大学2008
- [2].SOX9对WDR5基因表达的表观遗传机制初探[D]. 王江.大理大学2018
- [3].一种增强基因表达的自激活GAL4/UAS系统表达盒的建立[D]. 刘玉万.西北农林科技大学2017
- [4].基于转录组学探究猪基因表达特征及其调控网络[D]. 魏凯.石河子大学2017
- [5].基于广义伪氨基酸组成的蛋白质序列的数值刻画[D]. 李雪琴.渤海大学2017
- [6].基于位置序列的蛋白质序列相似性分析及其应用[D]. 王磊.西北农林科技大学2018
- [7].基于深度学习的蛋白质序列分类问题的研究与应用[D]. 邵丽芬.电子科技大学2018
- [8].基于集成学习的蛋白质序列分类问题的研究[D]. 赵欣.电子科技大学2018
- [9].基于氨基酸理化性质和位置特征的蛋白质序列比较及其应用[D]. 于璐璐.山东大学2018
- [10].蛋白质序列的数值特征提取方法与应用[D]. 宋田.燕山大学2017
相关论文
- [1].生物信息学中的序列相似性比对算法[D]. 陈伟.中国海洋大学2006
- [2].生物信息学中序列拼接程序的并行化研究[D]. 杨琪.中国科学院研究生院(计算技术研究所)2002
- [3].面向生物信息学的可重构计算技术研究[D]. 张佩珩.中国科学院研究生院(计算技术研究所)2005
- [4].生物信息学中的并行处理[D]. 刘维.扬州大学2007
- [5].生物信息学方法研究蛋白质相互作用[D]. 曹建平.电子科技大学2005
- [6].计算智能方法在生物信息学中的应用[D]. 闫化军.电子科技大学2005
- [7].生物信息学中的模式发现算法研究[D]. 冯永志.黑龙江大学2005
- [8].生物信息学中多序列比对算法的研究[D]. 孙力.黑龙江大学2005
- [9].生物信息学应用程序新方法[D]. 刘婷.浙江大学2006
- [10].生物信息学数据库的设计与实现[D]. 刘月兰.黑龙江大学2005