基于Tiling Array的拟南芥基因结构分析

论文摘要

本文是和美国迈阿密大学植物科学系Dr.Q.Quinn Li合作,基于该课题组提供的植物拟南芥不同的细胞类型下的野生,突变,互补,DNA四种类型的转录样本数据以及对其转录结构的研究成果,借助基因相关软件、应用计算机和数学算法对基因组再注释进行研究。在对寻找新基因算法、预测蛋白质结构与功能的算法以及数据的可视化分析和研究领域中,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用信息和知识,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基因中大量存在的非编码区的信息实质,一直是一个饶有趣味并富有挑战性的课题。随着生物学与生物信息学的发展,基因片段分割作为基因结构分析重要的前期工作也越来越受到更多人的关注,对基因片段分割的精确性以及有效性提出了更高的要求。而通过比较己知全基因组注释文件判断基因编码的起止位置,以及内含子和外显子的分割边界,通过数据可视化效果来验证基因片段分割的精确性以及有效性,这在基因功能和转录本分析中有重要的应用意义。但由于生物芯片本身存在的缺陷和噪声干扰以及真核细胞基因结构表现出分散性、多样性以及复杂性的特点,所以对基因结构分析中未知元素造成的误差以及选择一个最佳的停止标准认识十分有限,以及存在序列分割或比对过程中耗损的时间过长、效率不够等问题。至今还没有看到利用Tiling Array芯片杂交反应后的数据分析拟南芥基因结构的正式文献报道。本论文通过各种生物信息处理软件和数学算法,探索拟南芥基因结构分析的有效方法和数据可视化实现。本文首先结合Partek软件实现DNA Reference算法,对庞大的探针数据集进行预处理,使得目标序列不依赖反应寡核苷酸探针的亲合度,以实现不同的探针之间信号的定量可比性,然后针对本文的实际情况对探针数据进行精简,采用动态规划思想构建SCM模型对数据进行分割,使用大量的统计方法分析数据,估计模型中状态参数,并得到各个分割点,将探针强度,注释信息,分段信息存入MySQL数据库,提供自行设计ProbeViewer软件,展示分割效果,辅助生物学家直观分析基因结构。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 生物信息相关知识

1.2 基因芯片相关知识

1.3 研究意义以及研究内容

1.4 本文的结构

第二章实验设计与方法

2.1 实验平台

2.1.1 Tiling array芯片原理

2.1.2 数据处理软件

2.2 实验内容

第三章数据预处理

3.1 基本思路

3.2 DNA参考标准化理论方法

3.2.1 模型

3.2.2 参数估计

3.2.3 芯片间的标准化

3.3 算法流程

3.4 实验分析

3.4.1 实验数据

3.4.2 数据制图

3.4.3 实验小结

第四章探针过滤

4.1 问题描述

4.2 方法探索Ⅰ

4.2.1 序列比对Ⅰ

4.2.2 探针过滤Ⅰ

4.2.3 实验小结Ⅰ

4.3 方法探索Ⅱ

4.3.1 序列比对Ⅱ

4.3.2 探针过滤Ⅱ

4.3.3 实验小结Ⅱ

4.4 方法探索Ⅲ

4.4.1 理论分析

4.4.2 实验模拟

4.4.3 实验小结Ⅲ

4.5 合并过滤

4.5.1 基本思路

4.5.2 参数估计

4.5.3 结果分析

4.6 实验结论

第五章分割与注释

5.1 片段分割

5.1.1 理论基础

5.1.2 实验模拟

5.1.3 实验小结

5.2 注释

5.3 程序设计

5.3.1 程序设计

5.3.2 数据描述

5.3.3 ProbeViewer软件分析

5.4 识别基因结构实验

5.4.1 过滤对比

5.4.2 分段效果模拟

5.5 实验结论

第六章总结与展望

6.1 全文总结

6.2 后续展望

附录

参考文献

致谢

基于Tiling Array的拟南芥基因结构分析

论文摘要

论文目录

相关论文文献

猜你喜欢