论文摘要
本文是和美国迈阿密大学植物科学系Dr.Q.Quinn Li合作,基于该课题组提供的植物拟南芥不同的细胞类型下的野生,突变,互补,DNA四种类型的转录样本数据以及对其转录结构的研究成果,借助基因相关软件、应用计算机和数学算法对基因组再注释进行研究。在对寻找新基因算法、预测蛋白质结构与功能的算法以及数据的可视化分析和研究领域中,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用信息和知识,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基因中大量存在的非编码区的信息实质,一直是一个饶有趣味并富有挑战性的课题。随着生物学与生物信息学的发展,基因片段分割作为基因结构分析重要的前期工作也越来越受到更多人的关注,对基因片段分割的精确性以及有效性提出了更高的要求。而通过比较己知全基因组注释文件判断基因编码的起止位置,以及内含子和外显子的分割边界,通过数据可视化效果来验证基因片段分割的精确性以及有效性,这在基因功能和转录本分析中有重要的应用意义。但由于生物芯片本身存在的缺陷和噪声干扰以及真核细胞基因结构表现出分散性、多样性以及复杂性的特点,所以对基因结构分析中未知元素造成的误差以及选择一个最佳的停止标准认识十分有限,以及存在序列分割或比对过程中耗损的时间过长、效率不够等问题。至今还没有看到利用Tiling Array芯片杂交反应后的数据分析拟南芥基因结构的正式文献报道。本论文通过各种生物信息处理软件和数学算法,探索拟南芥基因结构分析的有效方法和数据可视化实现。本文首先结合Partek软件实现DNA Reference算法,对庞大的探针数据集进行预处理,使得目标序列不依赖反应寡核苷酸探针的亲合度,以实现不同的探针之间信号的定量可比性,然后针对本文的实际情况对探针数据进行精简,采用动态规划思想构建SCM模型对数据进行分割,使用大量的统计方法分析数据,估计模型中状态参数,并得到各个分割点,将探针强度,注释信息,分段信息存入MySQL数据库,提供自行设计ProbeViewer软件,展示分割效果,辅助生物学家直观分析基因结构。