论文摘要
重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中,识别这些重复体对基因组解码起到了很重要的作用。通过考虑重复体序列的长度和发生频率,提出了一种基于后缀树的识别初级重复体的RepSeeker算法。算法采用最低限制频率,并通过重叠性合并,最大程度地扩展了重复体的长度。算法以DNA序列所构造的后缀树作为输入,并以基于后缀树的查询算法作为手段,最终生成输入的DNA序列的初级重复体分类表。为了进一步地提高RepSeeker算法的效率,我们对后缀树构造算法进行了适应性改进。在构造后缀树时,给叶子节点编号,并在分支节点加入了叶子信息数组LL(LeafList)。在此基础上,改进了基于后缀树的查询算法,从而避免了RepSeeker算法进行高频度的子树遍历。对Ukkonen后缀树构造算法的改进所带来的问题是对空间要求加大,而构造后缀树算法的时间复杂度几乎没有受到影响。测试中使用了NCBI中的几条典型DNA序列作为测试对象,并与改进Ukkonen前的重复体识别算法做了比较分析。结果表明RepSeeker在没有损失精度的情况下很大程度地缩短了运行时间。
论文目录
相关论文文献
- [1].一种具有精确边界的重复体识别算法[J]. 计算机学报 2008(02)
- [2].多次重复体外冲击波碎石对肾脏的影响[J]. 中国水电医学 2009(03)
- [3].重复体外冲击波碎石对兔肾脏损害累积性的研究[J]. 中华全科医学 2016(09)
- [4].湘江流域汉语方言中的重复体及其演变[J]. 邵阳学院学报(社会科学版) 2012(01)
- [5].重复诗学:记忆与回忆[J]. 马克思主义美学研究 2015(01)
- [6].重复体外冲击波碎石引起兔肾组织结构的变化研究[J]. 中华全科医学 2016(12)
- [7].DNA序列中基于适应性后缀树的重复体识别算法[J]. 计算机学报 2010(04)
- [8].血影蛋白结构与功能研究进展[J]. 中国科学:生命科学 2013(06)
- [9].基于FSA的DNA重复体频率统计算法[J]. 计算机工程 2011(11)
- [10].时间旅行者的妻子(节选)[J]. 疯狂英语(阅读版) 2012(02)
- [11].基于频繁子树挖掘的DNA重复序列识别方法[J]. 微电子学与计算机 2011(09)
- [12].英汉语篇名词重复现象比较研究[J]. 山东理工大学学报(社会科学版) 2010(06)
- [13].满语动词体研究[J]. 满语研究 2012(02)
- [14].基于统计分析和停滞速度的GEP自动建模[J]. 计算机应用研究 2008(08)
- [15].安顺地戏唱腔及形成路径[J]. 教育文化论坛 2017(06)