杨海:基因组结构变异预测算法研究论文

杨海:基因组结构变异预测算法研究论文

本文主要研究内容

作者杨海(2019)在《基因组结构变异预测算法研究》一文中研究指出:结构变异(Structural Variation,SV)通常是指规模介于单核苷酸多态性(single nucleotide polymorphism,SNP)和染色体变异之间的基因组变异形式,是生物遗传多样性的重要组成部分,不仅能够导致个体之间的表型差异,而且也与多种疾病的发生存在密切的联系。高通量测序技术的不断发展和广泛应用,为结构变异的预测和研究提供了技术支持。然而,数量规模庞大的短读长测序数据给结构变异预测带来了困难和挑战。基于高通量测序的基因组结构变异预测问题已经成为生物信息学领域的研究热点。由于包括人类在内的大部分动物和一半以上的高等植物,都是属于二倍体基因组。因此,重点围绕二倍体基因组展开研究,设计有效的结构变异预测分析算法,不仅能够提高预测结果的精确度和敏感度,有利于探索结构变异与重大疾病的内在关联,更能为多倍体基因组结构变异预测研究奠定基础。本文重点面向双序列比对问题和不同类型的结构变异预测问题进行研究,提出了一种双序列比对改进算法,以及基因组结构变异预测算法,以提高不同类型结构变异预测结果的精确度和敏感度。本文的主要内容和创新点如下:1.现有的双序列比对算法的回溯过程是严格按照最优解的来源方向执行的,容易造成比对结果中碱基过早匹配而不利于发现更长的空位片段,导致比对结果与InDel变异的实际情况产生偏差。另外,相对固定的空位罚分也不利于比对结果中增加空位和减少碱基错配。本文从动态空位罚分调整策略、算法逆推策略和得分矩阵单元格计算方法三个方面对Needleman-Wunsch算法进行了优化和改进,提出了一种DNA双序列全局比对改进算法(DNA-NW)。由于改进算法的逆推策略不再严格按照最优解的来源方向执行,因此不再使用名词“回溯”,而称之为逆推策略。该算法分为预处理阶段和比对执行阶段,预处理是通过基于莱温斯坦距离的动态空位罚分策略(DGPS-LD)实现,根据计算出的两条序列的莱温斯坦距离动态调整空位罚分的分值,使得比对结果更加倾向于增加空位;比对执行阶段是利用Needleman-Wunsch改进算法(INW)实现。尤其是Needleman-Wunsch改进算法(INW)不仅执行效率高于原有的Needleman-Wunsch算法,而且采用新的逆推策略能够在保证最优比对得分不变的前提下找到更长的空位片段,减少错配个数,在降低假阳性SNP可能性的同时,能够预测出更长的InDel变异,使得DNA序列比对结果较好的符合了 InDel变异的实际情况,更加有利于InDel变异的预测。2.对InDel及其预测方法现状进行了综述,介绍了高通量测序原始数据的质控与预处理方法。针对长度小于50 bp的InDel预测问题展开研究,提出了一种基于拆分读片段(split read)的InDel预测与分析方法(SRInDel)。该算法首先划定拆分读片段在参考基因组上的比对目标区域,再利用基于k-mer短序列的比对目标区域修正算法进一步缩小参考基因组参与比对的区域长度,使得序列比对结果中更容易出现插入变异。序列比对过程是使用本文第2章提出的DNA双序列全局比对改进算法(DNA-NW)实现的,根据比对结果可以有效预测出InDel变异的类型、长度和断点位置。针对均聚物序列中可能出现的测序错误问题,提出了 InDel预测结果的修正方法,设计了编码区InDel及移码突变的预测方法,还提出了InDel纯合性和杂合性的判别方法。此外,针对短串联重复序列的预测问题,提出了一种基于k-mer短序列的预测方法(kmer-STR)。与常用的短串联重复预测算法SSRIT相比,kmer-STR算法在保证结果正确性的前提下,显著提高了算法的执行效率,并能适用于大规模基因序列中短串联重复的预测过程。3.介绍了结构变异的主要类型及其预测方法的发展;针对50bp以上的结构变异预测问题展开研究,重点研究插入变异、缺失变异、倒位变异、染色体内易位和染色体间易位等类型的结构变异特征,提出了一种基于不一致读片段对和split read的结构变异预测方法SVDS。该预测方法能够预测插入变异、缺失变异、倒位变异、染色体内易位和染色体间易位五种主要的结构变异类型。该结构变异预测算法的一个显著特点是在序列比对时保留每条paired-end read的多个可能的比对结果,从而增加结构变异预测的敏感度。同时,计算每个候选结构变异的发生概率,并利用集合覆盖问题过滤候选结果中的假阳性结构变异,从而使算法在敏感度和精确度两个方面都获得了较大的提升。4.针对长度在lkb以上的拷贝数变异预测问题,本文提出了一种基于隐马尔科夫模型的拷贝数变异预测算法(CNV-HMM)。为了提高预测结果的精确度,本文分别对read深度信号的统计和概率建模问题、测序数据的GC偏好性及其校正、比对率及其对read深度的影响等方面进行了研究,并提出相应的解决方法。为了进一步提高拷贝数变异预测结果的敏感度和精确度,CNV-HMM算法还使用了基于split read的结果优化方法,不仅能够过滤部分假阳性拷贝数变异,还能够通过合并相同的变异从而得到更长的拷贝数变异预测结果。

Abstract

jie gou bian yi (Structural Variation,SV)tong chang shi zhi gui mo jie yu chan he gan suan duo tai xing (single nucleotide polymorphism,SNP)he ran se ti bian yi zhi jian de ji yin zu bian yi xing shi ,shi sheng wu wei chuan duo yang xing de chong yao zu cheng bu fen ,bu jin neng gou dao zhi ge ti zhi jian de biao xing cha yi ,er ju ye yu duo chong ji bing de fa sheng cun zai mi qie de lian ji 。gao tong liang ce xu ji shu de bu duan fa zhan he an fan ying yong ,wei jie gou bian yi de yu ce he yan jiu di gong le ji shu zhi chi 。ran er ,shu liang gui mo pang da de duan dou chang ce xu shu ju gei jie gou bian yi yu ce dai lai le kun nan he tiao zhan 。ji yu gao tong liang ce xu de ji yin zu jie gou bian yi yu ce wen ti yi jing cheng wei sheng wu xin xi xue ling yu de yan jiu re dian 。you yu bao gua ren lei zai nei de da bu fen dong wu he yi ban yi shang de gao deng zhi wu ,dou shi shu yu er bei ti ji yin zu 。yin ci ,chong dian wei rao er bei ti ji yin zu zhan kai yan jiu ,she ji you xiao de jie gou bian yi yu ce fen xi suan fa ,bu jin neng gou di gao yu ce jie guo de jing que du he min gan du ,you li yu tan suo jie gou bian yi yu chong da ji bing de nei zai guan lian ,geng neng wei duo bei ti ji yin zu jie gou bian yi yu ce yan jiu dian ding ji chu 。ben wen chong dian mian xiang shuang xu lie bi dui wen ti he bu tong lei xing de jie gou bian yi yu ce wen ti jin hang yan jiu ,di chu le yi chong shuang xu lie bi dui gai jin suan fa ,yi ji ji yin zu jie gou bian yi yu ce suan fa ,yi di gao bu tong lei xing jie gou bian yi yu ce jie guo de jing que du he min gan du 。ben wen de zhu yao nei rong he chuang xin dian ru xia :1.xian you de shuang xu lie bi dui suan fa de hui su guo cheng shi yan ge an zhao zui you jie de lai yuan fang xiang zhi hang de ,rong yi zao cheng bi dui jie guo zhong jian ji guo zao pi pei er bu li yu fa xian geng chang de kong wei pian duan ,dao zhi bi dui jie guo yu InDelbian yi de shi ji qing kuang chan sheng pian cha 。ling wai ,xiang dui gu ding de kong wei fa fen ye bu li yu bi dui jie guo zhong zeng jia kong wei he jian shao jian ji cuo pei 。ben wen cong dong tai kong wei fa fen diao zheng ce lve 、suan fa ni tui ce lve he de fen ju zhen chan yuan ge ji suan fang fa san ge fang mian dui Needleman-Wunschsuan fa jin hang le you hua he gai jin ,di chu le yi chong DNAshuang xu lie quan ju bi dui gai jin suan fa (DNA-NW)。you yu gai jin suan fa de ni tui ce lve bu zai yan ge an zhao zui you jie de lai yuan fang xiang zhi hang ,yin ci bu zai shi yong ming ci “hui su ”,er chen zhi wei ni tui ce lve 。gai suan fa fen wei yu chu li jie duan he bi dui zhi hang jie duan ,yu chu li shi tong guo ji yu lai wen si tan ju li de dong tai kong wei fa fen ce lve (DGPS-LD)shi xian ,gen ju ji suan chu de liang tiao xu lie de lai wen si tan ju li dong tai diao zheng kong wei fa fen de fen zhi ,shi de bi dui jie guo geng jia qing xiang yu zeng jia kong wei ;bi dui zhi hang jie duan shi li yong Needleman-Wunschgai jin suan fa (INW)shi xian 。you ji shi Needleman-Wunschgai jin suan fa (INW)bu jin zhi hang xiao lv gao yu yuan you de Needleman-Wunschsuan fa ,er ju cai yong xin de ni tui ce lve neng gou zai bao zheng zui you bi dui de fen bu bian de qian di xia zhao dao geng chang de kong wei pian duan ,jian shao cuo pei ge shu ,zai jiang di jia yang xing SNPke neng xing de tong shi ,neng gou yu ce chu geng chang de InDelbian yi ,shi de DNAxu lie bi dui jie guo jiao hao de fu ge le InDelbian yi de shi ji qing kuang ,geng jia you li yu InDelbian yi de yu ce 。2.dui InDelji ji yu ce fang fa xian zhuang jin hang le zeng shu ,jie shao le gao tong liang ce xu yuan shi shu ju de zhi kong yu yu chu li fang fa 。zhen dui chang du xiao yu 50 bpde InDelyu ce wen ti zhan kai yan jiu ,di chu le yi chong ji yu ca fen dou pian duan (split read)de InDelyu ce yu fen xi fang fa (SRInDel)。gai suan fa shou xian hua ding ca fen dou pian duan zai can kao ji yin zu shang de bi dui mu biao ou yu ,zai li yong ji yu k-merduan xu lie de bi dui mu biao ou yu xiu zheng suan fa jin yi bu su xiao can kao ji yin zu can yu bi dui de ou yu chang du ,shi de xu lie bi dui jie guo zhong geng rong yi chu xian cha ru bian yi 。xu lie bi dui guo cheng shi shi yong ben wen di 2zhang di chu de DNAshuang xu lie quan ju bi dui gai jin suan fa (DNA-NW)shi xian de ,gen ju bi dui jie guo ke yi you xiao yu ce chu InDelbian yi de lei xing 、chang du he duan dian wei zhi 。zhen dui jun ju wu xu lie zhong ke neng chu xian de ce xu cuo wu wen ti ,di chu le InDelyu ce jie guo de xiu zheng fang fa ,she ji le bian ma ou InDelji yi ma tu bian de yu ce fang fa ,hai di chu le InDelchun ge xing he za ge xing de pan bie fang fa 。ci wai ,zhen dui duan chuan lian chong fu xu lie de yu ce wen ti ,di chu le yi chong ji yu k-merduan xu lie de yu ce fang fa (kmer-STR)。yu chang yong de duan chuan lian chong fu yu ce suan fa SSRITxiang bi ,kmer-STRsuan fa zai bao zheng jie guo zheng que xing de qian di xia ,xian zhe di gao le suan fa de zhi hang xiao lv ,bing neng kuo yong yu da gui mo ji yin xu lie zhong duan chuan lian chong fu de yu ce guo cheng 。3.jie shao le jie gou bian yi de zhu yao lei xing ji ji yu ce fang fa de fa zhan ;zhen dui 50bpyi shang de jie gou bian yi yu ce wen ti zhan kai yan jiu ,chong dian yan jiu cha ru bian yi 、que shi bian yi 、dao wei bian yi 、ran se ti nei yi wei he ran se ti jian yi wei deng lei xing de jie gou bian yi te zheng ,di chu le yi chong ji yu bu yi zhi dou pian duan dui he split readde jie gou bian yi yu ce fang fa SVDS。gai yu ce fang fa neng gou yu ce cha ru bian yi 、que shi bian yi 、dao wei bian yi 、ran se ti nei yi wei he ran se ti jian yi wei wu chong zhu yao de jie gou bian yi lei xing 。gai jie gou bian yi yu ce suan fa de yi ge xian zhe te dian shi zai xu lie bi dui shi bao liu mei tiao paired-end readde duo ge ke neng de bi dui jie guo ,cong er zeng jia jie gou bian yi yu ce de min gan du 。tong shi ,ji suan mei ge hou shua jie gou bian yi de fa sheng gai lv ,bing li yong ji ge fu gai wen ti guo lv hou shua jie guo zhong de jia yang xing jie gou bian yi ,cong er shi suan fa zai min gan du he jing que du liang ge fang mian dou huo de le jiao da de di sheng 。4.zhen dui chang du zai lkbyi shang de kao bei shu bian yi yu ce wen ti ,ben wen di chu le yi chong ji yu yin ma er ke fu mo xing de kao bei shu bian yi yu ce suan fa (CNV-HMM)。wei le di gao yu ce jie guo de jing que du ,ben wen fen bie dui readshen du xin hao de tong ji he gai lv jian mo wen ti 、ce xu shu ju de GCpian hao xing ji ji jiao zheng 、bi dui lv ji ji dui readshen du de ying xiang deng fang mian jin hang le yan jiu ,bing di chu xiang ying de jie jue fang fa 。wei le jin yi bu di gao kao bei shu bian yi yu ce jie guo de min gan du he jing que du ,CNV-HMMsuan fa hai shi yong le ji yu split readde jie guo you hua fang fa ,bu jin neng gou guo lv bu fen jia yang xing kao bei shu bian yi ,hai neng gou tong guo ge bing xiang tong de bian yi cong er de dao geng chang de kao bei shu bian yi yu ce jie guo 。

论文参考文献

论文详细介绍

论文作者分别是来自山东大学的杨海,发表于刊物山东大学2019-07-16论文,是一篇关于高通量测序论文,双序列比对论文,结构变异论文,拷贝数变异论文,山东大学2019-07-16论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自山东大学2019-07-16论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。

标签:;  ;  ;  ;  ;  

杨海:基因组结构变异预测算法研究论文
下载Doc文档

猜你喜欢