论文摘要
随着计算机技术和测量技术的不断进步,各种生物、化学数据正以空前的速度增长,大批的数据库也应运而生。如何从大量已知的数据和实验事实中抽提规律是广大生物、化学工作者所面临的重要课题。模式识别是数据信息采掘技术的主要方法之一,并已在工业、农业、国防、生物医学、气象、天文学等许多领域获得了广泛应用。本文利用模式识别方法分别对蛋白质序列和红外光谱进行了特征提取,并建立起相应的分类识别体系,取得了较好的结果,具体如下:蛋白质亚细胞位点预测是生物信息的基础与重要内容之一。本文首先在传统双肽替代模型的基础上,利用特征优选工具遗传算法-偏最小二乘法(GA-PLS)对线粒体蛋白、钾离子通道蛋白各双肽成分的重要性进行了评估,并从中优选了一些对蛋白质识别更为有效的特征双肽成分建立亚细胞预测模型。实验结果表明:并不是所有的双肽成分在蛋白质识别过程中都是有效的,某些双肽成分甚至是冗余的信息。由于该方法是一个在蛋白质序列基础上建立的统计方法,不需要知道蛋白质序列的生物信息,就可以对蛋白质序列进行分类识别。这将有助于解决当蛋白质实验数据缺乏的情况下,亚细胞位点的预测问题,对未知蛋白序列的注释提供信息;针对挑选出的特征双肽的进一步研究可能为生物实验过程提供参考,有助于进一步的药物设计研究中药物作用靶标的筛选,从而节省药物开发的时间与费用等。类似的,我们双肽替代模型的基础上利用电压门控钾离子通道的局部跨膜片段信息对其进行了分类识别,结果表明去除蛋白质序列中其他区域的冗余信息,利用表现蛋白质功能的特征区域,能够更好地来表征一条蛋白质,预测效果效果比基于蛋白质全序列的方法好。跨膜区的拓扑信息是膜蛋白二级结构预测的重要内容。本文从信号处理的角度出发,以钾离子通道蛋白为研究重点,使用对跨膜蛋白影响最为显著的疏水值,将蛋白质序列转换为数字序列,然后对其进行离散小波变换。利用小波变换的多尺度分辨率特性,分解原始疏水序列,并通过逐层重构其低频系数,较为准确的得到了钾离子通道蛋白跨膜螺旋区的数目和跨膜区起止位置。红外光谱是有机物结构鉴定的有效工具,但其吸收峰数目多,图形复杂,这给谱图解析带来了一定困难。本文利用小波的“多分辨率”特性对传统傅立叶光谱进行了一次探索性的改变:通过分解重构傅立叶光谱,初步考察了不同的小波家族在各分解尺度下,小波系数包含的官能团信息的差异;考虑到减少光谱特征维数的同时能尽可能多的保留官能团信息,我们认为相对于其他小波而言,dmey小波分解到第三层时,具有最好的结构信息表征能力,并以此构建了一个新型的红外-小波系数库(Fourier Transform Infrared Wavelet Coefficients Library, FTIR-WC)。库搜索与结构解析实验显示:同传统傅立叶变换红外光谱库相比,该系数库也能较好的完成库搜索的任务,同时由于体积较小,解析所花费的时间也随之减少。这也意味着利用小波系数来表达红外信息是有可能的,我们期望这能为后继研究奠定一定的基础,最终能形成与传统傅立叶变换红外光谱所不同的新体系,为红外光谱解析注入新的思想。