论文摘要
基因芯片含有寡核苷酸探针或者cDNA探针,用来在一次实验中同时测量成千上万个基因的表达水平。基因表达模式分析系统(GEPS:the Gene ExpressionPattern Scanner)是一个在线的交互式基因芯片数据分析平台,可对基因表达谱进行相关性分析,相似性分析和特异表达分析。这些分析模式是利用空间几何,相关性分析的方法,系统地、全局地鉴定的,并且有图形化和量化显示。用户可以设置分析时的阀值。另外,为了更好地理解基因表达模式,我们从两个基因芯片数据库GEO和GNF下载了329205个非冗余的基因表达纪录,并提供给用户作为参考。GEPS的网址是:http://bioinf.xmu.edu.cn/software/geps/geps.php.在GEPS的基础之上,我们构建了组织特异表达数据库(TSED:Tissue-SpecificExpression Database)。TSED收集了4个公共基因芯片数据集,包含113个人类和小鼠的组织和3455个组织特异表达基因。TSED允许用户根据基因或者组织查询。TSED的网址是:http://bioinf.xmu.edu.cn/databases/TSED/search.php.基因芯片另外一个重要应用是鉴定差异表达基因或者生物标识。差异表达基因常常是通过统计学方法来鉴定的,主要包括:倍数方法,t检验,F检验,SAM,规则t检验等。这些方法都有一定的局限,或者是假阳性率太高或者代表差异表达程度的变量不合适。我们提出了改进F检验和改进t检验,其原理是标准的F值和t值乘上它们各自的变异系数。用两组真实的芯片数据集进行测试,通过散点图分析和随机置换的方法评估假阳性率和假发现率,改进F检验和改进t检验具有一定的优良性能。将得到的差异表达基因按照生理功能分类,显示了一定的相关性和合理性。