化学专利中普遍应用的Markush结构是由一个新颖的母体基团和可变取代基组成,由于可变取代基的复杂性使得Markush结构的检索和匹配成为化学信息学领域的一个难题。本论文在深入研究了现有Markush结构处理方案和本课题组已有研究成果的基础上,提出了一个处理Markush结构的两阶段方案。首先进行筛选,将Markush结构中相对稳定的环和环之间的连接片断提取出来构成族性结构的骨架(Scaffold),考虑到有显式的确定环(如苯环)和隐式的族性环(如可被取代的芳环),为了增加筛选的效率,根据统计分析的结果将出现频率最高的确定环用一系列代码标识,其余的环结构则统一族性化处理成脂肪环,芳香环和含有部分芳环的脂肪环,根据是否含有杂原子可进一步加以区分。利用SMILES扩展算法程序对环和非环原子,特别是对芳香环原子的识别算法,实现了结陶式的程序分析,删除环上的连接片断,保留了环和环之间的连接片断,利用程序自动生成了Markush结构的骨架。第二阶段是在每一个骨架结构上添加非环的可变取代基,提取其中的官能团信息加以分析归类,作为环的属性描述。用面向对象程序设计方法(OOP)实现了骨架编码方案的一系列算法,用Java语言完成了能够运行于网页的Applet程序StruDraw,对提问结构式能够实现结构的分析,对于检索用户起向导作用。由于骨架环处理方案将环抽象成图的顶点,环之间的连接片断抽象成图的边,环上的连接片断则对应于图的权重,在匹配阶段避免了复杂耗时的回溯算法,并且有骨架环的生成由程序实现,适用于药物专利标引,建立供检索的药物专利数据库。本论文基于Windows2000+IIS5.0平台设计并实现了药物专利Markush结构分析和检索测试系统。
本文来源: https://www.lw50.cn/article/05e56c2523af8081b63fe586.html