论文题目: 数据挖掘中的分类方法及其在质谱数据中的应用
论文类型: 博士论文
论文专业: 概率论与数理统计
作者: 贺平
导师: 方开泰,朱允民
关键词: 分类树,化学计量学,切片逆回归法,数据挖掘,质谱分类,助推法
文献来源: 四川大学
发表年度: 2005
论文摘要: 数据挖掘在化学中的一个重要的应用是从数据库中提取有用的信息,从而根据化合物相应的分子结构,拓扑指数或者化学指纹图谱对化合物进行分类和识别。随着化学测量技术和现代信息技术的发展,越来越多的包含大量化合物和化学信息的大型数据库被建立,例如:质谱数据库,色谱数据库或者基于分子结构和其他性质的数据库。如何发现隐藏在这些大型数据库中的知识是一个巨大的挑战。 质谱仪是一种用来对化合物进行鉴别和特征化的仪器技术,它产生了大量的有助于化学结构解析的数据。根据质谱鉴别化合物和识别化学结构性质一直都是化学计量学中一项重要的工作。本文首先对多元统计分析,人工智能和现代数据挖掘中的各种分类方法进行了深入的讨论,其中一些方法已被用于基于质谱数据的化学结构和性质的智能识别。但是,仍然有很多的化学结构或子结构不能被现有分类器有效的识别。从而寻找更好更适合质谱数据的方法仍然是化学计量学中一个重要的工作。 在这篇论文里,我们提出了将分类树和逆切片回归法(SIR)结合的新方法,并将这种方法用于质谱数据的分类问题。分类树是数据挖掘中最常用的一种分类工具,它在自动选择变量和体现交互作用方面具有强大的功能。分类树已经被广泛的用于质谱数据的分类。但如果输入变量是以某种线性组合的方式起作用,决策树往往会因为无法体现这种方式导致模型的复杂化和准确性的降低。逆切片回归法正是一种在高维数据中找出有用的变量的线性组合来回归响应变量的方法。所以有效的结合这两种方法可以继承它们的优点,使树结构也可体现变量间的线性组合关系。实验表明这种方法的确提高了决策树分类的准确性,而且与一些经典的分类方法相比,它可以得到更好试验结果。 助推法(boosting)是近代分类方法中的一个重要发展,它已经被成功的用于很多领域,但是在化学计量学中,几乎没有任何的应用。在这篇论文里,我
论文目录:
第一章 绪论
§1.1 数据挖掘
§1.2 质谱数据挖掘
§1.3 质谱数据分类
第二章 质谱数据
§2.1 质谱及其特性
§2.2 质谱特征
§2.3 数据格式
第三章 分类方法
§3.1 维数的降低
§3.1.1 变量选择
§3.1.2 主成分分析法和偏最小二乘法
§3.2 统计决策理论
§3.3 线性分类方法
§3.4 非线性分类方法
§3.4.1 K最近领域法
§3.4.2 决策树
§3.4.3 神经网络
§3.4.4 支撑向量机
§3.5 总结
第四章 逆切片回归法与分类树的结合
§4.1 逆切片回归法的思想与算法
§4.2 分类树与逆切片回归法的结合
§4.3 实验
§4.4 讨论与总结
第五章 助推法(boosting)在化学计量学和质谱分析中的应用
§5.1 助推法
§5.1.1 助推法的算法和基本思想
§5.1.2 神经网络助推法和分类树助推法
§5.2 助推法模型的解释
§5.2.1 预测变量的相对重要性
§5.2.2 偏相关图
§5.3 实验
§5.3.1 实验1
§5.3.2 实验2
§5.3.3 实验3
§5.3.4 实验4
第六章 一种推广的助推算法以及它在化学二元分类问题中的应用
§6.1 算法理论
§6.1.1 贝叶斯最优决策律
§6.1.2 G-boosting中分类器的修正权
§6.1.3 两种权的比较
§6.1.4 G-boosting中训练样本的修正权
§6.1.5 G-boosting的算法
§6.2 实验
§6.3 总结
第七章 将来的工作和总结
§7.1 质谱数据的多类学习问题
§7.1.1 多类质谱数据
§7.1.2 多类分类方法
§7.1.3 试验结果及讨论
§7.2 质谱分类中的其它问题
参考文献
科研成果简介
声明
致谢
发布时间: 2005-10-08
相关论文
- [1].分类数据挖掘中若干基本问题的研究[D]. 李仁璞.天津大学2003
- [2].数据挖掘算法分析及其并行模式研究[D]. 佘春东.电子科技大学2004
- [3].数据库中数据挖掘理论方法及应用研究[D]. 罗可.湖南大学2005
- [4].基于数据挖掘的银行客户分析管理关键技术研究[D]. 赵基.浙江大学2005
- [5].基于粗糙集的数据挖掘算法研究[D]. 刘文军.北京师范大学2004
- [6].面向数据挖掘的分类器集成研究[D]. 陈海霞.吉林大学2006