复杂化学数据的知识发现新型化学计量学算法研究

论文题目: 复杂化学数据的知识发现新型化学计量学算法研究

论文类型: 博士论文

论文专业: 应用化学

作者: 纳赛尔,阿里,穆罕默德,巴拉卡特

导师: 俞汝勤,徐伟箭

关键词: 泡泡凝聚,聚类分析,多边形显示,两维可视化,非线性聚类,多产算子,逐步准线性建模,数据分割,校正

文献来源: 湖南大学

发表年度: 2005

论文摘要: 化学计量学的发展表明了化学和分析化学进入了信息时代。分析化学和化学技术中需要的是改进的定量信息，这就需要将化学量测转化成有意义的结果，例如，从所得的数据中提取有用的信息。通常地，从多元数据阵中提取有意义的结果意味着探测数据的自然聚类和异常点，然后寻找适当的聚类办法或设计一个代表数据集的校正模型。然而，这些目标并不容易实现，特别是当我们处理从先进的化学仪器或化工厂获得的复杂多变量数据集时。本论文提出了五种新的化学计量学算法，提高了对复杂多变量化学数据集的信息挖掘能力。第一个算法适用于聚类分析领域，我们称它为泡泡凝聚(BA)。这个算法将每个数据点认作为一个半径为r的泡泡的球心。所有的泡泡大小相同，每组邻近的泡泡形成一个自然类或一个核心。算法逐渐增大泡泡的半径和邻近泡泡的数目。从而原先认为的类的核心逐渐减少。稀疏的数据点根据它们到不同核心的距离分布于不同的核心。最后通过可靠性曲线决定最优的泡泡半径。我们用了两套模拟数据集和三套实际数据集来验证此方法的性能。与K-均值方法的比较显示了BA方法令人满意的优良性能。毫无疑问，将多维数据集降维呈现在二维数据空间，不仅是检测自然聚类也是提取所有数据集内含信息的一个强大的工具。在本论文中提出的第〔盖inese abs介aCt二个算法是基于主成分分析(P cA)的新的多维数据显示方法。数据点可显示在两维空间中，并且同时不受只使用前两个主成分的约束。在这种方法中，所有含重要化学信息的主成分在可视化过程中都可充分利用。数据点通过(n+l)边规则多边形显示，n个主成分包含大多数的化学信息。所提出的方法应用到实际的化学数据集中;有一些数据集并不能用传统的PCA方法成功可视化。所得到的结果表明我们提出的方法能显示化学数据集，尤其是所提出的方法保持数据点之间内部相对距离比传统的PCA方法要好。本论文的第三个算法适用于分类方法;算法命名为多产遗传算法(MpGA)，可用来对重叠化学数据进行分类。所提出算法首先估计了一个线性判别函数。我们通过两个新提出算子改进后的遗传算法估计线性判别函数，即，多产、灭绝与定向生成。改进了的遗传算法改善了线性分类的结果，同时减少了计算时间。为了克服线性不可分的化学数据集常遇到的困难，优化的线性分类器通过补充非线性分类器进一步改善。补充的非线性的相应部分通过对线性分类错误的样品建立半超椭圆体实现。所提出的MPGA应用于对七组化学数据集进行分类。实验结果表明所提出的MPGA能对严重重叠的数据集进行正确分类。第四个算法改善了多元线性校正过程。这种方法称之为逐步准线性建模方法，当单个线性校正模型不能在允许的残差范围内描述整个数据集时，它将数据集分为几个线性的子集。此算法处理线性模型将寻找子集转化成数 VI尸〔傲inese absh.act据空间的超平面。改进的遗传算法通过给定的最大误差将数据集分成线性的子集。所提出的算法成功地将一个实际的QsAR数据集分成三个同类的线性子集，与单个线性模型相比，残差非常小。提出的第五个算法在将数据集分成子集的情况下辨别样品。当在限定的误差范围内单个线性模型不能成功地代表整个数据集时，此算法综合了将数据集分成几个线性的子集。提出了两种不同的分类方法通过使用相应的线性模型估计预测变量”少”，将新的样品归入正确的子集。每种方法的判别过程可通过比较用分割算法的原始线性模型对新样品”，所计算的变量”夕”与假设第一种方法用PcR或第二种方法用PLsR所得的”夕”之间的偏差实现。样品属于给出最小偏差的子集。除了两组模拟的数据集，此方法还用于两组实际的QSAR数据集。结果与传统的SIMCA聚类方法比较表明，每个提出的方法都能用于将新的样品归于用遗传算法分割数据集的子集，分类的准确度令人满意。此外，所提出的方法中的任何一种在不是用基于PLsR或PcR的别的方法进行数据集分割时也可使用。关键词:泡泡凝聚;聚类分析;多边形显示;两维可视化;非线性聚类;多产算子;逐步准线性建模;数据分割;校正 VII

论文目录:

English Abstract

Chinese Abstract

Acknowledgement

Table of Contents

List of Figures and Tables

Index of Abbreviations

Chapter one: Introduction

Chapter two: Literature review

2．1 Exploratory Data Analysis

2．1．1 Cluster Analysis

2．1．1．1 Hierarchical and optimization partitioning methods

2．1．1．2 Density-based methods

2．1．1．3 Fuzzy clustering

2．1．2 Multivariate Data Display

2．2 Multivariate Data Classification

2．3 Multivariate Calibration

Chapter three: Bubble Agglomeration Cluster Analysis

3．1 Introduction

3．2 Theory

3．3 Data sets

3．3．1 Simulated data set 1

3．3．2 Simulated data set 2

3．3．3 Chinese tea data set

3．3．4 Male-female data set

3．3．5 Iris flower data set

3．3．6 Coronary heart disease data

3．4 Results and discussion

Chapter four: Multivariate Data Display Using a Modified Polygon Version

4．1 Introduction

4．2 Theory

4．2．1 Elementary transformation for data processing

4．2．2 Display drawing

4．3 Data sets

4．3．1 Organic compounds with quantitative activity values

4．3．2 Iris flower data

4．3．3 Luminescent materials

4．3．4 Quantum chemical descriptor data

4．4 Results and discussion

Chapter five: Geometrical Bounding of Data Space and Nonlinear Classification of Chemical Data using MPGA algorithm

5．1 Introduction

5．2 Theory

5．2．1 Linear discriminant function

5．2．2 The genetic algorithm

5．2．2．1 Population initiation and generation

5．2．2．2 Population size

5．2．2．3 Standardized fitness and competition

5．2．2．4 Decimation and orientated creation

5．2．3 Space region bounding and complementary nonlinear discriminant proceeding

5．2．4 Classification of a new instance

5．3 Data sets

5．3．1 Datal: Simulated data

5．3．2 Data2: Organic compounds with quantitative activity values

5．3．3 Data3: Iris flower data

5．3．4 Data4: Toxicity of some organic compounds

5．3．5 Data5: Quantum chemical descriptor data

5．3．6 Data6: Luminescent materials data

5．3．7 Data7: Meridian Tyre data

5．4 Results and discussion

Chapter six: Piece-wise Quasi-linear Modeling in QSAR and Analytical Calibration Based on Linear Substructures Detected by Genetic Algorithm

6．1 Introduction

6．2 Theory

6．2．1 Mathematical formulation of the problem

6．2．2 Genetic algorithm

6．2．2．1 Representation of chromosome and initial population

6．2．2．2 Fitness and decimation operation

6．2．2．3 Multi-parturition

6．2．3 Algorithm implementation

6．3．Data sets

6．3．1 Alligator jaws

6．3．2 Alligator jaws with noise

6．3．3 Descriptors and retention indices of alkenes

6．4 Results and discussion

Chapter seven'． QSAR based on Linear Substructures: Discrimination of the membership for a new object

7．1 Introduction

7．2 Theory

7．2．1 The problem

7．2．2 The discrimination strategies

7．2．2．1 PCR discrimination strategy

7．2．2．2 PLSR discrimination strategy

7．3 Data sets

7．3．1 Simulated data

7．3．2 The vibration frequency data

7．3．3 Descriptors and retention indices of alkenes

7．4 Results and discussion

Conclusion

References

Publications from this thesis

发布时间: 2005-04-04

复杂化学数据的知识发现新型化学计量学算法研究

猜你喜欢