论文摘要
数据挖掘技术是信息技术发展到一定阶段的新兴技术,它的目的是从大量的实际应用数据中,提取隐含在其中的有用的信息和知识。分类作为数据挖掘领域内最为常见的技术之一,成为了众多学者研究的课题。决策树方法是分类技术的重要内容。尽管存在着多种不同的决策树算法,但这些算法还存在一些问题:如算法的效率,决策树的稳定性,可伸缩性问题等等。因此对决策树算法还需要做进一步的优化和改进,以更好的应用于实际的工程问题。本文重点是对决策树算法的研究,提出了一种新粗糙决策树方法。此外,根据我国证券业的特点,设计了一种证券业CRM的系统模型。本文的主要工作有:1、系统阐述了分类的过程,并对主流分类技术以及分类方法评价标准做了详细的介绍。2、研究经典决策树算法ID3和C4.5,针对实例进行分析,给出了两种算法特点对比。3、根据客户数据的特点,针对具体的客户数据样本,利用决策树算法、Naivebayes以及RBFNetwork算法分别对其进行分类,对不同分类算法分类性能进行了分析,总结了选择决策树方法与粗糙集方法相结合的原因。4、研究粗糙集理论中属性重要性的理论,结合传统C4.5算法通过信息增益率对属性进行选择的方式,采用属性重要性的概念替换信息增益率对决策树节点进行选择,提出了一种新的粗糙决策树方法。5、详细描述了CRM的几种定义与特点,根据我国证券业的特点设计了一种符合我国国情的证券业CRM系统模型,并设计了一个客户分类的星型数据仓库模型。将新的粗糙决策树方法应用于证券业CRM中对客户的分类。实例证明,利用粗糙决策树对证券客户进行分类能取得很好的效果。此外,对证券业CRM中数据挖掘技术的应用提出了几点建议。