论文摘要
信息技术的日新月异,使得数据的大规模增长,如何充分利用这些海量数据进行分析处理,挖掘并析取其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。数据挖掘技术为人们提供了强大的武器。聚类分析是数据挖掘研究的一个重要内容之一,基于聚类的各种数据挖掘算法的研究历来也是研究重点,并且对聚类的各种数据挖掘算法应用也非常广泛。但是,目前大多数的聚类分析算法的数据对象只是针对于静态数据集,对于动态数据集却只能采取对整个数据集重新进行聚类的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,这样处理的结果是效率低下而且重复性高。现实股票市场中存在着许多不确定因素,这些不确定因素使股票交易者很难对股票价格做出准确、客观的预测。本文的数据对象是采用来自互联网的1990年3月27日到2005年3月27日每日恒生指数的数据,数据格式采用国际上通常讲的股票历史数据格式,即是每一“交易日”为一条数据记录单元。通过随机选取的一个股票对象的属性进行对整个恒生指数的概述,其中每个属性都经过了数值化变换。要得到的聚类结果为:股市走势类别分组聚类。这个问题可以转换成股票走势特征极大化。基于聚类的下降迭代增量式数据挖掘继承了已有聚类的执行成果,通过对新增数据的考查,迭代求取最佳可能值,根据实例数据对象特征以及本文提出挖掘算法的聚类特点,在实际实验结果的验证下,可以得出本文课题是可行和有效的。同时本课题提出的算法可在很大程度上避免大量的重复计算,减少了计算量,节省了系统开支,提高了效率,尤其数据量越大时,下降迭代增量式的数据挖掘技术就越能体现出其优越性,也更能为有数据挖掘需求的用户提供及时、快捷、有价值的信息内容。股票的趋势是一个受政治局势、灾害、军事局势、企业经营、股票历史数据等多方面因素影响的非线性问题,本课题基于股票市场产生的大量数据,利用基于聚类的下降迭代增量式的数据挖掘技术对股票趋势进行预测。模拟结果再现了股票市场尖峰肥尾,弱自相关性,波动聚集性以及多重分形性等特征,并与恒生指数实际数据进行了比较。