论文摘要
近几十年来,数据库技术和海量存储器等硬件的快速发展使得人们收集数据的能力得到进一步的提高。面对信息时代海量数据的出现,如何有效地利用大量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展。目前,数据挖掘已经成为一个研究热点,数据挖掘所得到的知识能够为决策支持提供依据。Ⅱ型糖尿病患病率在全球范围内呈上升趋势,其隐匿起病、患病率随年龄增大而增加等特点表明这一疾病发展为渐进型疾病。针对这一疾病发生发展的规律,本文尝试用数据挖掘算法来发现规律,将数据挖掘算法引入Ⅱ型糖尿病的发病规律研究中,希望从大量的数据中学习Ⅱ型糖尿病的发病规律,挖掘出需要的数据和规则,构造糖尿病的分类和预侧系统。本文的原始数据来源于对患者的临床检验报告。临床检验报告的内容经过适当的转换存入数据库中作为原始数据。针对这些数据的不完整性、有噪声性和不一致性,本文用数据清理、数据变换、数据归约等数据挖掘的预处理技术处理这些原始数据。本文数据挖掘的任务是从众多的糖尿病数据中挖掘出致病规律,为糖尿病的预防,诊断和预测构造决策系统。由挖掘任务的分类性和对挖掘算法的要求,本文选用了决策树方法来进行数据挖掘。同时,由于糖尿病数据的连续性,选用了决策树方法中的C4.5算法作为数据挖掘算法。在实现C4.5算法的基础上,本文在糖尿病数据上进行了发病规律的学习和规则提取,在预处理过的数据的基础上生成了一组糖尿病的诊断与预测规则。并用分类法的保持评判方法评判其正确率。针对上述决策树对患病人群的正确率不够理想的情况,提出了以训练集的比例因子变量为参数,试验了患病人群的正确率和正确率均值随比例因子变量的变化关系给出了一个经过改进的分类器和判定患病人群的解决方案。