论文摘要
医院采集的原始数据逐年增多,大量的病人的基本信息和各种病例等原始数据都被存储了下来,这些激增的数据背后潜藏了大量有用的知识。如何抽取、挖掘出这些知识是当前的研究热点问题。数据挖掘作为一种有效的信息抽取方法和知识发现的手段,从医学数据库中提取有用信息,对这些数据的分析和评估,可以发现一些潜在隐藏的数据模式,并提供科学医疗判断和治疗,从而帮助人们提高对生育的认识,并增强对其现代生育的研究和管理。近几年来,上海市卫生局在全国率先建立了新生儿的出生状况数据库,对这些新生儿数据进行统计挖掘将对合理分配卫生设施和资源、预防新生儿疾病提供很大帮助。本课题以上海市新生儿数据为例,进行了数据挖掘技术在新生儿数据分析中的应用研究,通过对影响新生儿出生的各方面因素的分析,为优生优育提供了量化的依据,方便决策人员了解上海市各区县的新生儿出生状况,并做出正确决策,为专家进行诊断提供参考。首先,课题介绍了新生儿数据预处理的方法,通过数据清洗、数据转换、维数消减等数据预处理,对遗漏数据、噪声数据、不一致数据等进行了有效处理。数据预处理提高了数据的质量,提高了数据挖掘所获知识的质量。然后,介绍了关联规则的挖掘算法,重点研究了经典的关联规则挖掘算法Aprior算法,提出了Aprior算法的优缺点,针对Aprior算法需要多次扫描数据库和产生大量频繁项集的缺点。提出了基于划分的Aprior改进算法,并对新生儿数据进行了关联规则分析。最后,设计了基于Web的新生儿可视化数据挖掘分析系统,该系统较多的考虑了用户与系统中的交互性,运用了Flex技术提供的丰富的互动式图表,非常直观有效的展示了数据分析结果,并对系统涉及到的每一个步骤进行描述与实现。对上海市各医院存储的大量新生儿原始数据进行了分析,得到了上海市新生儿出生状况的一些潜在规律,方便了决策人员实时监测上海市各区县的新生儿出生状况及趋势,具有一定的现实意义。