论文摘要
数据挖掘(Data Mining, DM)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和计算机科学领域研究中最活跃的前沿领域。由于传统的数据挖掘技术是基于单一关系基础之上的,不能完全满足现实中数据复杂情况下的应用,本文提出了多关系数据挖掘技术。当前,纳税评估已经成为我国税收管理工作的一个重要组成部分。随着计算机技术及网络的应用,我国税务系统在信息化建设中,相继实现了省级以上的数据集中模式,初步形成了多个应用系统共享一个网络的格局。这些系统的运行又产生了大量业务数据,如何将这些数据进行整合、分析和挖掘,以支持目前和今后税收的科学管理与决策,成为目前税务信息化的重要工作。采用传统的技术手段建立的纳税评估信息系统存在诸多问题,而使用多关系数据挖掘的方法能有效的解决这些问题。本文通过研究多关系数据挖掘的过程模型和方法模型,分析目前纳税评估系统的应用及现状,以纳税评估系统中评估指标能由计算机系统自动建立和维护从而使得评估对象的产生具有一定的科学性和公证性为目标,选择了适用的多关系数据挖掘方法一一分类方法。在研究了分类方法的多种算法后,结合税务数据和纳税指标的实际,确定了运用多关系决策树算法中的快速可伸缩(Supervised Learning In Quest)算法,但由于该算法无法直接利用数据库管理系统(Database–Management System, DBMS)中的数据,并且构建决策树过程中计算量过大,进而选择并使用了其改进算法QLIQ算法来进行实现。最后,根据数据挖掘的过程模型,借助于当前广泛使用的大型关系数据库系统——SQL Server所提供的Analysis Manager,设计了基于QLIQ算法的纳税评估对象筛选系统,实现了纳税评估指标的自动建立和维护以及评估对象产生的科学性和公正性。实验表明,该算法能有效地解决以往纳税评估系统中存在的诸如指标选择难并且需要手工设置以及评估对象的产生缺乏科学依据等问题,满足业务需要,而且高效、易于实现。随后在论文的末尾又简要介绍了纳税评估完成后对结果进行反馈的子系统。