Detecting a Fraudulent Financial Statement and Reducing Internal Fraud, Using Data Mining Techniques

Detecting a Fraudulent Financial Statement and Reducing Internal Fraud, Using Data Mining Techniques

论文摘要

欺诈检测在许多行业是比较实用的研究对象,例如银行、金融领域、保险、政府机关和执法部门等等。最近几年欺诈事件急剧增加,使欺诈检测比以往更加重要。尽管在受影响的一些机构做了很多这方面努力,但每年因欺诈损失数以亿计。尤其是虚假财务报表,不仅对个人投资者,也对全球经济的整体稳定性带来不利影响。虽然在定义方面稍有差异,但欺诈财务报表是由注册欺诈协会定义,注册欺诈“蓄意,刻意,虚假陈述或遗漏事实,以及会计数据引起的误导,当所有这些信息符合,会造成读者改变或更改他(她)的判断或决定。”在实际情况中,欺诈财务报表包含:(1)财务记录篡改(2)故意遗漏大事、交易、账目和财政报表中需要准备的其他重要信息,或滥用会计原则、政策,以及滥用用于测量、确认、报告的程序,以及泄露商业交易。这篇论文中使用数据挖掘技术帮助确认欺诈性财政报表,以及使用决策树、神经网络和贝叶斯信念网络减少内部欺诈。这些技术是有利的,尤其是当有新的欺诈财政报表方法适应这些检测技术。“用不同的模型使用相同数据样本对这三种技术进行了比较,结果显示BBN技术优于其他两种模式,而能达到更好的分类精度。”本文也探讨了一种涉及多领域知识的自适应框架(基于响应曲面模型),来检测欺诈财务报表以及如何减少内部欺诈。最后,即本文建议,在如今财政欺诈发展的时代,在一些专业领域知识,计算机辅助自动欺诈检测机制将会非常有效和高效。三种模型分别基于不同的方法建立。首先,决策树模型是利用Sipina调查版软件建立的。该模型建立置信度水平为0.05。本文使用整个样本作为训练设置。该模型是以训练样本为测试并设法恰当地分成73例(一般性能达到96%)。更确切地说,决策树分类为所有非欺诈例和35t38欺诈例(92%)。算法使用变量Z分数作为第一个分析法。35/38欺诈企业提出一个相当低的Z分数值(Z分数<1.49)。因为Altman认为Z分数值1.81作为一个切断点来规定美国生产公司的财政危机(Altman,2001),可以推断出样本中财政危机的公司包含试图篡改财政报表。作为第二个水平分析法,使用了两个与盈利有关的变量(NPTA和EBIT)。高Z分数的非欺诈企业表明具有高盈利能力,而低Z分数的欺诈企业表明具有低盈利能力。在第二个实验中,我们构建了神经网络模型,使用分类软件中商标注册为7的非线性网络来构建一个多层感知前馈网络。在测试一些替代性设计和执行初步训练后,选择了一个包含5个隐藏节点的隐藏层的拓扑。当使用全部的样本对所选择的网络进行测试,这个网络能100%地成功分类这些实例。但是,软件没有对突触权重的连接提供透明的接口,因此我们不能对每一个输入变量的重要性进行评估。在第三个试验中,我们开发贝叶斯信任度网络。我们使用BN Power Predictor软件。这个软件能从数据中获得分类器。这个能执行的算法是基于条件无关的测试的,并且不需要结点的排序(Cheng&Greiner,2001)。由于软件的限制,我们使用数值离散化办法。在测试不同的离散方法(相等的深度,相等的宽度)后,我们选择被监管的离散方法。与其他的离散方法不同,基于熵的被监管离散方法利用了类的信息。这样就使得被定义的间隔信息可以帮助提高分类的准确率(Han&Camber,2000)。对贝叶斯信任度网络里进行测试,我们把全部的样本作为训练集,这个网络能分来72个实例(达到了95%的正确率)。特别的是,该网络能正确分出37个伪实例(97%)与35个非伪实例(92%)。这个贝叶斯信任度网络能用于更加广泛的方面,例如针对财务报表的篡改。在网络中,网络骗子强烈依赖输入的变量Z-SCORE, DEBTEQ, NPTA, SALTA and WCTA。上述的每一个变量表现公司经济数据的一个方面。Z-SCORE(?)旨的是财政窘迫,DEBTEQ指的是影响,NPTA(?)(?)利润,SALTA(?)(?)销售情况,WCTA指解决办法。因此这个信任度网络能记录金融数据与篡改数据之间的依赖关系,能记录一个公司的巨大金融状况的数据。这个结果指出了NN模型能有效识别FFS公司与non-FFS公司,仅次于BBN与ID3模型。使用训练集来评估模型的性能会有倾向性的问题。在很多情况下,这个模型倾向于去记忆样本而不是学习。为了消除这样的一个倾向问题,评估上述模型的性能要相对于之前未被发现的样式。现在有一些方法用于模型的认证,相当于把样本切分成训练的与单独拿出的,每10个折叠的进行认证就有一个要拿出的。虽然我们使用的3个软件包有认证能力,但是不可能做到跟踪一个常见的认证程序而不是3个软件包的方法学与数据。因此,我们只好周期性地拆分样本,创建训练集与验证集。我们选择跟踪10次折叠的交错验证方法。在10次折叠的交叉核实中,样本分割成10次折叠。在一个分层的方法里,每个折叠包含了相同数量的伪实例与非伪实例。模型保留9个折叠,通过使用要被拿出的折叠进行测试。最后,计算出平均性能。正如所期待的,验证集的争取率要低于训练集。然而这三个模型的性能差别很大。决策树在训练的正确分类的概率为96%,在验证样本的分类准确率大大低于它。在所有的样本中,这个模型正确分类73.6%,75%的伪实例与72.5%的非伪实例。在训练集上有100%性能的神经网络模型,能正确分类80%的验证集,82.5%的伪实例与77.5%的非伪实例。最后,贝叶斯信任度网络模型在训练集上有较低的精确度,正确分类91.7%的伪实例,88.9%的非伪实例与90.3%的验证集。在一个对模型性能的对比评估中,我们得到这样的结论,贝叶斯信任度网络要胜过另外两个模型,并有突出的分类的精确度。神经网络达到一个令人满意的高性能。最后,决策树的性能是非常低的。在评估一个模型的性能的时候,另外一个重要的考虑因素是类型Ⅰ与类型Ⅱ的错误率。类型Ⅰ的错误是一个骗子公司被认为是可信的。类型Ⅱ的错误时一个非骗子公司被认为是骗子。类型Ⅰ与类型Ⅱ错误有不同的开销。分类一个骗子公司与可信公司的过程中,会导致错误的决定,就会造成严重的经济损失。把一个可信公司错误的分类会在时间开销上造成额外的侦查。虽然每个模型都希望减少类型Ⅰ与类型Ⅱ的错误率,但是某一个模型都会倾向于更大程度上减少某一种类型错误率。在我们验中,所有的模型都专注更低的类型Ⅰ错误率。神经网络在vhulv两种类型的错误率的程度上有最大的区别。

论文目录

  • ABSTRACT
  • 摘要
  • APPRECIATION
  • DEDICATION
  • List of Figure
  • List of Tables
  • CHAPTER ONE:WHAT IS FRAUD AND A FRAUDULENTFINANCIAL STATEMENT
  • 1.1 INTRODUCTION
  • 1.2 What is a Fraudulent Financial Statement
  • 1.3 Factors that lead to fraud
  • CHAPTER TWO:THE IMPACT OF FRAUDULENT FINANCIALSTATEMENT
  • 2.1 Literature Review
  • 2.2 THE IMPACT OF FRAUD ON THE US
  • CHAPTER THREE:PRIOR RESEARCH AND METHODOLOGY
  • 3.1 Prior research
  • 3.2 Research Methodology
  • 3.3 USING AVAILABLE DATA
  • S TO DETECT FRAUDULENTFINANCIAL STATEMENTS.
  • 3.4 Data
  • 3.5 Variables
  • 3.6 Methods
  • 3.7 Decision Tree
  • 3.8 Neural Network
  • 3.9 Bayesian Belief Network (BNN)
  • 3.10 USING A SELF ADAPTIVE FRAMEWORK (BASED ON ARESPONSE SURFACE MODEL) WITH DOMAIN KNOWLEDGETO DETECT FRAUDULENT FINANCIAL STATEMENTS
  • 3.11 Limitations of current detection techniques
  • 3.12 Adaptive FFS detection frame work and methodologies
  • CHAPTER FOUR
  • 4.1 Experiments and Result analysis
  • 4.2 The model's validation
  • CHAPTER FIVE
  • CONCLUSION
  • REFERENCES
  • 相关论文文献

    • [1].基于贝叶斯网络的交通拥堵实时预测[J]. 冶金管理 2019(21)
    • [2].贝叶斯网络在水利工程中的应用[J]. 东北水利水电 2020(04)
    • [3].基于贝叶斯网络的静态话题追踪模型[J]. 数据分析与知识发现 2020(Z1)
    • [4].一种新型动态贝叶斯网络分析方法[J]. 中国机械工程 2020(12)
    • [5].组合数据下贝叶斯网络构建算法研究[J]. 电子技术与软件工程 2020(09)
    • [6].基于贝叶斯网络的交通事故致因路径分析[J]. 智能城市 2020(17)
    • [7].基于贝叶斯网络的虚拟学习模块[J]. 计算机技术与发展 2020(08)
    • [8].有限总体中总体数量的贝叶斯预测(英文)[J]. 数学杂志 2018(05)
    • [9].贝叶斯网络在入侵检测中的应用[J]. 中国新通信 2017(09)
    • [10].基于贝叶斯网络的设备故障诊断方法研究[J]. 中国标准化 2017(14)
    • [11].基于贝叶斯网络的停车场主动引导算法研究[J]. 农机使用与维修 2017(10)
    • [12].基于分层动态贝叶斯网络的武器协同运用[J]. 舰船电子工程 2015(12)
    • [13].贝叶斯因果图的构建与应用[J]. 统计与决策 2016(07)
    • [14].基于信息融合的贝叶斯网络毁伤评估方法[J]. 四川兵工学报 2015(04)
    • [15].基于贝叶斯网络的地铁施工风险管理分析[J]. 四川建材 2015(03)
    • [16].贝叶斯网络和聚类分析在肾虚证中的比较研究[J]. 时珍国医国药 2015(06)
    • [17].基于贝叶斯网络的装甲目标战术企图推理模型构建[J]. 火力与指挥控制 2015(07)
    • [18].贝叶斯网络的构建过程[J]. 智富时代 2018(07)
    • [19].贝叶斯身世之谜——写在贝叶斯定理发表250周年之际[J]. 统计研究 2013(12)
    • [20].贝叶斯网络在中医药理论研究的现状及与超分子化学联合应用前景[J]. 湖南中医药大学学报 2019(11)
    • [21].基于贝叶斯优化的心脏病诊断模型[J]. 吕梁学院学报 2020(02)
    • [22].基于贝叶斯网络的大学学情分析研究[J]. 学校党建与思想教育 2020(09)
    • [23].基于贝叶斯粒子群算法的控制权重矩阵优化[J]. 机械制造与自动化 2020(03)
    • [24].基于树形贝叶斯网络的配电网快速灾情推断[J]. 电网技术 2020(06)
    • [25].基于自助法的高斯贝叶斯网结构学习[J]. 长春工业大学学报 2020(04)
    • [26].基于分布式贝叶斯网络的多故障诊断方法研究[J]. 现代电子技术 2017(01)
    • [27].一种基于贝叶斯网络的桥式起重机故障诊断方法[J]. 起重运输机械 2017(04)
    • [28].基于贝叶斯网络的海洋工程装备故障诊断模型[J]. 科技与企业 2016(06)
    • [29].基于云参数贝叶斯网络的威胁评估方法[J]. 计算机技术与发展 2016(06)
    • [30].基于分治策略的贝叶斯网学习方法及在图像分割中的应用[J]. 网络空间安全 2016(05)
    Detecting a Fraudulent Financial Statement and Reducing Internal Fraud, Using Data Mining Techniques
    下载Doc文档

    猜你喜欢