异构数据分析研究及在社保审计中的应用

异构数据分析研究及在社保审计中的应用

论文摘要

社会保障关乎到广大人民群众的基本利益,对其进行相应的监督和审计是必不可少的。由于各地社保信息系统的不统一和多样化的特点,因此在社保审计中的数据导入时经常会遇到数据项和数据字典不一致的情况,通过计算机的自动分析而达到提取出不同的社保数据库中相同意义的数据项,成为审计机关待解决的问题。异构数据分析包括了综合运用了各种自然语言处理技术,涉及计算语言学、信息科学和人工智能等多门学科,是当计算机应用研究的热点之一。它主要包括语义分析,模式分析两种。本文选择其中的语义分析作为研究的方向。本文结合社会保险基本养老联网审计系统(N-SAS)项目,设计出一种通过基于社保审计专业知网和社保审计专业分词字典的异构数据语义分析系统,同时围绕异构社保数据分析系统实现过程中的专业知识库的构建,对社保专业知识的收集和组织,以及社保审计字段的理解,相似数据项的查找及基于社保审计专业知网的词义消岐等关键核心技术进行了一系列的研究和探讨,最后介绍了整个异构数据分析系统的实现和试验结果,及结果评价。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景及意义
  • 1.2 相关领域的研究现状
  • 1.3 主要研究内容
  • 1.4 本文的组织安排
  • 第2章 异构数据分析技术概述
  • 2.1 句子相似度的定义与特点
  • 2.2 中文分词技术
  • 2.2.1 中文自动分词方法
  • 2.2.2 中文分词中歧义处理和未登录词识别
  • 2.3 知网介绍
  • 2.3.1 知网系统的结构
  • 2.3.2 知网中的语义关系
  • 2.4 语义消歧
  • 2.5 句子相似度计算
  • 2.5.1 句子相似度计算的分类
  • 2.5.2 语义相似度的计算方法
  • 2.6 本章小结
  • 第3章 社保审计数据分析中关键技术的研究
  • 3.1 社保审计数据分析系统总体设计
  • 3.2 中文分词模块
  • 3.3 社保审计字段的理解
  • 3.3.1 字段项的结构分析
  • 3.3.2 关键词提取
  • 3.3.3 同义词扩展
  • 3.3.4 快速检索
  • 3.4 基于知网的相似度计算
  • 3.4.1 基于知网的义原相似度计算
  • 3.4.2 基于知网的概念相似度计算
  • 3.4.3 基于知网的词语相似度计算
  • 3.4.4 基于知网的词义消歧的引入
  • 3.4.5 基于知网的句子相似度计算
  • 3.5 本章小结
  • 第4章 社保审计数据分析系统的实现
  • 4.1 应用背景
  • 4.2 社保审计专业知网知识库的实现
  • 4.2.1 专业义原的提取和编码规则
  • 4.2.2 专业关键词标注规则
  • 4.2.3 专业义原树的建立
  • 4.2.4 专业知网知识库数据中的存储与表示
  • 4.3 基于ICTCLAS的中文分词的实现与表示
  • 4.4 相似度计算模块的实现
  • 4.4.1 基于专业知网的词语相似度计的实现
  • 4.4.2 基于知网的词义消歧模块的实现
  • 4.4.3 基于专业知网的数据项相似度计算的实现
  • 4.5 数据分析工具与数据导入工具整合的实现
  • 4.6 测试结果分析
  • 4.7 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    异构数据分析研究及在社保审计中的应用
    下载Doc文档

    猜你喜欢