论文摘要
社会保障关乎到广大人民群众的基本利益,对其进行相应的监督和审计是必不可少的。由于各地社保信息系统的不统一和多样化的特点,因此在社保审计中的数据导入时经常会遇到数据项和数据字典不一致的情况,通过计算机的自动分析而达到提取出不同的社保数据库中相同意义的数据项,成为审计机关待解决的问题。异构数据分析包括了综合运用了各种自然语言处理技术,涉及计算语言学、信息科学和人工智能等多门学科,是当计算机应用研究的热点之一。它主要包括语义分析,模式分析两种。本文选择其中的语义分析作为研究的方向。本文结合社会保险基本养老联网审计系统(N-SAS)项目,设计出一种通过基于社保审计专业知网和社保审计专业分词字典的异构数据语义分析系统,同时围绕异构社保数据分析系统实现过程中的专业知识库的构建,对社保专业知识的收集和组织,以及社保审计字段的理解,相似数据项的查找及基于社保审计专业知网的词义消岐等关键核心技术进行了一系列的研究和探讨,最后介绍了整个异构数据分析系统的实现和试验结果,及结果评价。
论文目录
摘要Abstract第1章 绪论1.1 课题的背景及意义1.2 相关领域的研究现状1.3 主要研究内容1.4 本文的组织安排第2章 异构数据分析技术概述2.1 句子相似度的定义与特点2.2 中文分词技术2.2.1 中文自动分词方法2.2.2 中文分词中歧义处理和未登录词识别2.3 知网介绍2.3.1 知网系统的结构2.3.2 知网中的语义关系2.4 语义消歧2.5 句子相似度计算2.5.1 句子相似度计算的分类2.5.2 语义相似度的计算方法2.6 本章小结第3章 社保审计数据分析中关键技术的研究3.1 社保审计数据分析系统总体设计3.2 中文分词模块3.3 社保审计字段的理解3.3.1 字段项的结构分析3.3.2 关键词提取3.3.3 同义词扩展3.3.4 快速检索3.4 基于知网的相似度计算3.4.1 基于知网的义原相似度计算3.4.2 基于知网的概念相似度计算3.4.3 基于知网的词语相似度计算3.4.4 基于知网的词义消歧的引入3.4.5 基于知网的句子相似度计算3.5 本章小结第4章 社保审计数据分析系统的实现4.1 应用背景4.2 社保审计专业知网知识库的实现4.2.1 专业义原的提取和编码规则4.2.2 专业关键词标注规则4.2.3 专业义原树的建立4.2.4 专业知网知识库数据中的存储与表示4.3 基于ICTCLAS的中文分词的实现与表示4.4 相似度计算模块的实现4.4.1 基于专业知网的词语相似度计的实现4.4.2 基于知网的词义消歧模块的实现4.4.3 基于专业知网的数据项相似度计算的实现4.5 数据分析工具与数据导入工具整合的实现4.6 测试结果分析4.7 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:社保联网审计论文; 专业知识库论文; 知网论文; 异构数据分析论文; 句子相似度论文;