开放式电子文档剽窃检测服务构建技术研究

开放式电子文档剽窃检测服务构建技术研究

论文摘要

随着信息技术的普及和Internet的飞速发展,人们可以越来越容易的从Internet获取各种电子文档资源,但同时也可以方便地采用“复制粘贴”操作来剽窃电子文档的内容。可以说Internet这一开放性平台在使人们能够方便、快速、高效地获取各种电子文档资源的同时,也成为了剽窃者窃取信息的温床。在这种背景下,构建开放式电子文档剽窃检测服务系统的需求呼之欲出。本文通过分析比较,对开放式电子文档剽窃检测服务系统的现状、结构、特点等给出了详细的总结和描述,对构建开放式电子文档剽窃检测服务系统所涉及到的主要技术,包括候选文档获取技术和电子文档剽窃检测技术进行了详细研究。对于候选文档的获取技术,本文对常用的开放式环境信息获取技术,即网络蜘蛛技术和元搜索技术,进行了比较和分析,并给出了基于元搜索的候选文档获取技术实现方案。本文还通过大量比较,分析了现有的电子文档剽窃检测技术,提出了适用于大规模电子文档检测的SCAD剽窃检测算法,该算法采用权重较高的关键词来作为Anchor,以此来选择经预处理过滤后的句子生成指纹,并最终通过比较指纹来计算文档间的相似度。实验表明,SCAD算法,在生成的指纹数量上,比对效率上以及准确度上均优于传统算法,适合大规模电子文档的剽窃检测应用。同时,为了更好地满足剽窃检测服务需求,本文还提出了基于后缀树的一对一比对检测算法,算法对两篇文档进行比较,找出两篇文档的公共子串,并用高亮的方式显示出来,为判断是否剽窃提供更直接的依据。最后,本文还描述了针对教育类论文进行检测的开放式剽窃检测服务原型系统,给出了系统的设计方案,并展望了下一步工作。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 前言
  • 1.1 研究背景及意义
  • 1.2 开放式电子文档剽窃检测的界定
  • 1.3 电子文档剽窃检测系统现状
  • 1.3.1 国外现状
  • 1.3.2 国内现状
  • 1.4 开放式电子文档剽窃检测系统基本构成
  • 1.5 主要研究内容
  • 1.6 论文的主要工作和组织结构
  • 1.6.1 主要工作
  • 1.6.2 论文的组织结构
  • 第二章 候选文档获取技术研究
  • 2.1 网络蜘蛛技术
  • 2.2 元搜索技术
  • 2.2.1 元搜索概述
  • 2.2.2 获取候选文档元搜索引擎的工作原理
  • 2.2.3 查询关键词自动生成
  • 2.2.4 选择目标搜索引擎
  • 2.2.5 搜索结果合并及显示
  • 第三章 电子文档剽窃检测技术研究
  • 3.1 现有电子文档剽窃检测技术
  • 3.1.1 数字指纹技术
  • 3.1.2 词频统计技术
  • 3.1.3 后缀树技术
  • 3.1.4 语义相似度计算技术
  • 3.2 SCAD——基于Anchor的电子文档剽窃检测算法
  • 3.2.1 基于数字指纹的到剽检测技术存在的问题
  • 3.2.2 SCAD算法过程
  • 3.2.3 算法评价方法与实验结果
  • 3.3 基于后缀树的一对一比对检测算法
  • 3.3.1 后缀树的概念
  • 3.3.2 后缀树的构造方法
  • 3.3.3 改造后缀树实现一对一比对检测算法
  • 3.3.4 高亮比对效果
  • 第四章 原型系统的设计与实现
  • 4.1 系统描述
  • 4.2 系统设计
  • 4.2.1 系统用例图
  • 4.2.2 数据库设计
  • 4.2.3 主要模块的类图设计
  • 4.3 后台并行计算的实现
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].高校电子文档科学化管理探析[J]. 科技档案 2009(02)
    • [2].浅谈黄河系统电子文档与纸质档案存档的区别[J]. 治黄科技信息 2013(04)
    • [3].企业电子文档智能化安全风险与防范机制[J]. 信息通信 2020(02)
    • [4].新环境下图书馆电子文档管理研究[J]. 内蒙古科技与经济 2018(23)
    • [5].涉密电子文档管理中需要注意的安全因素[J]. 计算机产品与流通 2019(02)
    • [6].防范企业电子文档扩散安全[J]. 网络安全和信息化 2017(09)
    • [7].服务型政府视角下的电子文档管理研究[J]. 攀登 2016(05)
    • [8].电子文档国际标准发布[J]. 中国质量与标准导报 2017(09)
    • [9].论网络环境下电子文档信息的安全[J]. 数字通信世界 2017(09)
    • [10].论网络环境下电子文档信息的安全[J]. 数字通信世界 2017(09)
    • [11].基于正则表达式的文件服务器电子文档归置辅助系统设计[J]. 科技广场 2015(12)
    • [12].电子文档保护的问题与对策[J]. 兰台世界 2015(S5)
    • [13].电子文档管理责任链的认识问题[J]. 兰台内外 2016(04)
    • [14].浅谈电子文档管理工作[J]. 黑龙江档案 2016(04)
    • [15].电子文档管理工作浅析[J]. 黑龙江档案 2015(01)
    • [16].电子文档管理的现状、特点以及建议[J]. 办公室业务 2015(02)
    • [17].浅析如何做好学校电子文档的管理[J]. 课程教育研究 2013(21)
    • [18].网络牵引,“牵”出优秀班集体[J]. 教书育人 2017(01)
    • [19].新时期机关电子文档管理探讨[J]. 当代旅游(高尔夫旅行) 2017(11)
    • [20].“美摄欣赏”专栏征稿启事[J]. 文化交流 2016(12)
    • [21].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(01)
    • [22].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(02)
    • [23].编辑部启事[J]. 岷峨诗稿 2016(04)
    • [24].工作者[J]. 雨花 2017(09)
    • [25].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(05)
    • [26].《黄埔家书》征稿启事[J]. 黄埔 2017(04)
    • [27].《黄埔家书》征稿启事[J]. 黄埔 2017(03)
    • [28].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(06)
    • [29].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(04)
    • [30].“美摄欣赏”专栏征稿启事[J]. 文化交流 2017(07)

    标签:;  ;  ;  ;  

    开放式电子文档剽窃检测服务构建技术研究
    下载Doc文档

    猜你喜欢