汉语文本抄袭识别系统研究

汉语文本抄袭识别系统研究

论文摘要

抄袭识别属于文档复制检测技术的一种应用类型,它是提高学术论文质量、净化学术环境的一种重要措施。抄袭识别就是判断某篇给定文档是否抄袭了其他一篇或多篇文档的内容,具体包括完全抄袭、大部分抄袭和少部分抄袭。本文首先阐述了汉语文本抄袭识别的意义和文档复制检测技术的基本原理,并简要介绍了几个典型的文档复制检测原型系统、抄袭识别工具及在线服务网站的功能和特点。其次,总结了中文分词方法及几种现有的分词系统,作为后续研究的基础。再次,介绍并分析了各种现有文本相似度算法及其优缺点,在此基础上,提出了多层次特征融合的相似度算法,利用此算法比较文档间的相似情况,从而在已有文档中确定待测文档的相似文档。本研究系统首先采用关键词相似度计算、类号比较、基于字符匹配的文档题名和摘要相似度计算来计算文档间相关性,从而找出文档库中与待测文档相关的文档;然后将自动分词后的文档正文进行停用词过滤、“重构”(即同义词转换),把重构后的有意义的实义词结点集合看作初始文档的词条集合,利用基于集合模型的相似度方法计算待测文档正文与相关文档正文内容间的相似度值,从而确定相似文档。然后基于公共子串的思想,构建了无重复最长公共子串求解算法和基于分词的无重复最长公共子串的求解算法,分别利用这两种文本比较算法求出待测文档与相似文档间的“公共内容”,生成相似报告,从而对于抄袭判断给予合理的解释,也即例证。接着,描述了同义词表、分类表等各种词表的构建方式,在现有抄袭识别工具的功能、特点研究基础上,解决了1∶n的中文文档间相似度计量、定位相似内容等难点问题,设计并实现了一个面向学术期刊论文的汉语文本抄袭识别原型系统。最后,解释实验数据的选择,阈值的设置,并利用测试文档对本文提出的多层次特征融合型相似度算法和两种文本比较生成相似报告的方法进行了测评,同时总结了笔者所做的主要工作、本文的创新之处及进一步的工作设想。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 抄袭识别概述
  • 1.1 抄袭识别的研究背景
  • 1.2 抄袭的相关概念及分类
  • 1.2.1 抄袭的相关概念
  • 1.2.2 抄袭的种类
  • 1.3 抄袭识别的研究现状
  • 1.3.1 国外的研究现状
  • 1.3.2 国内的研究现状
  • 1.4 本文研究内容和文章的组织结构
  • 1.4.1 研究内容
  • 1.4.2 本文组织结构
  • 第2章 现有的原型系统、工具或服务网站
  • 2.1 Siff工具
  • 2.2 COPS原型系统
  • 2.3 Ferret工具
  • 2.4 WCopyfind工具
  • 2.5 Turnitin服务网站
  • 2.6 本章小结
  • 第3章 抄袭识别实现过程研究
  • 3.1 中文分词
  • 3.1.1 中文分词方法
  • 3.1.2 现有的分词系统
  • 1、ChineseTokenizer
  • 2、雨痕分词组件
  • 3、计算所汉语词法分析系统ICTCLAS
  • 4、KTDictSeg
  • 5、CSW中文分词组件
  • 3.1.3 本文分词方法
  • 3.2 文本相似度
  • 3.2.1 文本相似度概述
  • 3.2.2 计算文本相似度的算法
  • 1、基于字符匹配的文本相似度度量
  • 2、基于集合模型的相似度计算方法
  • 3、基于向量空间模型的相似度计算
  • 4、基于N-gram的相似度计算
  • 5、多层次特征融合型相似度计算方法
  • 3.3 文本比较
  • 3.3.1 相关背景
  • 3.3.2 相关概念
  • 3.3.3 求所有公共子串算法
  • 3.3.4 无重复最长公共子串的求解算法
  • 3.3.5 基于分词的无重复最长公共子串
  • 3.4 本章小结
  • 第4章 汉语文本抄袭识别系统的设计与介绍
  • 4.1 汉语文本抄袭识别系统设计
  • 4.1.1 文档注册模块
  • 4.1.2 分词模块
  • 4.1.3 抄袭识别模块
  • 4.1.4 查询模块
  • 4.1.5 后台维护模块
  • 4.2 知识库的构建
  • 4.2.1 同义词词表建立
  • 4.2.2 分类表的建立
  • 4.2.3 停用词词典的构建
  • 4.3 系统及其实现流程的介绍
  • 4.3.1 菜单介绍
  • 4.3.2 系统实现的流程
  • 4.4 本章小结
  • 第5章 实验及系统评测
  • 5.1 实验环境
  • 5.2.1 测试数据的选择
  • 5.2.2 训练文档确定阈值
  • 5.3 系统性能度量
  • 5.3.1 相似方法的度量
  • 1、响应时间度量
  • 2、查准率度量
  • 5.3.2 相似报告的度量
  • 5.4 本章小结
  • 第6章 总结与展望
  • 6.1 所做的工作
  • 6.2 本文的创新之处
  • 6.3 系统存在的不足及未来工作展望
  • 参考文献
  • 附录
  • 附录A:相似报告样例
  • 样例1 无重复最长公共子串的求解算法生成的相似报告
  • 样例2 基于分词的无重复最长公共子串求解算法的相似报告
  • 致谢
  • 相关论文文献

    • [1].顿悟:汉语文本教学的重要环节[J]. 语文教学与研究 2016(34)
    • [2].齐夫定律在古汉语文本中的适用性研究——以《梦溪笔谈杂志一》的文献计量为例[J]. 晋图学刊 2020(04)
    • [3].汉语文本体的伦理美研究[J]. 山东理工大学学报(社会科学版) 2010(01)
    • [4].三明市客家博物馆汉语文本英译解析[J]. 三明学院学报 2015(01)
    • [5].汉语文本难度的影响因素及其权重的主观测定[J]. 现代语文(语言研究版) 2012(11)
    • [6].中级欧美留学生汉语文本可读性公式研究[J]. 世界汉语教学 2014(02)
    • [7].英语对汉语文本的影响[J]. 江汉大学学报(人文科学版) 2009(02)
    • [8].浅析汉语文本转化中的两点制约性因素[J]. 湖北广播电视大学学报 2009(09)
    • [9].汉语文本体音乐美及教学策略研究[J]. 淄博师专学报 2009(04)
    • [10].汉语文本可读性特征体系构建和效度验证[J]. 世界汉语教学 2020(01)
    • [11].面向汉语文本推理的语言现象标注规范研究[J]. 河南科技学院学报 2017(07)
    • [12].“冠”字怎么读[J]. 作文成功之路(下) 2010(04)
    • [13].TimeML应用于汉语文本时间关系标注的可行性分析[J]. 现代图书情报技术 2014(10)
    • [14].对外汉语文本可读性研究的回顾与展望[J]. 广东外语外贸大学学报 2015(06)
    • [15].一种基于C#正则表达式的汉语文本信息检索方法[J]. 现代计算机(专业版) 2009(12)
    • [16].少数民族本土风格在汉语文本中的还原与翻译对应[J]. 大连民族大学学报 2017(06)
    • [17].留学生阅读中的分词问题[J]. 科教文汇(下旬刊) 2008(05)
    • [18].基于随机森林算法的对外汉语文本可读性评估[J]. 中国教育信息化 2019(14)
    • [19].可读性研究综述[J]. 泉州师范学院学报 2020(01)
    • [20].汉语关键词自动转换主题词的方法[J]. 河北大学学报(自然科学版) 2014(03)
    • [21].基于多知识源的语义搭配知识库的构建及应用[J]. 计算机工程与设计 2013(06)
    • [22].基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例[J]. 数字人文 2020(02)
    • [23].汉语文本自动分词算法的研究[J]. 计算机工程与应用 2010(03)
    • [24].自我指涉与中国文学[J]. 华文文学 2013(04)
    • [25].对外汉语教学中的文本多元化[J]. 世界汉语教学 2014(01)
    • [26].初中级日韩学习者汉语文本可读性公式研究[J]. 语言教学与研究 2017(05)
    • [27].解构主义视角下的汉语英译[J]. 时代文学(上半月) 2011(04)

    标签:;  ;  ;  ;  

    汉语文本抄袭识别系统研究
    下载Doc文档

    猜你喜欢