汉语文本作者识别方法的研究与实现

汉语文本作者识别方法的研究与实现

论文摘要

计算机技术的发展推动了人们在识别技术方面的研究,各种各样的识别技术不断被应用于公安工作实践中。汉语文本作者识别方法的研究成果应用于公安工作实践中,可以有效地辅助解决公安工作实践中遇到的文本作者识别问题。本文提出了一个基于序贯最小优化算法的多层面混合的汉语文本作者识别模型(SM-CTAI),该模型从字符、词和句子三个层面提取特征对文本进行表示,并在其组成的向量空间进行文本作者识别。基于上述模型的文本作者识别系统由训练模块和识别模块组成,文本在经过预处理后,对其进行分词和词性标注,根据处理的结果在字符、词和句子三个层面对提取的特征进行统计、计算和归一化处理,从而把文本表示成三个层面混合的向量空间中的一个向量。在训练集中的文本均表示成向量空间的向量之后,利用序贯最小优化方法建立识别模型。对于将要进行识别的文本,亦按上述的方法将其表示为一个向量,并利用已建立的识别模型对其进行识别。实验表明,该模型相对于基于单一层面特征的文本作者识别方法有更好的召回率和精确率。本文在三个方面提出了新的想法:第一,提出了在字符层面提取文本高维特征进行文本表示。这种方法基于汉语的自身特点,提取出了汉语字符层面的有用信息。第二,提出了将字符、词和句子三个层面的特征混合使用,与单一层面特征相比,这种方法能够提取出文本更多的信息。第三,将多层面混合的汉语文本作者识别方法应用于对公安工作实践中遇到的文本作者识别问题的解决,积极运用所学知识解决公安工作中遇到的实际问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 序言
  • 1.1 问题的提出及研究的意义
  • 1.2 国内外研究现状
  • 1.3 本文的研究工作
  • 1.4 本文的组织
  • 第二章 相关理论
  • 2.1 文本挖掘
  • 2.1.1 文本挖掘的定义
  • 2.1.2 文本挖掘的处理模型
  • 2.2 文本分类
  • 2.2.1 简单贝叶斯分类法
  • 2.2.2 矩阵变换法
  • 2.2.3 K 最近邻分类算法
  • 2.2.4 利用Boosting 方法解决兼类问题的技术
  • 2.3 本章小结
  • 第三章 基于SMO 的多层面混合的汉语文本作者识别方法(SM-CTAI)
  • 3.1 文本作者识别的基本概念
  • 3.1.1 文本作者识别定义
  • 3.1.2 文本作者识别的系统结构
  • 3.1.3 文本作者识别的一般方法
  • 3.2 多层面混合策略的语言学理论基础
  • 3.2.1 汉语语言的相关特点
  • 3.2.2 汉语语言风格的定义
  • 3.2.3 汉语语言风格的体现
  • 3.2.4 语言学研究的指向性作用
  • 3.3 分类算法
  • 3.3.1 一般分类算法
  • 3.3.2 序贯最小优化( SMO) 分类算法
  • 3.4 文本表示方法
  • 3.4.1 特征选取
  • 3.4.2 文本预处理
  • 3.4.3 特征表示
  • 3.4.4 特征提取(缩减)
  • 3.5 本章小结
  • 第四章 JLM-320 系统中的SM-CTAI 模块的设计与实现
  • 4.1 JLM-320 系统总体框架
  • 4.1.1 JLM-320 系统的体系架构
  • 4.1.2 JLM-320 系统的系统框架
  • 4.2 JLM-320 系统的主要功能模块
  • 4.2.1 JLM-320 前端系统主要功能
  • 4.2.2 JLM-320 后端系统主要功能
  • 4.3 SM-CTAI 模块的设计
  • 4.3.1 SM-CTAI 的数据描述
  • 4.3.2 SM-CTAI 的功能模块构成
  • 4.3.3 SM-CTAT 模块的基本流程
  • 4.4 SM-CTAI 的实现
  • 4.4.1 系统环境
  • 4.4.2 主要类库和方法
  • 4.5 本章小结
  • 第五章 实验及实例
  • 5.1 评价参数
  • 5.2 训练集和测试集
  • 5.3 实验结果及分析
  • 5.3.1 独立特征集
  • 5.3.2 组合特征集
  • 5.3.3 不同分类方法比较
  • 5.3.4 特征维数对正确率的影响
  • 5.3.5 训练样例的数量对正确率的影响
  • 5.4 实例
  • 5.4.1 应用实例背景
  • 5.4.2 应用过程
  • 5.4.3 应用效果
  • 5.5 本章小结
  • 第六章 结束语与展望
  • 参考文献
  • 附录:王良佐汉字频度表介绍
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  

    汉语文本作者识别方法的研究与实现
    下载Doc文档

    猜你喜欢