论文摘要
计算机技术的发展推动了人们在识别技术方面的研究,各种各样的识别技术不断被应用于公安工作实践中。汉语文本作者识别方法的研究成果应用于公安工作实践中,可以有效地辅助解决公安工作实践中遇到的文本作者识别问题。本文提出了一个基于序贯最小优化算法的多层面混合的汉语文本作者识别模型(SM-CTAI),该模型从字符、词和句子三个层面提取特征对文本进行表示,并在其组成的向量空间进行文本作者识别。基于上述模型的文本作者识别系统由训练模块和识别模块组成,文本在经过预处理后,对其进行分词和词性标注,根据处理的结果在字符、词和句子三个层面对提取的特征进行统计、计算和归一化处理,从而把文本表示成三个层面混合的向量空间中的一个向量。在训练集中的文本均表示成向量空间的向量之后,利用序贯最小优化方法建立识别模型。对于将要进行识别的文本,亦按上述的方法将其表示为一个向量,并利用已建立的识别模型对其进行识别。实验表明,该模型相对于基于单一层面特征的文本作者识别方法有更好的召回率和精确率。本文在三个方面提出了新的想法:第一,提出了在字符层面提取文本高维特征进行文本表示。这种方法基于汉语的自身特点,提取出了汉语字符层面的有用信息。第二,提出了将字符、词和句子三个层面的特征混合使用,与单一层面特征相比,这种方法能够提取出文本更多的信息。第三,将多层面混合的汉语文本作者识别方法应用于对公安工作实践中遇到的文本作者识别问题的解决,积极运用所学知识解决公安工作中遇到的实际问题。
论文目录
摘要ABSTRACT第一章 序言1.1 问题的提出及研究的意义1.2 国内外研究现状1.3 本文的研究工作1.4 本文的组织第二章 相关理论2.1 文本挖掘2.1.1 文本挖掘的定义2.1.2 文本挖掘的处理模型2.2 文本分类2.2.1 简单贝叶斯分类法2.2.2 矩阵变换法2.2.3 K 最近邻分类算法2.2.4 利用Boosting 方法解决兼类问题的技术2.3 本章小结第三章 基于SMO 的多层面混合的汉语文本作者识别方法(SM-CTAI)3.1 文本作者识别的基本概念3.1.1 文本作者识别定义3.1.2 文本作者识别的系统结构3.1.3 文本作者识别的一般方法3.2 多层面混合策略的语言学理论基础3.2.1 汉语语言的相关特点3.2.2 汉语语言风格的定义3.2.3 汉语语言风格的体现3.2.4 语言学研究的指向性作用3.3 分类算法3.3.1 一般分类算法3.3.2 序贯最小优化( SMO) 分类算法3.4 文本表示方法3.4.1 特征选取3.4.2 文本预处理3.4.3 特征表示3.4.4 特征提取(缩减)3.5 本章小结第四章 JLM-320 系统中的SM-CTAI 模块的设计与实现4.1 JLM-320 系统总体框架4.1.1 JLM-320 系统的体系架构4.1.2 JLM-320 系统的系统框架4.2 JLM-320 系统的主要功能模块4.2.1 JLM-320 前端系统主要功能4.2.2 JLM-320 后端系统主要功能4.3 SM-CTAI 模块的设计4.3.1 SM-CTAI 的数据描述4.3.2 SM-CTAI 的功能模块构成4.3.3 SM-CTAT 模块的基本流程4.4 SM-CTAI 的实现4.4.1 系统环境4.4.2 主要类库和方法4.5 本章小结第五章 实验及实例5.1 评价参数5.2 训练集和测试集5.3 实验结果及分析5.3.1 独立特征集5.3.2 组合特征集5.3.3 不同分类方法比较5.3.4 特征维数对正确率的影响5.3.5 训练样例的数量对正确率的影响5.4 实例5.4.1 应用实例背景5.4.2 应用过程5.4.3 应用效果5.5 本章小结第六章 结束语与展望参考文献附录:王良佐汉字频度表介绍致谢攻读学位期间发表的学术论文目录
相关论文文献
标签:文本作者识别论文; 多层面混合论文; 文本表示论文; 序贯最小优化算法论文;