论文摘要
随着信息技术的发展,互联网数据及资源呈现海量特征,而且,越来越多的信息以电子文本的形式存在。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术是信息检索和文本挖掘的重要基础,近年来逐渐成为人们研究的热点问题。本文对文本分类整个过程中涉及到的每个步骤进行了深入研究,包括预处理、文本表示、特征提取、分类算法以及性能评估。对于中文文本分类,到目前为止,尚没有标准的中文语料库可供使用。因此,自己动手收集文献标题作为语料库,并对典型的特征提取算法和分类算法进行了实验对比研究。实验结果表明支持向量机是目前分类性能最好的方法。为进一步提高文本分类的准确率,使用潜在语义索引获得原始词-文档矩阵的潜在语义结构。通过使用潜在语义索引和不使用潜在语义索引的对比实验发现,在文本分类中,使用潜在语义索引的效果并不理想,这是因为潜在语义索引在进行奇异值分解过程中没有充分考虑分类信息。为解决该问题,提出了一种改进的局部潜在语义索引方法,利用支持向量机的分类优势来产生局部区域,这样选择的局部区域,能够更好地表示某类文档的潜在语义结构,从而提高了分类的准确率。标准的支持向量机是针对两类分类问题设计的,不能直接用于多类分类问题。为使支持向量能够进行多类分类,必须对支持向量机进行扩展。二叉树方法是一种常用的多类分类方法,而它的关键问题在于如何构造合理的结构以获得较高的推广能力。为解决该问题,按照Huffman树的构造过程自下向上地构造二叉树,使易于分割的类处于上层结点,从而构造了合理的二叉树结构。
论文目录
摘要Abstract插图索引附表索引第1章 绪论1.1 概述1.2 国内外研究现状1.3 作者的主要工作1.4 论文内容简介第2章 文本分类相关技术2.1 文本预处理2.2 文本表示2.2.1 向量空间模型2.2.2 特征项权重计算方法2.2.3 影响权重的信息2.3 特征选择2.3.1 文档频率2.3.2 信息增益2.3.3 互信息2统计量'>2.2.4 x2统计量2.2.5 特征权2.4 分类方法2.4.1 朴素贝叶斯2.4.2 类中心向量2.4.3 k近邻2.4.4 支持向量机2.4.5 最大熵模型2.5 分类性能评估2.5.1 单类赋值2.5.2 多类排序第3章 中文语料上的实验对比研究3.1 语料库3.2 实验设置3.3 特征选择方法实验对比研究3.4 文本分类方法实验对比研究3.5 小结第4章 基于SVM与LSI相结合的文本分类研究4.1 潜在语义索引4.2 LSI的实验结果分析4.3 一种基于SVM的局部LSI文本分类方法4.3.1 局部LSI4.3.2 基于SVM的局部LSI(SVM-LLSI)4.3.3 实验及结果分析4.4 小结第5章 基于HuffMan树的多类SVM研究5.1 多类SVM方法5.1.1 One-vs-Rest5.1.2 One-vs-one5.1.3 DAGSVM5.1.4 二叉树方法5.l.S ECOC-SVM方法5.2 基于Huffman树的多类SVM方法5.3 实验及结果分析5.4 小结总结与展望参考文献致谢附录A 攻读硕士学位期间所发表的学术论文
相关论文文献
标签:机器学习论文; 文本分类论文; 支持向量机论文; 潜在语义索引论文; 多类分类论文; 二叉树论文;