论文摘要
随着因特网技术的迅速发展与日益普及,电子文本信息越来越丰富,同时人们在这些海量的信息面前又感到无从下手。因此,有效的组织和管理这些信息,并快速准确的从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。文本分类技术作为处理和组织大量文本数据的关键技术,可以有效的实现信息分流、解决信息杂乱问题,从而方便用户快速做出决策。本文主要对文本分类及其相关技术做了研究,并就如何将文本分类技术更好的用于辅助决策做了研究,具体包括以下四个方面:(1)文本分类特征权重计算方法的研究本文首先阐述了传统的权重计算方法应用在文本分类任务中的不足之处,并验证了采用特征选择评估函数对词频加权的权重计算方法的有效性。(2)基于反馈的类中心向量分类模型类中心向量分类算法是一种效率较高的分类算法,本文在其基础上,提出了改进的基于反馈的类中心向量分类算法。该算法的主要思想是利用错分的训练集样本不断的修正与其相关的类别的中心向量,使其更好的贴近训练集数据的真实分布,从而使其在测试集上的性能得到明显提升。实验证明该算法是有效的。(3)基于支持向量机的领域文本分类本文提出了基于支持向量机的领域文本分类模型,该模型讨论了文档的标题在文本分类中的作用。文档的标题一般处在这篇文档的最前边的位置,体现了文档的中心思想,因此本文提出用文档的标题来代替文本正文内容执行分类任务。实验证明,可以获得最大程度的分类精度与分类效率的折中。(4)文本分类技术在辅助决策中的应用研究本文实现了面向特定领域的文本多层分类系统。领域相关的信息是用户想要关心的,系统通过二元分类将原始的文本集合分为领域相关和领域无关,可以有效节省用户的决策时间;系统通过领域分类这一模块将领域相关的信息再分类,可以使用户快速的定位到想要关注的具体类别;针对某些特定问题,系统利用分类技术给予浅层的分析为人们的决策提供辅助作用。
论文目录
摘要Abstract第1章 绪论1.1 课题研究的背景和意义1.2 研究现状1.2.1 国内外研究状况1.2.2 文本分类问题描述1.2.3 当前研究重点1.3 本文的主要工作1.4 本文的内容安排第2章 文本分类的特征选择2.1 引言2.2 文本预处理2.3 文本表示方法2.3.1 向量空间模型2.3.2 改进的权重计算方法2.4 特征选择方法2.4.1 文档频率2.4.2 互信息2.4.3 信息增益2 统计'>2.4.4 x2统计2.4.5 期望交叉熵2.5 实验结果与分析2.5.1 评价标准2.5.2 实验设置2.5.3 实验结果2.6 本章小结第3章 基于反馈的类中心向量分类模型3.1 引言3.2 常用分类算法分析3.2.1 Rocchio算法3.2.2 朴素贝叶斯算法3.2.3 K近邻算法3.2.4 决策树方法3.2.5 神经网络方法3.3 基于反馈的类中心向量分类算法3.3.1 分类器偏差3.3.2 算法描述3.3.3 实验结果与分析3.4 本章小结第4章 基于支持向量机的领域文本分类4.1 引言4.2 支持向量机的基本原理4.2.1 线性可分与最优分类超平面4.2.2 线性不可分与软间隔4.2.3 非线性与核函数4.3 多元分类支持向量机4.3.1 一对多方法4.3.2 一对一方法4.3.3 有向无环图方法4.3.4 二叉树方法4.4 基于支持向量机的领域文本分类4.4.1 文档标题在领域分类中的作用4.4.2 实验与结果分析4.5 本章小结第5章 文本分类在辅助决策中的应用5.1 引言5.2 辅助决策概述5.2.1 辅助决策支持系统的发展5.2.2 辅助决策支持系统的结构5.2.3 辅助决策支持系统的分析5.3 基于文本分类技术的辅助决策系统的设计与实现5.3.1 基于改进类中心向量分类模型的二元分类5.3.2 基于支持向量机的领域分类5.3.3 基于文本分类技术的特定问题分类决策5.4 系统运行结果与分析5.4.1 运行界面5.4.2 运行结果与分析5.5 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
标签:文本分类论文; 特征选择论文; 特征加权论文; 类中心论文; 辅助决策论文;