文本分类技术与应用研究

论文摘要

互联网上充斥着各种信息,其中有一些信息,如恐怖组织等通过互联网散布的消息,直接影响着国家安全与稳定。传统的按IP地址、主题进行信息拦截的方法已不再适合当前的需要,目前主要是对内容进行监控。鉴于Internet上的大部分信息都以文本的形式存在,以上技术大都依赖于文本内容的理解,核心技术是文本分类与聚类技术。爆炸式增长的文本信息对文本内容理解的精度与速度提出了新的标准与挑战,要求文本理解在提高精度的同时,还要进一步提升训练与理解速度。本文挑选文本分类中的3个困难与挑战进行了研究:数据集偏斜(数据集关于类别的分布是偏斜的,即类偏斜)、特征选择、小样本问题(标注瓶颈)。从提高分类方法的快速性、准确性出发,提出多种有效的解决(改进)方法。同时,对文本聚类、分类的一个重要应用领域——话题识别与跟踪,进行了研究。本文的创新工作主要包括以下三点:1、kNN文本分类器中类偏斜问题的处理类偏斜问题是数据挖掘领域的常见问题之一。在文本分类中得到广泛应用的kNN方法,当训练样本存在类偏斜问题时,分类性能明显下降。将kNN分类器用于某文本内容安全项目,我们发现,小类别的待测样本几乎都错分到其它大类中去了。针对kNN存在的这个问题,提出了训练集的临界点(Critical Point,CP)的概念,根据CP的下(上)近似值LA(UA)及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN分类。在偏斜文本数据集上进行的实验表明,LA、UA是较好的收缩因子。自适应的加权kNN文本分类性能优于传统kNN方法及随机重取样方法。2、训练样本的选择训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。作为一种基于实例的方法,kNN分类器有大量的计算及存储需求。同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降。针对这些缺陷,首先对MultiEdit与Condensing算法进行了改进,然后提出了特征选择与Condensing技术相结合的取样方法。该方法分为两步:第一步,由几种传统的特征选择方法产生训练集中每类训练数据的特征;第二步,根据文档自身的类特征,结合Condensing策略移去多余的训练实例。大量实验表明,该方法明显减小了训练集的数据量,从而降低了算法的时空消耗,改进了分类器的性能。3、半监督的文本分类传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题。半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题。由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义。本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的。作为文本分类、聚类技术的应用,我们对BBS的话题识别与跟踪进行了研究。从文本挖掘的角度上来说,话题识别类似于文本聚类;而话题跟踪类似于多类文本分类。话题识别与跟踪,研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。这类新技术是现实中急需的,比如:自动监控各种信息源(如广播、电视等),并从中识别出各种突发事件、新事件以及关于已知事件的新信息,这可广泛用于信息安全、证券市场分析等领域。另外,还可以找出有关用户某一感兴趣话题的所有报道,研究这一话题的发展历程等等。在对话题识别与跟踪各种算法进行研究的基础上,我们根据BBS内容的特点,建立了一个面向BBS的话题识别与跟踪系统。在以上研究的基础上,我们开发了一个文本内容安全管理原型系统。

论文目录

图表目录:图

图表目录:表

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 问题描述

1.2.1 文本分类

1.2.2 话题识别与跟踪

1.3 相关研究

1.3.1 研究历史

1.3.2 研究现状

1.4 主要结果

1.4.1 TREC文本过滤结果

1.4.2 TDT评测结果

1.5 拟解决的问题

1.6 本文结构

第二章文本分类技术

2.1 文本分类任务的特点

2.2 文档集

2.3 文档表示模型

2.3.1 文档特征

2.3.2 文档表示

2.4 文档特征选择方法

2.4.1 信息增量（Information Gain）

2.4.2 互信息（Mutual Information）

2统计'>2.4.3 x²统计

2.4.4 交叉熵（Cross Entropy）

2.4.5 证据权值（Weight of Evidence）

2.4.6 文档特征选择中的概率值估算

2.5 分类方法

2.5.1 基于统计的方法

2.5.2 人工神经网络

2.5.3 基于规则的方法

2.6 分类性能评估

2.6.1 单类赋值

2.6.2 多类排序

第三章 kNN文本分类器类偏斜问题的处理

3.1 引言

3.2 单类分类时的kNN方法

3.3 自适应的加权kNN文本分类

3.3.1 动机

3.3.2 符号标记及含义

3.3.3 修正传统kNN决策函数

3.3.4 临界点相关概念

3.3.5 临界点性质及算法

3.3.6 自适应的加权kNN文本分类

3.4 实验结果及评价

3.4.1 数据集及实验设置

3.4.2 实验1—收缩因子对分类的影响

3.4.3 实验2—与已有的偏斜处理方法对比

3.5 分析

3.6 小结

第四章特征选择及基于Condensing技术的文本取样

4.1 引言

4.2 MultiEdit及Condensing算法

4.2.1 Editing算法

4.2.2 Condensing算法

4.2.3 MultiEdit及Condensing实验和评价

4.2.4 MultiEdit及Condensing小结

4.3 特征选择

4.4 基于特征选择的文本取样算法

4.4.1 ME1算法

4.4.2 特征选择与Condensing技术相结合的算法

4.4.3 基于特征选择的文本取样实验及评价

4.5 小结

第五章半监督的文本分类—两阶段协同学习

5.1 引言

5.2 相关研究

5.3 基于kNN和SVM的二阶段协同学习

5.3.1 理论基础

5.3.2 本文动机

CoTrain'>5.3.3 两阶段协同学习—2P_CoTrain

5.3.4 实验数据

5.3.5 实验设计

5.3.6 实验结果

5.4 小结

第六章文本分类技术在内容安全中的应用

6.1 引言

6.2 TDT研究现状

6.2.1 话题跟踪

6.2.2 话题识别

6.3 面向BBS的话题识别与跟踪

6.3.1 基本模型

6.3.2 改进的识别与跟踪过程

6.3.3 权重改进策略

6.3.4 实验设置

6.3.5 实验结果

6.3.6 讨论

6.4 信息内容安全管理系统

6.4.1 系统结构

6.4.2 主题分类

6.4.3 本文对主题分类的贡献

6.5 小结

第七章总结与展望

7.1 总结

7.2 进一步的工作

参考文献

附录一:计算CP,LA,UA的算法

攻读博士学位期间参与的科研项目及主要成果

致谢

文本分类技术与应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢