基于模糊逻辑和神经网络的文本分类方法

论文摘要

当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和文本挖掘已经成为备受关注的研究领域。文本分类技术是信息检索和文本挖掘的基础,其任务是在给定的分类体系下,根据文本内容判断其所属的类别。目前文本分类已经取得了丰硕的成果,但一般文本分类方法是将一给定文本映射到一个给定的文本类别,对于某些文本属于多类问题处理不太理想。本文将模糊逻辑和神经网络相结合用于文本分类,该方法将训练文本的特征向量特征模糊化,同时将每个类中心向量特征模糊化,从模糊化的文本向量和模糊化的类中心得到该文本对每个类的距离,通过距离定义一个隶属函数,得到文本对每个类的隶属度。用模糊化的文本特征向量和该文本对每个类的隶属度向量训练神经网络。将测试文本特征向量模糊化后通过训练好神经网络可以得到该文本相对于每个类别的隶属度,通过文本属于每个类的隶属度就可以判断文本类别。最后给出了基于模糊逻辑和神经网络模型的一个具体实现,给出了相关数据结构和功能函数的说明。并将对两个样本集进行了测试评估。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 模糊逻辑和神经网络结合的研究现状

1.2.2 文本分类研究现状

1.3 本文工作内容

1.4 论文的组织

第2章文本分类综述

2.1 文本数据的特点

2.2 文本分类描述

2.3 特征项类型

2.4 文本预处理

2.5 特征表示模型

2.5.1 集合模型

2.5.2 概率模型

2.5.3 代数模型

2.5.4 概念模型

2.6 特征选择

2.6.1 文本频率

2.6.2 信息增益

2.6.3 互信息

2.6.4 卡方统计

2.6.5 期望交叉熵

2.6.6 证据权值

2.7 评估方法

2.7.1 保持法

2.7.2 k-折交叉验证

2.8 性能指标

2.8.1 查全率、查准率和F1-测度

2.8.2 宏平均、微平均

第3章常用文本分类算法

3.1 朴素贝叶斯算法

3.2 决策树算法

3.3 基于关联规则的算法

3.4 简单向量距离算法

3.5 K近邻算法

3.6 支持向量机算法

3.7 基于投票的方法

第4章不平衡数据处理

4.1 向下取样

4.2 向上取样

第5章模糊逻辑理论和BP神经网络概述

5.1 模糊逻辑理论

5.1.1 隶属函数

5.1.2 模糊集的表示

5.1.3 模糊集的基本运算

5.2 人工神经网络

5.2.1 神经元模拟

5.2.2 多层前馈神经网络

5.2.3 反向传播算法

5.3 模糊逻辑和神经网络结合

第6章分类器模型的实现

6.1 模型的实现细节

6.1.1 数据结构描述

6.1.2 功能函数描述

6.2 性能测试及其评估

6.2.1 数据集与取样集

6.2.2 参数选择与测试结果

第7章结论与展望

7.1 论文工作总结

7.2 进一步研究展望

致谢

参考文献

攻读学位期间的研究成果

基于模糊逻辑和神经网络的文本分类方法

论文摘要

论文目录

相关论文文献

猜你喜欢