
论文摘要
当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和文本挖掘已经成为备受关注的研究领域。文本分类技术是信息检索和文本挖掘的基础,其任务是在给定的分类体系下,根据文本内容判断其所属的类别。目前文本分类已经取得了丰硕的成果,但一般文本分类方法是将一给定文本映射到一个给定的文本类别,对于某些文本属于多类问题处理不太理想。本文将模糊逻辑和神经网络相结合用于文本分类,该方法将训练文本的特征向量特征模糊化,同时将每个类中心向量特征模糊化,从模糊化的文本向量和模糊化的类中心得到该文本对每个类的距离,通过距离定义一个隶属函数,得到文本对每个类的隶属度。用模糊化的文本特征向量和该文本对每个类的隶属度向量训练神经网络。将测试文本特征向量模糊化后通过训练好神经网络可以得到该文本相对于每个类别的隶属度,通过文本属于每个类的隶属度就可以判断文本类别。最后给出了基于模糊逻辑和神经网络模型的一个具体实现,给出了相关数据结构和功能函数的说明。并将对两个样本集进行了测试评估。
论文目录
摘要Abstract第1章 绪论1.1 研究背景及意义1.2 国内外研究现状1.2.1 模糊逻辑和神经网络结合的研究现状1.2.2 文本分类研究现状1.3 本文工作内容1.4 论文的组织第2章 文本分类综述2.1 文本数据的特点2.2 文本分类描述2.3 特征项类型2.4 文本预处理2.5 特征表示模型2.5.1 集合模型2.5.2 概率模型2.5.3 代数模型2.5.4 概念模型2.6 特征选择2.6.1 文本频率2.6.2 信息增益2.6.3 互信息2.6.4 卡方统计2.6.5 期望交叉熵2.6.6 证据权值2.7 评估方法2.7.1 保持法2.7.2 k-折交叉验证2.8 性能指标2.8.1 查全率、查准率和F1-测度2.8.2 宏平均、微平均第3章 常用文本分类算法3.1 朴素贝叶斯算法3.2 决策树算法3.3 基于关联规则的算法3.4 简单向量距离算法3.5 K近邻算法3.6 支持向量机算法3.7 基于投票的方法第4章 不平衡数据处理4.1 向下取样4.2 向上取样第5章 模糊逻辑理论和BP神经网络概述5.1 模糊逻辑理论5.1.1 隶属函数5.1.2 模糊集的表示5.1.3 模糊集的基本运算5.2 人工神经网络5.2.1 神经元模拟5.2.2 多层前馈神经网络5.2.3 反向传播算法5.3 模糊逻辑和神经网络结合第6章 分类器模型的实现6.1 模型的实现细节6.1.1 数据结构描述6.1.2 功能函数描述6.2 性能测试及其评估6.2.1 数据集与取样集6.2.2 参数选择与测试结果第7章 结论与展望7.1 论文工作总结7.2 进一步研究展望致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:模糊逻辑论文; 神经网络论文; 文本分类论文;