基于模糊逻辑和神经网络的数据及文本挖掘的方法研究

基于模糊逻辑和神经网络的数据及文本挖掘的方法研究

论文题目: 基于模糊逻辑和神经网络的数据及文本挖掘的方法研究

论文类型: 博士论文

论文专业: 管理科学与工程

作者: 耿新青

导师: 王正欧

关键词: 隶属度,模糊关联规则,模糊聚类,数据挖掘,文本挖掘

文献来源: 天津大学

发表年度: 2005

论文摘要: 数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将模糊逻辑理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于模糊逻辑和神经网络的数据挖掘和文本挖掘方法,所做主要工作内容包括:采用自组织特征映射(SOFM)网络来自动确定样本数据隶属函数,并根据相似性的概念,给出了相似度的计算公式,结合Apriori算法,提出了一种挖掘模糊相似关联规则的新算法。针对传统的模糊聚类需要预先确定聚类数的问题,提出一种新的动态模糊聚类的方法。该方法采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF?IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。本算法具有聚类精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性的问题。提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。针对传统模糊自组织神经网络需要预先确定聚类数的问题,DFKCN采用了可自动确定聚类数的动态自组织神经网络(TGSOM)的结构,在DFKCN网络结构中提出新的学习率计算公式,并以模糊聚类中心作为DFKCN网络中对应的神经元的权值,从而提高了聚类的精度,并可提高收敛速度。将DFKCN模型应用到中文文本聚类中,文本的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。提出了一种新的模糊竞争神经网络聚类模型(NFCNNC),并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,获胜神经元通过比较隶属度值得到。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。NFCNNC具有结构简单,运行效率高,聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。提出一种新的模糊文本关联规则挖掘算法(NFAR)和文本关键字的获得方法,当文本集中存在大量文本,传统的模糊关联规则中的支持度的计算公式不再适用,因而提出新的支持度计算公式。通常用的关联规则在涉及语义问题时,会有冗余规则,隶属函数是预先指定的,引入模糊聚类可克服上述问题;根据TF·IDF首先计算文本特征词的权重,然后计算文本的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键字,将关键字的权重划分成三个属性:高、中、低。利用模糊c均值对关键词的权重进行聚类。再由NFAR算法抽取出文本关联规则。NFAR算法具有运算效率高,规则的精度高的优点。

论文目录:

中文摘要

Abstract

第一章 绪论

1.1 选题的研究背景和意义

1.2 模糊逻辑理论概述

1.2.1 隶属度函数

1.2.2 模糊集的表示

1.2.3 模糊蕴含运算

1.2.4 基本运算

1.3 数据挖掘与文本挖掘概述

1.3.1 数据挖掘概述

1.3.2 文本挖掘概述

1.4 基于模糊逻辑理论的数据及文本挖掘研究综述

1.4.1 模糊逻辑用于聚类

1.4.2 模糊逻辑用于数据挖掘中的关联规则

1.4.3 模糊逻辑用于文本挖掘中的关联规则

1.4.4 模糊逻辑用于分类

1.5 本文的主要工作和创新点

第二章几种主要的聚类和关联规则的方法

2.1 模糊c 均值算法(FCM)

2.2 模糊中心聚类(FCC)

2.3 竞争惩罚学习算法(RPCL)

2.4 模糊自组织聚类网络(FKCN)

2.5 Apriori 算法

2.6 Direct Hashing and Pruning(DHP)算法

2.7 TBAR 算法

第三章 一种挖掘模糊相似关联规则的新方法

3.1 引言

3.2 相似关系的概念

3.2.1 相似关系

3.2.2 相似关联规则的概念

3.3 隶属度函数的确定

3.4 建立模糊相似关联规则的算法

3.4.1 算法的思想

3.4.2 算法的流程图

3.5 仿真实例

3.5.1 实验1

3.5.2 实验2

3.6 本章小结

第四章 TGFCM:一种基于模糊聚类的中文文本挖掘的新方法

4.1 引言

4.2 文本聚类的预处理

4.2.1 文本的特征表示

4.2.2 文本的降维处理

4.3 聚类数的确定

4.3.1 动态自组织神经网络模型

4.3.1.1 网络结构

4.3.1.2 基本概念

4.3.2 动态自组织神经网络(TGSOM)算法

4.4 TGFCM 算法

4.5 实验验证

4.6 本章小结

第五章 DFKCN:一种动态模糊自组织神经网络及其在中文文本聚类中的应用

5.1 引言

5.2 隐含语义分析理论简介

5.2.1 词条矩阵

5.2.2 奇异值分解

5.2.3 k 秩近似矩阵的选取

5.3 动态模糊自组织神经网络( DFKCN)及文本聚类的实 现

5.3.1 DFKCN 模型

5.3.2 训练算法

5.3.3 算法中参数的讨论

5.3.4 聚类的实现

5.4 仿真实验

5.5 本章小结

第六章 NFCNNC:一种新的模糊竞争神经网络聚类模型及其在文本聚类模型及其在文本聚类中的应用

6.1 引言

6.2 NFCNNC 模型

6.2.1 隶属度的确定

6.2.2 NFCNNC 的建立

6.2.3 算法

6.3 用 NFCNNC 模型实现文本聚类

6.3.1 文本的特征表示

6.3.2 算法参数的讨论

6.3.3 文本聚类的实现

6.4 实验验证及分析

6.5 本章小结

第七章 一种新的模糊文本关联规则算法及其应用

7.1 引言

7.2 文本预处理

7.2.1 关键字的获得

7.2.2 关键字权重的模糊化

7.3 NFAR 的支持度公式

7.4 NFAR 算法

7.5 NFAR 算法在文本挖掘中的应用

7.6 实验

7.7 本章小结

第八章 总结和展望

参考文献

发表论文和参加科研情况说明

致谢

发布时间: 2007-07-10

标签:;  ;  ;  ;  ;  

基于模糊逻辑和神经网络的数据及文本挖掘的方法研究
下载Doc文档

猜你喜欢