基于FOIL算法的Web文本分类器

基于FOIL算法的Web文本分类器

论文摘要

随着 Internet 的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以 Web 文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。  论文首先阐述了文本分类器的总体模型,包括:信息预处理、特征表示、特征提取、利用文本挖掘技术提取分类模式和对模式进行质量评估等五个方面。其次,对分词、特征提取、规则提取、文本分类等理论知识和关键技术作了介绍。最后,利用 FOIL 算法提取规则,构造中文文本分类器,并在 Delphi 6.0 的平台上编程实现。  论文最大的特点是在一阶规则作用下的分类。与传统的分类器不同,本文所构造的分类器先利用文档的信息,提取属于每个类的一阶规则,再利用这些一阶规则对文档进行分类。  针对所选用的数据集,论文中对分类器的构造做了以下几点改进:(1)针对Web 文档特殊的半结构性,将文档的标题依据其对分类的作用分为三类,并在特征提取时对标题赋以适当的权重。(2)对特征提取的结果做进一步处理:删除分类器预先设定的无用词集(如地名,人名等)。(3)由于 FOIL 算法提取出的规则均为正例规则,因此本文将系统设计为两类分类器。即对同时属于几个类别的文档,根据每个类别起作用的规则的权重,对文档进行唯一类别分类。另外,在分类器的规则中增加了 default 规则,使得所有文档都属于一个明确的类别。(4)过滤权值低的规则,保证出现在规则前件中的谓词有一定的重要性,以提高分类的准确性。  论文在理论上分析了文本分类采用一阶规则的优点,对所设计的分类算法进行了研究并且利用实例进行验证。最后详细介绍了基于 FOIL 算法的 Web 中文文本分类器的构造与实现,并给出性能指标参数(查准率、查全率、F1 值)。

论文目录

  • 第一章 绪论
  • 1.1 课题的研究背景和意义
  • 1.2 课题的研究状况
  • 1.3 研究课题的来源和主要研究目的
  • 1.4 本文的内容
  • 第二章 Web 挖掘简介
  • 2.1 Web 挖掘
  • 2.1.1 Web 挖掘的概念
  • 2.1.2 Web 挖掘的分类
  • 2.1.3 Web 挖掘面临的挑战及发展趋势
  • 2.2 Web文本挖掘概述
  • 2.2.1 Web 文本挖掘的分类
  • 2.2.2 文本挖掘和数据挖掘的关系
  • 2.3 文本自动分类技术
  • 2.3.1 问题描述
  • 2.3.2 文本表示模型
  • 2.3.3 文本自动分类系统的类别
  • 2.3.4 文本分类中计算机和人类学习过程的异同
  • 第三章 Web 文本自动分类平台
  • 3.1 中文文本自动分类平台概述
  • 3.2 关键技术的实现
  • 3.2.1 自动分词技术
  • 3.2.1.1 自动分词算法简介
  • 3.2.1.2 本系统应用的两种分词算法
  • 3.2.2 特征表示与提取
  • 3.2.2.1 特征提取算法简介
  • 3.2.2.2 本系统使用的特征提取算法
  • 第四章 基于 FOIL 算法的 Web 文本分类器的构造
  • 4.1 规则的提取
  • 4.1.1 关联规则在文本挖掘中的应用
  • 4.1.1.1 关联规则综述
  • 4.1.1.2 关联规则在文本挖掘中的应用
  • 4.1.2 一阶规则在文本挖掘中的应用
  • 4.1.2.1 一阶 Horn 子句综述
  • 4.1.2.2 学习一阶规则集:FOIL
  • 4.1.2.3 引导 FOIL 的搜索
  • 4.2 文本分类
  • 4.2.1 常用分类算法简介
  • 4.2.1.1 判别分析
  • 4.2.1.2 机器学习的思路
  • 4.2.1.3 神经网络
  • 4.2.1.4 性能评价
  • 4.2.2 本系统分类算法选取
  • 第五章 系统设计与实验测试
  • 5.1 系统的具体实现
  • 5.1.1 系统的具体实现
  • 5.1.2 分类器模型构造过程的比较
  • 5.2 实验测试
  • 5.2.1 训练集和测试集的选取及划分
  • 5.2.2 对系统所做的各项改进
  • 5.2.3 改进前后测试结果及比较
  • 结束语
  • 1 、本文的主要研究成果和创新点
  • 2 、存在的问题
  • 3 、对未来工作的展望
  • 参考文献
  • 致谢
  • 个人简历、在校期间的研究成果及发表的学术论文
  • 相关论文文献

    • [1].基于支持向量机的文本分类器的实现与设计[J]. 网友世界 2014(12)
    • [2].一种改进的多项式核支持向量机文本分类器[J]. 计算机应用研究 2009(08)
    • [3].基于模糊支持向量机与决策树的文本分类器[J]. 计算机应用 2008(12)
    • [4].一种面向机械领域文本分类器的设计[J]. 微电子学与计算机 2012(04)
    • [5].多层文本分类器的研究及应用[J]. 计算机应用与软件 2012(03)
    • [6].利用开源框架构建基于深度神经网络的短文本分类器[J]. 四川图书馆学报 2018(01)
    • [7].中文文本分类方法研究[J]. 电脑知识与技术 2019(04)
    • [8].基于THUCTC的金融语料情感分析模型优化[J]. 广东工业大学学报 2018(03)
    • [9].基于KNN算法的文本分类器的设计与实现[J]. 电脑编程技巧与维护 2016(08)
    • [10].基于多种特征选择的NB组合文本分类器设计[J]. 计算机工程 2009(24)
    • [11].基于Web的专用爬虫的研究[J]. 贵州师范大学学报(自然科学版) 2009(03)
    • [12].针对能源使用概况的现状分析建模[J]. 经贸实践 2018(15)
    • [13].基于支持向量机的PU中文文本分类器构建[J]. 南京邮电大学学报(自然科学版) 2015(06)
    • [14].基于概率的覆盖算法在文本分类器中的应用[J]. 漳州职业技术学院学报 2009(02)
    • [15].藏文文本分类器的设计与实现[J]. 科技致富向导 2010(12)
    • [16].一种新颖的特征提取方法在文本分类器中的应用[J]. 邵阳学院学报(自然科学版) 2008(01)
    • [17].基于TAN结构的贝叶斯文本分类器研究[J]. 网络安全技术与应用 2012(01)
    • [18].贝叶斯算法实现文本分类器[J]. 大众科技 2011(02)
    • [19].kNN文本分类器类偏斜问题的一种处理对策[J]. 计算机研究与发展 2009(01)
    • [20].贝叶斯文本分类器的研究与改进[J]. 计算机工程与应用 2009(12)
    • [21].一种改进的高效贝叶斯短信文本分类器[J]. 南京师范大学学报(工程技术版) 2014(03)
    • [22].基于SVM算法的文本分类技术研究[J]. 计算机仿真 2013(02)
    • [23].基于贝叶斯算法的中文文本分类器设计与实现[J]. 信息与电脑(理论版) 2018(05)
    • [24].基于文本挖掘的流行病学致病因素的提取[J]. 北京生物医学工程 2013(02)
    • [25].一种改进的贝叶斯算法在短信过滤中的研究[J]. 计算机技术与发展 2015(09)
    • [26].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
    • [27].一种主题爬虫文本分类器的构建[J]. 中文信息学报 2010(06)
    • [28].新型快速中文文本分类器的设计与实现[J]. 计算机工程与应用 2009(22)
    • [29].基于Rocchio方法和k均值聚类的支持向量机文本分类方法[J]. 软件导刊 2008(06)
    • [30].覆盖算法下文本分类特征选择的研究[J]. 计算机技术与发展 2008(11)

    标签:;  ;  ;  ;  

    基于FOIL算法的Web文本分类器
    下载Doc文档

    猜你喜欢