基于Web的中文文本分类技术的研究

基于Web的中文文本分类技术的研究

论文摘要

随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个亟待解决的问题。Web文本分类作为Web文本挖掘中的重要技术,可以在较大程度上解决信息杂乱和“信息爆炸”的问题。作为搜索引擎、数字图书馆、信息过滤及信息检索等领域的技术基础,Web文本分类有着广泛的应用前景。本文分析了Web文本挖掘和Web文本分类的研究现状,指出Web中文文本分类领域需要进一步研究和解决的问题,在此基础上,对基于Web的中文文本分类技术进行了深入研究。本文主要内容如下:(1)对Web中文文本分类过程中的关键技术:文本自动分词、文本表示、特征项的权重计算、降维技术等进行详细地分析和讨论,指出现有权重计算方法的不足以及常用特征选择方法的优缺点。(2)介绍常用的分类方法,深入研究了统计学习理论基础上的支持向量机(Support Vector Machine,SVM)方法,分析了SVM用于Web文本分类的优势及不足;研究了粗糙集的相关理论,重点探讨了粗糙集的约简理论以及可变精度粗糙集模型,对粗糙集在Web文本分类中的应用可行性进行了深入的分析。(3)针对现有权重计算方法的不足,在分析Web文本特点的基础上,研究了HTML标记对网页内容的修饰作用,设计了HTML标记的加权策略,并提出了一种基于Web文本的可变精度粗糙集权重计算方法。(4)以上述内容为基础,提出了一种优势互补的Web中文文本分类混合算法;该算法中,粗糙集作为SVM的一个前端处理器,利用其约简理论以及基于Web文本的可变精度粗糙集权重计算方法分别从分类效率和分类精度两个角度对SVM方法进行优化;SVM作为后端分类器,利用SVM的优势对约简并加权后的数据进行分类,使得分类性能得到进一步保证;最后对该混合算法的具体实现过程进行详细地分析和阐述,通过实验验证了算法的有效性,并提出了其在辅助科技宏观决策中的应用模型。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 Web文本挖掘的研究现状
  • 1.2.2 Web文本分类的研究现状
  • 1.3 本文的主要内容和组织结构
  • 1.4 本章小结
  • 第2章 Web文本分类
  • 2.1 Web挖掘
  • 2.1.1 Web挖掘与数据挖掘的区别
  • 2.1.2 Web挖掘的分类
  • 2.2 Web文本挖掘
  • 2.3 Web文本分类
  • 2.3.1 Web文本分类的定义
  • 2.3.2 Web文本分类的系统结构
  • 2.3.3 Web文本分类的实现
  • 2.4 Web中文文本分类的关键技术
  • 2.4.1 文本自动分词技术
  • 2.4.2 文本表示技术
  • 2.4.3 文本特征项的权重计算
  • 2.4.4 降维技术
  • 2.4.5 文本分类方法
  • 2.5 分类质量评价方法
  • 2.6 本章小结
  • 第3章 支持向量机
  • 3.1 引言
  • 3.2 统计学习理论
  • 3.2.1 经验风险最小化ERM
  • 3.2.2 VC维
  • 3.2.3 学习过程的一致性
  • 3.2.4 结构风险最小化原理
  • 3.3 支持向量机
  • 3.3.1 硬间隔SVM
  • 3.3.2 软间隔SVM
  • 3.3.3 线性不可分
  • 3.3.4 核函数
  • 3.4 多分类支持向量机
  • 3.5 支持向量机的优势
  • 3.6 支持向量机在文本分类中的应用
  • 3.7 本章小结
  • 第4章 粗糙集理论及其在Web文本分类中的应用研究
  • 4.1 引言
  • 4.2 粗糙集的基本理论
  • 4.2.1 知识表示系统和知识
  • 4.2.2 正域与负域
  • 4.2.3 约简与相对约简
  • 4.2.4 依赖度和重要性
  • 4.2.5 决策表简化及决策规则的提取
  • 4.2.6 粗糙集中属性约简的几种算法
  • 4.3 可变精度粗糙集模型
  • 4.4 粗糙集用于Web文本分类的可行性分析
  • 4.5 基于Web文本的可变精度粗糙集权重计算方法(WVPRS)
  • 4.5.1 Web文本的特点
  • 4.5.2 可变精度粗糙集在权重计算中的应用
  • 4.5.3 新的权重计算方法的提出
  • 4.6 本章小结
  • 第5章 一种基于Web的中文文本分类混合算法
  • 5.1 引言
  • 5.2 基于Web的中文文本分类混合算法模型
  • 5.3 基于Web的中文文本分类混合算法的理论分析
  • 5.4 基于Web的中文文本分类混合算法的实验验证
  • 5.4.1 获取Web训练集和测试集
  • 5.4.2 文本预处理
  • 5.4.3 特征提取与特征选择
  • 5.4.4 构造决策表
  • 5.4.5 决策表的约简
  • 5.4.6 WVPRS权值计算和SVM分类
  • 5.5 实验结论
  • 5.6 基于Web的中文文本分类在辅助科技宏观决策中的应用模型设计
  • 5.7 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 附录 部分停用词
  • 致谢
  • 作者简介
  • 攻读硕士学位期间发表的论文和参加科研情况
  • 相关论文文献

    • [1].基于贝叶斯分类器的中文文本分类[J]. 电子技术与软件工程 2016(22)
    • [2].中文文本分类系统构架设计[J]. 信息与电脑(理论版) 2012(02)
    • [3].中文文本分类中特征提取的方法[J]. 湖北工业大学学报 2010(02)
    • [4].中文文本分类反馈学习研究[J]. 情报理论与实践 2009(06)
    • [5].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版)网络.预览 2008(07)
    • [6].不同情境下中文文本分类模型的表现及选择[J]. 湖南大学学报(自然科学版) 2016(04)
    • [7].基于类内关键词的中文文本分类模型的改进[J]. 广西师范大学学报(自然科学版) 2009(03)
    • [8].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版) 2008(07)
    • [9].基于极限学习机的中文文本分类方法[J]. 重庆理工大学学报(自然科学) 2018(08)
    • [10].基于局部线性判别嵌入算法的中文文本分类研究[J]. 情报理论与实践 2014(02)
    • [11].基于演化超网络的中文文本分类方法[J]. 江苏大学学报(自然科学版) 2013(02)
    • [12].中文文本分类关键技术的研究[J]. 电脑编程技巧与维护 2016(14)
    • [13].基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术 2015(02)
    • [14].中文文本分类特征选择的研究[J]. 皖西学院学报 2009(02)
    • [15].多视图学习的中文文本分类研究[J]. 信息技术与信息化 2016(09)
    • [16].中文文本分类中一种基于语义的特征降维方法[J]. 现代情报 2011(11)
    • [17].应用于中文文本分类的改进KNN算法[J]. 今日科苑 2010(08)
    • [18].中文文本分类中特征提取方法的比较与改进[J]. 兰州工业高等专科学校学报 2010(06)
    • [19].基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报 2018(05)
    • [20].改进的KNN方法及其在中文文本分类中的应用[J]. 西华大学学报(自然科学版) 2008(02)
    • [21].基于朴素贝叶斯的新闻文本分类[J]. 科技风 2020(14)
    • [22].DBN在中文文本分类中的应用[J]. 计算机工程与设计 2018(09)
    • [23].基于CapsNet的中文文本分类研究[J]. 数据分析与知识发现 2018(12)
    • [24].基于SVM的中文文本分类系统的设计与实现[J]. 电子设计工程 2016(16)
    • [25].基于SA-SVM的中文文本分类研究[J]. 计算机应用与软件 2019(03)
    • [26].基于信息熵加权的Word2vec中文文本分类研究[J]. 长春师范大学学报 2020(02)
    • [27].基于TF-IDF中文文本分类实现[J]. 现代计算机 2020(06)
    • [28].基于Python的中文文本分类的实现[J]. 福建电脑 2016(12)
    • [29].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
    • [30].基于张量空间模型的中文文本分类[J]. 合肥工业大学学报(自然科学版) 2010(12)

    标签:;  ;  ;  ;  ;  ;  

    基于Web的中文文本分类技术的研究
    下载Doc文档

    猜你喜欢