基于体裁的中文网页分类

基于体裁的中文网页分类

论文摘要

随着通讯及网络技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。以文本格式存储的信息资源的激增,增加了对于快速、自动文本分类的迫切需求。然而,目前大部分文本自动分类的研究都是基于内容的,没有考虑文章的功能及形式结构上的特点,在某些方面并不满足人们的需求。而基于体裁的文本分类的研究,在对信息资源进行有效的管理和检索等方面,都有一定的积极作用。本文探讨了中文网页的体裁分类问题,主要的研究内容包括:(1)中文网页体裁分类的特征项选取问题。传统的文本内容分类仅以词语作为特征项,而由于语言表达方式的差异,英文体裁分类关于特征项选取的相关研究并不完全适用于中文。本文主要研究区分不同体裁的各种特征;提出了用模糊字符串模式表示不同体裁用语特点的特征;结合自动抽取方法和人工归纳的方式来获得表示特征的模糊字符串模式。实现方法上,摆脱了传统的文本分类对切分词处理和词典的依赖,通过改进PAT树(Patricia Tree)的存储结构,对文本进行序列模式挖掘来获得候选特征项,克服了传统方法中的词库更新问题及切分词处理对新词语、英文短语提取效果不佳等的缺陷。(2)特征项的权重计算问题。基于体裁分类多种特征集的特点,探讨不同特征空间对体裁类别的判别能力问题,提出了一种评价方法;据此,提出特征项的权值调整策略,即根据不同特征空间对体裁类别判别能力的强弱,对文本在不同特征空间的特征项权值进行调整。(3)分类方法。引入文本的关联分类规则挖掘,结合关联规则分类对SVM (Support Vector Machines)分类器的分类性能进行修正。讨论了关联规则的挖掘、优化以及分类器的组合问题,提出了改进了规则的优化策略及算法。相关实验结果表明,本文的特征项选取方法总体上来说是可行的,模糊字符串模式特征的引入,也有利于改进某些体裁类别的分类效果。此外,提出的特征空间对体裁类别的判别能力的评价方法符合经验知识,权值的调整策略也提高了分类器的整体性能。关联规则对于SVM分类器的辅助修正在总体上有所帮助,但并非十分明显。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 文本分类概述
  • 1.2.1 文本分类的定义
  • 1.2.2 文本分类过程简介
  • 1.2.3 文本体裁分类概述
  • 1.3 国内外研究现状
  • 1.4 论文的主要工作与研究内容
  • 1.4.1 论文的主要工作
  • 1.4.2 论文的研究特色和创新说明
  • 1.4.3 论文的组织结构
  • 第二章 网页文本的特征表示
  • 2.1 网页文本预处理
  • 2.1.1 网页信息表示分析
  • 2.1.2 网页预处理流程
  • 2.2 特征项的选取
  • 2.2.1 频繁字符串特征
  • 2.2.1.1 传统的自动分词技术
  • 2.2.1.2 基于序列挖掘的频繁字符串抽取
  • 2.2.1.3 低频高权字符串特征的获取
  • 2.2.2 模糊字符串模式特征
  • 2.2.3 平均段长、平均句长
  • 2.2.4 网页的链接结构信息
  • 2.3 特征项的权重计算问题
  • 2.3.1 初始权重的计算
  • 2.3.2 基于特征空间区分能力的权值调整策略
  • 2.3.2.1 特征空间对不同体裁类别的区分能力
  • 2.3.2.2 样本的权值调整
  • 2.4 特征选择方法
  • 2.4.1 文本频率DF
  • 2.4.2 信息增益IG
  • 2.4.3 互信息MI
  • 2 统计法'>2.4.4 χ2统计法
  • 第三章 文本分类和评估方法
  • 3.1 分类算法介绍
  • 3.1.1 中心向量比较法(Rocchio)
  • 3.1.2 K 近邻法(K-Nearest Neighbor,KNN)
  • 3.1.3 朴素贝叶斯算法(Na(?)ve Bayes,NB)
  • 3.1.4 支持向量机(Support Vector Machines,SVM)
  • 3.1.4.1 支持向量机基本原理
  • 3.1.4.2 SVM 多类分类方法
  • 3.2 一种SVM 与关联规则相结合的分类器SVMAR
  • 3.2.1 关联规则分类
  • 3.2.1.1 关联规则的挖掘
  • 3.2.1.2 关联规则的优化
  • 3.2.1.3 利用关联规则进行分类
  • 3.2.2 SVM 和关联规则分类器的组合――SVMAR
  • 3.2.2.1 分类结果的相关性分析
  • 3.2.2.2 候选类别权值的确定
  • 3.2.2.3 分类器的组合
  • 3.3 评估方法
  • 3.3.1 准确率、查全率和F1 值
  • 3.3.2 宏平均和微平均
  • 第四章 系统的设计实现与实验分析
  • 4.1 系统功能结构设计
  • 4.2 部分功能模块处理流程说明
  • 4.3 实验结果及性能评价
  • 4.3.1 数据集
  • 4.3.2 实验环境及开源项目说明
  • 4.3.3 实验结果分析
  • 4.3.3.1 特征项选取实验
  • 4.3.3.2 特征权值调整实验
  • 4.3.3.3 SVM 与 SVMAR 分类效果比较实验
  • 4.3.3.4 实验总结
  • 第五章 结论与展望
  • 5.1 总结
  • 5.2 进一步工作展望
  • 参考文献
  • 攻读硕士期间参加的课题和发表的论文
  • 致谢
  • 相关论文文献

    • [1].中文网络评论的情感特征项选择研究[J]. 信息系统学报 2012(01)
    • [2].应用特征项分布信息的信息增益改进方法研究[J]. 山东大学学报(理学版) 2009(11)
    • [3].一种带有显著特征项的模糊聚类算法[J]. 河南大学学报(自然科学版) 2011(02)
    • [4].基于特征项权重自动分解的文本聚类[J]. 计算机工程 2011(11)
    • [5].基于位置的特征项权重算法[J]. 中国新技术新产品 2011(14)
    • [6].基于特征项聚合的古典诗歌分类模型[J]. 东华大学学报(自然科学版) 2014(05)
    • [7].基于科技论文多特征项共现突发强度分析方法的算法实现与可视化图谱研究[J]. 图书情报工作 2015(24)
    • [8].本体视图特征项提取算法及其在智能检索中的应用[J]. 图书情报工作 2010(10)
    • [9].基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J]. 电子学报 2015(07)
    • [10].基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J]. 计算机应用与软件 2015(10)
    • [11].基于语义特征项列表的工艺知识推送技术研究[J]. 现代制造工程 2016(09)
    • [12].基于科技文献多特征项共现的图谱可视化方法研究[J]. 中国科技资源导刊 2017(01)
    • [13].基于特征项扩展的中文文本分类方法[J]. 应用科技 2010(03)
    • [14].基于Spark和改进的TF-IDF算法的用户特征分析[J]. 软件工程 2016(10)
    • [15].基于本体视图特征项抽取方法研究[J]. 计算机应用研究 2010(01)
    • [16].基于特征项的文献共现网络在学术信息检索中的应用[J]. 图书情报工作 2014(15)
    • [17].文本分类中一种改进的特征项权重计算方法[J]. 福建师范大学学报(自然科学版) 2020(02)
    • [18].一种基于词长的TFIDF特征项权值计算方法[J]. 电脑知识与技术 2011(32)
    • [19].领域概念术语提取中特征项自动抽取方法[J]. 计算机工程与设计 2012(08)
    • [20].科研机构的科研状况研究——基于论文特征项共现分析方法[J]. 国家图书馆学刊 2011(03)
    • [21].基于特征相关的改进加权朴素贝叶斯分类算法[J]. 厦门大学学报(自然科学版) 2012(04)
    • [22].基于音频特征的乐器分类研究[J]. 软件导刊 2018(06)
    • [23].一种结合文档频率和互信息的特征项提取方法[J]. 电脑知识与技术 2012(11)
    • [24].Web文本分类中特征项权重的研究[J]. 科技和产业 2010(02)
    • [25].基于IPA评价的上海世博会服务特征感知实证研究[J]. 中国市场 2010(49)
    • [26].基于LSI/SVD的文本分类方法研究[J]. 微计算机信息 2009(30)
    • [27].Web文本分类技术研究[J]. 福建电脑 2008(09)
    • [28].结合CHI统计和改进TF-IDF算法的微博特征项提取[J]. 电子世界 2016(22)
    • [29].基于DOM的信息检索研究[J]. 信息网络安全 2014(05)
    • [30].改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作 2013(03)

    标签:;  ;  ;  ;  ;  

    基于体裁的中文网页分类
    下载Doc文档

    猜你喜欢