中文网页层次分类研究

中文网页层次分类研究

论文摘要

随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑给我们带来了巨量信息。那么面对如此庞大的信息,我们迫切需要解决的问题是如何管理和利用这些信息资源。为了有效地组织和检索网页资源,必须对网页进行合理分类。近年来,网页分类已成为信息领域的研究热点之一。如何针对中文网页的结构特点,将中文语言处理技术与文本分类技术更好的运用在中文网页分类上是一项很有意义的富有挑战性的研究课题。传统的中文文本分类技术中大多数使用中文切词系统对文本进行预处理,切词系统对于人名,地名,网页中的新词及中英文混用词识别能力较差。本文在讨论文本分类关键技术的同时,提出了一种序列数据挖掘方法来替代现有的切词系统。我们将每篇文本看作一系列以字为基本单位的字符串,用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为候选特征。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。面对海量的互联网信息,我们需要更多的类别来管理,单层的类别显得孤立,杂乱,庞大。具有层次结构的多层分类显然要比单层分类能更有效地管理文本。层次分类方法与单层分类方法相比,有自己的特点和技术问题。目前,国内外对层次分类方法的探讨还不是很深入。本文在研究国内外层次分类方法的同时,提出了一些解决层次分类问题的可能方法,并构造了一个自己的层次分类模型。最后,本文结合前面所提出的技术设计实现了一个基于序列挖掘方法的中文网页分类系统。实验表明,应用序列挖掘方法的分类系统与传统分类系统在分类精度相同的情况下,分类速度比传统分类系统快很多。

论文目录

  • 论文摘要
  • Abstract
  • 第一章 引言
  • 1.1 论文背景及意义
  • 1.2 问题描述
  • 1.3 国内外研究现状
  • 1.4 本文内容及结构
  • 1.4.1 本文内容
  • 1.4.2 本文结构
  • 第二章 中文网页分类技术概述
  • 2.1 网页预处理
  • 2.1.1 网页结构信息处理
  • 2.1.2 网页文本预处理
  • 2.2 特征选择与降维处理
  • 2.3 文本分类算法
  • 2.3.1 Naive Bayes 算法
  • 2.3.2 KNN 算法
  • 2.3.3 SVM 算法
  • 2.4 算法评估指标
  • 第三章 基于序列挖掘的中文网页候选特征选择方法
  • 3.1 挖掘出频繁出现的字符串
  • 3.1.1 序列挖掘方法
  • 3.1.2 PAT 树
  • 3.1.3 改进的 PAT 树结构
  • 3.1.4 频繁字符串挖掘算法
  • 3.2 字符串的净频率
  • 3.2.1 净频率计算公式
  • 3.2.2 PAT 树中串的净频率计算算法
  • 3.3 特征选择过程
  • 3.3.1 网页预处理
  • 3.3.2 挖掘频繁出现字串
  • 3.3.3 从频繁字串中选择特征
  • 第四章 层次分类方法及特征权重计算模型
  • 4.1 层次分类方法
  • 4.1.1 层次分类方法面临的问题
  • 4.1.2 层次分类方法概述
  • 4.1.3 Shrinkage 算法
  • 4.1.4 层次分类模型
  • 4.2 文本特征权重计算
  • 4.2.1 TFIDF 计算公式介绍
  • 4.2.2 TF*IDF 公式改进
  • 4.3 网页内容加权处理
  • 4.4 特征选择方法
  • 4.4.1 特征选择方法比较
  • 4.4.2 CHI 算法
  • 第五章 中文网页层次分类系统设计及实现
  • 5.1 系统框架
  • 5.2 数据库设计
  • 5.3 主要模块设计
  • 5.3.1 文本预处理
  • 5.3.2 特征选择过程
  • 5.3.3 抽取层次结构
  • 5.3.4 文本表示
  • 5.3.5 分类过程
  • 第六章 实验结果及分析
  • 6.1 数据集及开源工具
  • 6.2 实验方法及硬件条件
  • 6.3 数据预处理
  • 6.4 实验结果分析
  • 6.4.1 传统分类方法实验结果及分析
  • 6.4.2 序列挖掘方法实验结果及分析
  • 6.4.3 Shrinkage 算法与 NaiveBayes 算法比较
  • 6.4.4 TF*CHI 权重改进后的实验结果及分析
  • 第七章 总结与展望
  • 7.1 论文小结
  • 7.2 进一步工作
  • 参考文献
  • 致 谢
  • 相关论文文献

    • [1].科学计算程序蜕变关系层次分类模型[J]. 计算机科学 2020(S2)
    • [2].大规模层次分类问题研究及其进展[J]. 计算机学报 2012(10)
    • [3].高等数学分层次分类别教学方法的探讨与实践[J]. 佳木斯教育学院学报 2011(07)
    • [4].广西篇[J]. 中国制造业信息化 2009(18)
    • [5].实施分层次分类别培养 构建“双师型”教师队伍[J]. 卫生职业教育 2009(08)
    • [6].做好做活做新基层党建工作[J]. 北京支部生活 2009(01)
    • [7].基于层次分类方法的信用评级研究[J]. 征信 2017(11)
    • [8].基于阻塞先验知识的文本层次分类模型[J]. 模式识别与人工智能 2010(04)
    • [9].综合层次分类方法在舰船动力装置故障诊断中的应用研究[J]. 中国舰船研究 2008(03)
    • [10].面向层次分类标签的词性标注系统[J]. 计算机工程 2009(21)
    • [11].浅谈人力资本的基本内涵与多层次分类[J]. 中国管理信息化 2010(15)
    • [12].大规模层次分类中的候选类别搜索[J]. 计算机学报 2014(01)
    • [13].数学探究性学习问题的层次分类及其原则[J]. 数学教学通讯 2010(21)
    • [14].刍议计算机基础应用分层次分类别的三维教学法探讨与实践[J]. 新课程学习(下) 2014(12)
    • [15].基于深度多任务学习的层次分类[J]. 计算机辅助设计与图形学学报 2018(05)
    • [16].基于多层次分类DEA的高等院校科研效率评价[J]. 科研管理 2013(S1)
    • [17].深层次分类中候选类别搜索算法[J]. 计算机应用 2017(03)
    • [18].结合相关类别信息的大规模文本层次分类研究[J]. 山东大学学报(理学版) 2011(05)
    • [19].基于Fisher判别的层次分类法的森林遥感影像分类[J]. 西南林业大学学报(自然科学) 2017(04)
    • [20].基于维基百科结构特征的语义相关度计算方法研究[J]. 情报科学 2015(09)
    • [21].基于“多层次分类”方法的异常P2P网贷借款识别[J]. 管理工程学报 2017(03)
    • [22].如何打造高效课堂[J]. 新课程(中旬) 2012(11)
    • [23].Web文本层次分类方法研究[J]. 温州职业技术学院学报 2008(03)
    • [24].基于邻域粗糙集的大规模层次分类在线流特征选择[J]. 模式识别与人工智能 2019(09)
    • [25].基于用户自描述标签的层次分类体系构建方法[J]. 计算机科学 2016(07)
    • [26].特征选择算法在层次分类中的比较研究[J]. 数字技术与应用 2010(05)
    • [27].中学生数学推理能力探究[J]. 数学学习与研究 2012(09)
    • [28].分层特征计算和错误控制的层次分类方法[J]. 计算机科学 2010(10)
    • [29].高等教育高层次人才队伍建设研究[J]. 国家教育行政学院学报 2008(12)
    • [30].基于领域特征词的突发事件层次分类方法[J]. 信息工程大学学报 2012(05)

    标签:;  ;  ;  ;  

    中文网页层次分类研究
    下载Doc文档

    猜你喜欢