论文摘要
随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑给我们带来了巨量信息。那么面对如此庞大的信息,我们迫切需要解决的问题是如何管理和利用这些信息资源。为了有效地组织和检索网页资源,必须对网页进行合理分类。近年来,网页分类已成为信息领域的研究热点之一。如何针对中文网页的结构特点,将中文语言处理技术与文本分类技术更好的运用在中文网页分类上是一项很有意义的富有挑战性的研究课题。传统的中文文本分类技术中大多数使用中文切词系统对文本进行预处理,切词系统对于人名,地名,网页中的新词及中英文混用词识别能力较差。本文在讨论文本分类关键技术的同时,提出了一种序列数据挖掘方法来替代现有的切词系统。我们将每篇文本看作一系列以字为基本单位的字符串,用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为候选特征。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。面对海量的互联网信息,我们需要更多的类别来管理,单层的类别显得孤立,杂乱,庞大。具有层次结构的多层分类显然要比单层分类能更有效地管理文本。层次分类方法与单层分类方法相比,有自己的特点和技术问题。目前,国内外对层次分类方法的探讨还不是很深入。本文在研究国内外层次分类方法的同时,提出了一些解决层次分类问题的可能方法,并构造了一个自己的层次分类模型。最后,本文结合前面所提出的技术设计实现了一个基于序列挖掘方法的中文网页分类系统。实验表明,应用序列挖掘方法的分类系统与传统分类系统在分类精度相同的情况下,分类速度比传统分类系统快很多。
论文目录
相关论文文献
- [1].科学计算程序蜕变关系层次分类模型[J]. 计算机科学 2020(S2)
- [2].大规模层次分类问题研究及其进展[J]. 计算机学报 2012(10)
- [3].高等数学分层次分类别教学方法的探讨与实践[J]. 佳木斯教育学院学报 2011(07)
- [4].广西篇[J]. 中国制造业信息化 2009(18)
- [5].实施分层次分类别培养 构建“双师型”教师队伍[J]. 卫生职业教育 2009(08)
- [6].做好做活做新基层党建工作[J]. 北京支部生活 2009(01)
- [7].基于层次分类方法的信用评级研究[J]. 征信 2017(11)
- [8].基于阻塞先验知识的文本层次分类模型[J]. 模式识别与人工智能 2010(04)
- [9].综合层次分类方法在舰船动力装置故障诊断中的应用研究[J]. 中国舰船研究 2008(03)
- [10].面向层次分类标签的词性标注系统[J]. 计算机工程 2009(21)
- [11].浅谈人力资本的基本内涵与多层次分类[J]. 中国管理信息化 2010(15)
- [12].大规模层次分类中的候选类别搜索[J]. 计算机学报 2014(01)
- [13].数学探究性学习问题的层次分类及其原则[J]. 数学教学通讯 2010(21)
- [14].刍议计算机基础应用分层次分类别的三维教学法探讨与实践[J]. 新课程学习(下) 2014(12)
- [15].基于深度多任务学习的层次分类[J]. 计算机辅助设计与图形学学报 2018(05)
- [16].基于多层次分类DEA的高等院校科研效率评价[J]. 科研管理 2013(S1)
- [17].深层次分类中候选类别搜索算法[J]. 计算机应用 2017(03)
- [18].结合相关类别信息的大规模文本层次分类研究[J]. 山东大学学报(理学版) 2011(05)
- [19].基于Fisher判别的层次分类法的森林遥感影像分类[J]. 西南林业大学学报(自然科学) 2017(04)
- [20].基于维基百科结构特征的语义相关度计算方法研究[J]. 情报科学 2015(09)
- [21].基于“多层次分类”方法的异常P2P网贷借款识别[J]. 管理工程学报 2017(03)
- [22].如何打造高效课堂[J]. 新课程(中旬) 2012(11)
- [23].Web文本层次分类方法研究[J]. 温州职业技术学院学报 2008(03)
- [24].基于邻域粗糙集的大规模层次分类在线流特征选择[J]. 模式识别与人工智能 2019(09)
- [25].基于用户自描述标签的层次分类体系构建方法[J]. 计算机科学 2016(07)
- [26].特征选择算法在层次分类中的比较研究[J]. 数字技术与应用 2010(05)
- [27].中学生数学推理能力探究[J]. 数学学习与研究 2012(09)
- [28].分层特征计算和错误控制的层次分类方法[J]. 计算机科学 2010(10)
- [29].高等教育高层次人才队伍建设研究[J]. 国家教育行政学院学报 2008(12)
- [30].基于领域特征词的突发事件层次分类方法[J]. 信息工程大学学报 2012(05)