中文网页分类论文-黄超

中文网页分类论文-黄超

导读:本文包含了中文网页分类论文开题报告文献综述及选题提纲参考文献,主要关键词:中文网页分类,KNN算法,文本分类,特征提取

中文网页分类论文文献综述

黄超[1](2018)在《基于Weka平台的改进KNN中文网页分类研究》一文中研究指出网页是信息传递的最重要的媒介之一,而网页信息的主要呈现形式是文本信息,集社交、娱乐、新闻、知识等重要功能。目前,网页数量的增长正以超乎人们想象的速度在发展,传统的人工分类方法已不切实际,而且,由于网页数量的爆炸性增长,大量无关的噪音网页充斥在其中,人们越来越难以快速有效的找到自己所需的信息。因此,合理有效的组织管理网页信息成为了一个重要的研究课题。中文网页分类就是基于这样的目的,利用文本分类的相关技术,对网页进行分类,使得用户在检索网页的时候能有针对性,也方便门户网站对网页进行归类。本文在对中文网页分类的整个流程做了相关研究与分析的基础上,选取KNN作为网页文本分类器。KNN算法是一种简洁有效的非参数分类方法,被广泛应用于文本分类实验中。针对文本分类所遇到的高维文本问题,提出了DC-DF特征提取方式,用以对特征项进行有效约减,降低文本维度,提高分类精度。在对KNN算法的优缺点进行相关的研究与分析的基础上,针对分类时待分类文本需要和训练集大量样本进行相似度计算的问题,提出了一种基于分组中心向量的KNN算法。对类别内的样本集分组求出各组中心向量,用所构成的中心向量集重新代表训练库进行相似度的计算,降低计算复杂度,以此来提升算法的分类性能。通过实验表明,改进的算法在准确率、召回率及F值相较传统KNN算法都有提升,在与其他分类算法相比也具有一定的优越性。(本文来源于《上海师范大学》期刊2018-04-01)

鞠亮[2](2017)在《基于关键词自学习的中文网页分类技术研究与实现》一文中研究指出近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文本信息进行中文分词,获得文本关键词;将其余网页信息转换成符合关键词模型的形式,与文本关键词一起构建叁维网页关键词特征模型,实现网页信息提取和表征技术的改进。(2)基于自学习的网页分类算法的改进。研究一种卷积神经网络算法在中文网页分类任务中的应用方案。卷积神经网络能够自学习网页深层特征信息,利用局部感知野,对网页特征的感知从局部到整体,在更高层获得网页整体特征信息;权值共享的特性又可以减少神经网络的复杂性。卷积神经网络与支持向量机级联,有效降低支持向量机的输入维度,并提高了分类准确度。在训练参数的过程中,首先训练传统的卷积神经网络,将其部分训练参数迁移至新的级联模型中,再整合训练级联模型,这种做法提高了训练周期与消耗的计算资源。(3)基于特征增广的次级通道实现。针对某些网页提取的特征维度过于稀疏,影响分类效果的情况,研究对这类网页进行特征项增广的技术。提取网页内链接,进行链接匹配后二次访问,对二次网页提取重要信息以扩充原始网页特征项;获取网页标题的关键词,进行二次搜索,提取相似标题网页大权值信息块,增广原始网页关键词模型。以次级通道的形式封装数据增广技术,添加至分类流程结构中。(4)系统实现与性能测试。基于以上网页关键词特征模型构建和基于自学的网页分类算法研究,实现了基于关键词自学习的中文网页分类系统。对网页关键词特征模型、基于自学习的卷积神经网络-支持向量机级联分类算法和次级通道增广技术进行了性能测试。实验结果表明,以上提出的改进方法有效提升了分类性能,能够更好地针对大规模的中文网页分类场景。(本文来源于《武汉理工大学》期刊2017-03-01)

郑津,景彦昊[3](2015)在《中文网页分类技术解析》一文中研究指出本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。(本文来源于《福建电脑》期刊2015年02期)

王晓艳,林昌意[4](2015)在《基于查询意图的中文信息类网页分类研究》一文中研究指出[目的/意义]通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程]以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论]实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。(本文来源于《图书情报工作》期刊2015年01期)

郑津,景彦昊[5](2014)在《中文网页自动分类构架设计》一文中研究指出本文主要分析了中文网页自动分类所要用到的功能和技术,给出了一个可行的中文网页自动分类系统的基本构架。(本文来源于《福建电脑》期刊2014年04期)

周军[6](2013)在《中文网页自动分类系统及关键技术研究与实现》一文中研究指出随着互联网的快速发展,网页数量也呈爆炸式的增长。有效组织并管理这些海量网页的方法之一就是利用网页自动分类技术对其进行分类。由于目前网页内容纷繁复杂,而且网页文本长度长短不一,将传统的基于机器学习的分类方法应该用到大规模网页分类中时,往往准确率偏低,这使得这些在传统分类中表现出色的方法难以有效解决大规模网页分类问题。因此,如何针对目前互联网类别体系复杂、网页数量巨大的特点研究一种高效的网页自动分类技术是一个亟待解决的问题。本文针对这一类问题的解决做了相关的研究,主要研究了目前分类所用到的常用方法,指出了其存在的不足,并提出了相应的解决方案,最后通过实验证明了这些方法的有效性。完成的主要工作和取得的研究成果如下:1、对目前的网页分类相关理论进行了研究,包括网页的分类过程、网页表示模型、中文分词技术、特征抽取方法及网页分类算法等。2、研究了目前常用的分类算法,针对目前自动获取的网页内容文本短小的问题,提出了一种基于Labeled_LDA模型的特征词空间扩充方法,通过实验证明了其可行性。3、针对新闻类别等网页内容杂乱,分类准确率较低的现象,提出了一种基于URL结构及标题的预分类算法,并辅助以实验证明,有效的解决了这一问题。4、将上述提出的单个改进方案综合起来,确立了一种新的分类框架,并基于此最终实现了一个网页分类系统,通过实验分析,相对于传统的分类方法,本文提出的方案可以使分类的准确率提高0.5%-1%。最后总结了取得的成果和尚存在的问题并提出了进一步改进的方向。(本文来源于《国防科学技术大学》期刊2013-11-01)

潘正才,陈海光[7](2013)在《基于信息增益的中文网页SVM分类研究》一文中研究指出针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.(本文来源于《上海师范大学学报(自然科学版)》期刊2013年03期)

钱强[8](2012)在《中文网页分类算法研究》一文中研究指出随着Internet及其相关技术的飞速发展,互联网上出现了海量而庞杂的Web信息资源。如何从这些海量的非结构化数据中提取和产生知识,找到人们感兴趣的内容,已经成为当前迫切需要解决的重要问题。中文网页分类技术作为解决这一问题的关键技术之一,日益成为研究的热点。其在搜索引擎、信息推送、信息过滤和自动问答等领域得到了越来越广泛的应用。本文详细介绍了中文网页分类中的关键技术,包括网页的预处理技术、特征提取技术和主流的网页分类算法。讨论了诸如TF-IDF、互信息、2统计量、信息增益和期望交叉熵等特征提取方法。详细分析了最小距离算法、KNN算法、朴素贝叶斯算法和支持向量机算法等主流网页分类算法的基本思想和主要的优缺点。在网页的特征提取算法中,传统的VSM模型忽略了词项之间具有相互依赖且语义相关的特点。词共现图方法可以较好的解决这一问题,但是目前的主流词共现图方法大多对于特征词项权重的计算机械简单。而本文提出的一种改进型的词共现图方法既考虑词之间语义信息,又不忽视高频词对于主题表示的重要影响。实验证明,该方法实现简单,准确率较高。在网页分类算法中,KNN算法有着非常广泛的应用。但KNN算法的一个显着缺点是计算复杂度会随着训练集规模的增加而线性增加,在训练集规模较大时,该算法时间消耗非常大。针对这一情况,本文提出了一种改进型的KNN算法,主要的思想是通过改进待分类文本的近邻点的查找策略,从而提高KNN算法的运行效率,降低其算法复杂度。在本文的最后,通过实验验证了KNN、NB和SVM算法的各自性能。并对本文提出的改进型KNN算法给出了对比实验数据,证明了它的确拥有提高分类计算效率、降低算法复杂度的优点。(本文来源于《江苏科技大学》期刊2012-12-30)

李勇[9](2012)在《中文网页分类研究综述》一文中研究指出研究人员对网页分类进行大量富有成效的研究工作,截至目前与网页分类相关的研究主要集中于如何选择合适的分类特征、如何设计高效的分类算法这两个方面。从上述两个角度对当前网页分类技术的研究现状进行归纳和综述,以便后续研究人员能更好、更准确地把握网页分类的研究动态。(本文来源于《现代计算机(专业版)》期刊2012年22期)

王霜霜[10](2012)在《中文农业网页多分类方法研究》一文中研究指出随着信息技术的匕速发展和互联网的普及,农业信息化的建设、服务及水平都得到了极大的促进与提高。互联网中海量、无序和繁杂的农业信息在为农业从业人员带来便利的同时,也增加了获取有效信息的难度。如何对这些农业信息进行有效的分类管理,从而方便农民朋友及时、准确地从中获取需要的实际信息,成为农业信息化领域研究的重要课题。本文的主要工作包括:1)深入研究了文本分类的关键技术,主要包括:文本预处理、中文分词、特征提取方法、特征加权算法、机器学习算法以及分类评价标准技术,以农业网页的语料库为基础,对文本多分类技术、特征提取算法、特征加权算法和机器学习算法进行了重点研究。2)对中文农业网页进行了分类标准定义,构建出中文农业网页语料库。并从导航页面类、农业新闻类、政策法规类、农业科技类和市场信息类五种类别的农业网页中分别随机抽取1000张网页共5000张网页作为多分类实验的训练样本集,同时还分别随机抽取了500张网页共2500张网页作为多分类实验的测试样本集。3)首先利用HTMLParser解析器对样本集网页进行预处理,利用庖丁解牛分词器软件对已经预处理的网页进行分词、去除停用词处理;其次利用方统计方法进行特征提取,选择各类分值中最大的前300个词作为实验特征词,利用布尔权重、词频权重和词频倒文档频权重对特征进行加权;然后利用多元线性回归、朴素贝叶斯、K最临近和支持向量机四种机器学习方法对叁种不同权值的特征向量空间进行有监督学习;最终得到了12组中文农业网页的多分类模型。4)从基于相同机器学习方法、不同特征权重的角度,分析比较了12组多分类模型回测预测时的查准率、查全率和F1测度。结果表明:没有哪种特征加权方法对分类效果有绝对优势,叁种特征权重在不同机器学习分类模型中各有优劣。从基于相同特征权重、不同机器学习方法的角度进行的分析对比,结果表明:K最临近算法学习能力(回测)最好,结合词频权值获得的模型,准确率、召回率及F1测度均可达到100%;支持向量机推广能力或泛化能力(预测)最好,结合布尔权值获得的模型,准确率、召回率及F1测度均可达到99%左右。总结,本文基于中文农业网页语料库随机抽取的5000张训练样本和2500张测试样本,使用文本分类技术中的特征加权算法与机器学习算法对农业网页的多分类技术进行了深入研究。通过对实验结果的分析与对比,结果表明:使用支持向量机算法结合布尔权值获得的分类器模型,对农业网页语料库有最好的多分类效果。样本回测时,准确率、召回率及F1测度均可达到99.9%;样本预测时,准确率、召回率及F1测度均可达到99%左右。(本文来源于《新疆农业大学》期刊2012-06-01)

中文网页分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文本信息进行中文分词,获得文本关键词;将其余网页信息转换成符合关键词模型的形式,与文本关键词一起构建叁维网页关键词特征模型,实现网页信息提取和表征技术的改进。(2)基于自学习的网页分类算法的改进。研究一种卷积神经网络算法在中文网页分类任务中的应用方案。卷积神经网络能够自学习网页深层特征信息,利用局部感知野,对网页特征的感知从局部到整体,在更高层获得网页整体特征信息;权值共享的特性又可以减少神经网络的复杂性。卷积神经网络与支持向量机级联,有效降低支持向量机的输入维度,并提高了分类准确度。在训练参数的过程中,首先训练传统的卷积神经网络,将其部分训练参数迁移至新的级联模型中,再整合训练级联模型,这种做法提高了训练周期与消耗的计算资源。(3)基于特征增广的次级通道实现。针对某些网页提取的特征维度过于稀疏,影响分类效果的情况,研究对这类网页进行特征项增广的技术。提取网页内链接,进行链接匹配后二次访问,对二次网页提取重要信息以扩充原始网页特征项;获取网页标题的关键词,进行二次搜索,提取相似标题网页大权值信息块,增广原始网页关键词模型。以次级通道的形式封装数据增广技术,添加至分类流程结构中。(4)系统实现与性能测试。基于以上网页关键词特征模型构建和基于自学的网页分类算法研究,实现了基于关键词自学习的中文网页分类系统。对网页关键词特征模型、基于自学习的卷积神经网络-支持向量机级联分类算法和次级通道增广技术进行了性能测试。实验结果表明,以上提出的改进方法有效提升了分类性能,能够更好地针对大规模的中文网页分类场景。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文网页分类论文参考文献

[1].黄超.基于Weka平台的改进KNN中文网页分类研究[D].上海师范大学.2018

[2].鞠亮.基于关键词自学习的中文网页分类技术研究与实现[D].武汉理工大学.2017

[3].郑津,景彦昊.中文网页分类技术解析[J].福建电脑.2015

[4].王晓艳,林昌意.基于查询意图的中文信息类网页分类研究[J].图书情报工作.2015

[5].郑津,景彦昊.中文网页自动分类构架设计[J].福建电脑.2014

[6].周军.中文网页自动分类系统及关键技术研究与实现[D].国防科学技术大学.2013

[7].潘正才,陈海光.基于信息增益的中文网页SVM分类研究[J].上海师范大学学报(自然科学版).2013

[8].钱强.中文网页分类算法研究[D].江苏科技大学.2012

[9].李勇.中文网页分类研究综述[J].现代计算机(专业版).2012

[10].王霜霜.中文农业网页多分类方法研究[D].新疆农业大学.2012

标签:;  ;  ;  ;  

中文网页分类论文-黄超
下载Doc文档

猜你喜欢