论文摘要
信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类,便于用户按类别进行查找,提高检索信息的效率,已成为信息检索方向的研究热点。介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标,对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法,分析了国内外主要的改进算法,发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发,提出了一种生成代表样本集合的算法,并在中文网页分类器CPCK上进行验证。实验证明,与普通的KNN分类算法相比,代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析,发现在网页的分块信息中,相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上,充分利用网页中的结构化信息和链接资源,提出了利用分块算法提取主题相关链接块,并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK,实现了对网页的自动处理、特征抽取和分类,并将提出的改进算法应用到分类器中进行验证。
论文目录
相关论文文献
- [1].基于内容的中文网页自动分类系统[J]. 中国校外教育 2009(07)
- [2].法罗群岛2017年下半年新邮介绍[J]. 集邮博览 2017(10)
- [3].法罗群岛邮政中文网页介绍(上)[J]. 集邮博览 2012(05)
- [4].中文网页自动分类构架设计[J]. 福建电脑 2014(04)
- [5].中文网页自动分类综述[J]. 电脑知识与技术 2010(27)
- [6].法罗群岛第二季度新邮介绍[J]. 集邮博览 2016(07)
- [7].资讯快递[J]. 航空港 2009(06)
- [8].一种中文网页消重算法的设计与实现[J]. 电子技术 2013(09)
- [9].融合多元特征的中文网页关键词提取方法研究[J]. 图书馆 2020(01)
- [10].中文网页作者情感态度倾向性分类研究[J]. 信阳师范学院学报(自然科学版) 2009(02)
- [11].基于KNN及相关链接的中文网页分类研究[J]. 哈尔滨商业大学学报(自然科学版) 2011(02)
- [12].基于改进HTML-Tree的中文网页特征向量提取方法[J]. 信息技术 2009(01)
- [13].基于向量空间模型的中文网页主题特征项抽取[J]. 吉林大学学报(信息科学版) 2014(01)
- [14].法罗群岛邮政中文网页介绍(下)[J]. 集邮博览 2012(07)
- [15].中文网页分类方法的研究[J]. 微电子学与计算机 2009(09)
- [16].基于分层树模型的中文网页主题时间提取方法[J]. 计算机应用 2017(S1)
- [17].法罗群岛新邮精选[J]. 集邮博览 2019(10)
- [18].中文网页分类研究综述[J]. 现代计算机(专业版) 2012(22)
- [19].基于关联规则挖掘的中文网页体裁模式发现[J]. 计算机工程与科学 2008(12)
- [20].海淘达人教你淘遍全球[J]. 小康(财智) 2015(08)
- [21].基于字频分布的中文网页编码识别算法[J]. 计算机工程 2014(12)
- [22].海淘攻略系列(三) 海淘的购物目标[J]. 小康(财智) 2015(09)
- [23].一种基于预分类的高效SVM中文网页分类器[J]. 计算机工程与应用 2010(01)
- [24].中文网页信息检索测试集的构建、分析及应用[J]. 中文信息学报 2008(01)
- [25].环保热词之浅度发现[J]. 中国减灾 2013(16)
- [26].利用关键词倒排表实时检索中文网页[J]. 计算机工程与应用 2010(28)
- [27].一种新的自适应中文网页聚类算法[J]. 现代计算机(专业版) 2009(12)
- [28].中文网页分布式并行索引的设计与实现[J]. 微计算机信息 2010(15)
- [29].“鱼皮”邮票引领法罗群岛近期新邮[J]. 集邮博览 2016(10)
- [30].基于语义的中文网页检索[J]. 计算机科学 2012(08)