基于向量空间模型的中文网页自动分类技术研究

基于向量空间模型的中文网页自动分类技术研究

论文摘要

信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类,便于用户按类别进行查找,提高检索信息的效率,已成为信息检索方向的研究热点。介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标,对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法,分析了国内外主要的改进算法,发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发,提出了一种生成代表样本集合的算法,并在中文网页分类器CPCK上进行验证。实验证明,与普通的KNN分类算法相比,代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析,发现在网页的分块信息中,相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上,充分利用网页中的结构化信息和链接资源,提出了利用分块算法提取主题相关链接块,并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK,实现了对网页的自动处理、特征抽取和分类,并将提出的改进算法应用到分类器中进行验证。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题的研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 自动分类技术的发展趋势
  • 1.2.2 分类模型和分类算法的发展现状
  • 1.2.3 基于网页特性的分类研究现状
  • 1.3 课题研究的主要内容
  • 1.4 论文的组织结构
  • 第二章 中文网页分类关键技术
  • 2.1 文本分类技术概述
  • 2.1.1 文本分类概念
  • 2.1.2 自动分类的方法
  • 2.1.3 网页分类过程
  • 2.2 网页预处理
  • 2.2.1 HTML文档解析
  • 2.2.2 中文分词
  • 2.2.3 停用词删除
  • 2.2.4 词性选择
  • 2.3 文本表示
  • 2.3.1 向量空间模型
  • 2.3.2 权重计算
  • 2.4 特征选取技术
  • 2.4.1 文档频率(DF)
  • 2.4.2 信息增益(IG)
  • 2.4.3 开方拟合检验(χ2-CHI)
  • 2.4.4 互信息法(MI)
  • 2.5 分类算法简介
  • 2.5.1 简单距离向量法
  • 2.5.2 朴素贝叶斯(Naive-Bayes)
  • 2.5.3 支持向量机方法(SVM)
  • 2.5.4 最近邻居算法(NN)
  • 2.6 文本分类效果评价指标
  • 2.7 网页分类在搜索引擎中的应用
  • 2.8 本章小结
  • 第三章 基于代表样本的KNN算法研究
  • 3.1 KNN算法
  • 3.1.1 算法描述
  • 3.1.2 算法分析
  • 3.1.3 相关研究工作
  • 3.2 代表样本生成新策略
  • 3.2.1 代表样本概念的提出
  • 3.2.2 一种新的代表样本生成策略
  • 3.3 改进算法描述
  • 3.3.1 训练算法
  • 3.3.2 分类算法
  • 3.4 基于代表样本生成策略的KNN分类过程
  • 3.5 本章小结
  • 第四章 基于中文网页结构特征的特征项加权
  • 4.1 网页的半结构特性
  • 4.2 常见的基于网页结构特征的特征加权方法
  • 4.2.1 利用HTML标记进行解析加权
  • 4.2.2 基于网页分块的特征加权
  • 4.2.3 基于超链接文本的特征加权
  • 4.3 基于主题相关链接的权值修正方法的提出
  • 4.3.1 网页的DOM解析及分块
  • 4.3.2 相关链接块的提取
  • 4.4 本章小结
  • 第五章 中文网页分类器设计与实现
  • 5.1 开发与运行平台
  • 5.2 处理流程
  • 5.3 分类器设计说明
  • 5.3.1 系统结构
  • 5.3.2 模块功能描述
  • 5.3.3 系统类说明
  • 5.3.4 数据集说明
  • 5.3.5 网页下分类器CPCK界面
  • 5.4 实验结果分析
  • 5.4.1 代表样本法与传统KNN算法的实验比较
  • 5.4.2 代表样本法与其他算法的实验比较
  • 5.4.3 主题相关链接加权法实验对比
  • 结论
  • 主要工作
  • 主要创新点
  • 存在的问题及未来的方向
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    • [1].基于内容的中文网页自动分类系统[J]. 中国校外教育 2009(07)
    • [2].法罗群岛2017年下半年新邮介绍[J]. 集邮博览 2017(10)
    • [3].法罗群岛邮政中文网页介绍(上)[J]. 集邮博览 2012(05)
    • [4].中文网页自动分类构架设计[J]. 福建电脑 2014(04)
    • [5].中文网页自动分类综述[J]. 电脑知识与技术 2010(27)
    • [6].法罗群岛第二季度新邮介绍[J]. 集邮博览 2016(07)
    • [7].资讯快递[J]. 航空港 2009(06)
    • [8].一种中文网页消重算法的设计与实现[J]. 电子技术 2013(09)
    • [9].融合多元特征的中文网页关键词提取方法研究[J]. 图书馆 2020(01)
    • [10].中文网页作者情感态度倾向性分类研究[J]. 信阳师范学院学报(自然科学版) 2009(02)
    • [11].基于KNN及相关链接的中文网页分类研究[J]. 哈尔滨商业大学学报(自然科学版) 2011(02)
    • [12].基于改进HTML-Tree的中文网页特征向量提取方法[J]. 信息技术 2009(01)
    • [13].基于向量空间模型的中文网页主题特征项抽取[J]. 吉林大学学报(信息科学版) 2014(01)
    • [14].法罗群岛邮政中文网页介绍(下)[J]. 集邮博览 2012(07)
    • [15].中文网页分类方法的研究[J]. 微电子学与计算机 2009(09)
    • [16].基于分层树模型的中文网页主题时间提取方法[J]. 计算机应用 2017(S1)
    • [17].法罗群岛新邮精选[J]. 集邮博览 2019(10)
    • [18].中文网页分类研究综述[J]. 现代计算机(专业版) 2012(22)
    • [19].基于关联规则挖掘的中文网页体裁模式发现[J]. 计算机工程与科学 2008(12)
    • [20].海淘达人教你淘遍全球[J]. 小康(财智) 2015(08)
    • [21].基于字频分布的中文网页编码识别算法[J]. 计算机工程 2014(12)
    • [22].海淘攻略系列(三) 海淘的购物目标[J]. 小康(财智) 2015(09)
    • [23].一种基于预分类的高效SVM中文网页分类器[J]. 计算机工程与应用 2010(01)
    • [24].中文网页信息检索测试集的构建、分析及应用[J]. 中文信息学报 2008(01)
    • [25].环保热词之浅度发现[J]. 中国减灾 2013(16)
    • [26].利用关键词倒排表实时检索中文网页[J]. 计算机工程与应用 2010(28)
    • [27].一种新的自适应中文网页聚类算法[J]. 现代计算机(专业版) 2009(12)
    • [28].中文网页分布式并行索引的设计与实现[J]. 微计算机信息 2010(15)
    • [29].“鱼皮”邮票引领法罗群岛近期新邮[J]. 集邮博览 2016(10)
    • [30].基于语义的中文网页检索[J]. 计算机科学 2012(08)

    标签:;  ;  ;  ;  ;  

    基于向量空间模型的中文网页自动分类技术研究
    下载Doc文档

    猜你喜欢