半监督网页分类及其在目录式搜索引擎中的应用研究

半监督网页分类及其在目录式搜索引擎中的应用研究

论文摘要

随着网络信息的迅猛发展,包括目录式搜索引擎在内的搜索引擎已成为信息检索的重要工具之一,正成为计算机工业界和学术界争相研究和开发的对象。然而,目录式搜索引擎需要人工介入,依靠编辑员来实现目录式搜索引擎中所需要完成的网页自动分类,导致出现了训练效率低、信息量少和信息更新不及时等缺陷。另外,在目录式搜索引擎所搜索的网页信息中,存在着大量的无标签样本和少量的有标签样本,因此,如何利用这些样本来构建分类器已成为网页自动分类研究中一个关键问题,研究目录式搜索引擎中网页的半监督自动分类具有较高的学术价值和十分重要的现实意义。论文分析了半监督网页分类技术的优缺点以及国内外研究现状,介绍了论文的研究目的和意义,针对网页分类中数据集偏斜以及TSVM方法无法确定无标签样本中类别比例等问题,结合数据融合理论和模糊聚类思想,提出了一种基于模糊聚类的半监督网页分类方法。论文主要工作包括以下几个方面:1.系统回顾了传统文本特征提取方法,分析并实现了几种典型的特征提取方法。2.针对所提取的Web文本特征容易出现数据集偏移和维数过高等问题,结合数据融合思想,提出一种基于自适应数据融合的Web文本特征提取方法。3.针对TSVM分类方法无法确定无标签样本中的类别比例等问题,深入研究模糊聚类思想,将该思想运用到TSVM方法中,提出一种基于模糊聚类的半监督分类方法FC TSVM,并将网页超链接信息作为网页分类的一个重要依据。4.设计并实现了一个基于半监督网页分类的目录式搜索引擎原型系统,在系统中实现了本文所提出的基于自适应数据融合的Web文本特征提取方法和基于模糊聚类的半监督分类方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究现状
  • 1.3 本文的研究内容及主要工作
  • 1.4 论文结构安排
  • 第二章 文本分类技术概述
  • 2.1 文本分类
  • 2.1.1 文本分类的概念
  • 2.1.2 文本分类方法分类
  • 2.2 信息检索模型
  • 2.3 文本特征提取
  • 2.4 常用文本分类技术
  • 2.4.1 KNN分类法
  • 2.4.2 Na(?)ve Bayes分类法
  • 2.4.3 支持向量机法
  • 2.5 本章小结
  • 第三章 基于数据融合的Web文本特征提取方法
  • 3.1 数据融合理论
  • 3.1.1 数据融合的定义
  • 3.1.2 数据融合的特点
  • 3.1.3 数据融合的分类
  • 3.2 常用的数据融合方法
  • 3.2.1 神经元数据融合系统
  • 3.2.2 数据融合算法
  • 3.3 基于自适应数据融合的Web文本特征提取方法
  • 3.3.1 自适应融合算法
  • 3.3.2 算法描述
  • 3.3.3 实验与结果比较
  • 3.4 本章小结
  • 第四章 基于模糊聚类的半监督分类方法
  • 4.1 TSVM分类方法
  • 4.1.1 半监督学习
  • 4.1.2 直推式支持向量机
  • 4.2 模糊聚类
  • 4.2.1 模糊集合
  • 4.2.2 模糊聚类分析
  • 4.3 基于模糊聚类的半监督分类方法
  • 4.3.1 最佳模糊分类矩阵和聚类中心的确定
  • 4.3.2 权重m的确定
  • 4.3.3 算法描述
  • 4.3.4 实验与结果比较
  • 4.4 本章小结
  • 第五章 网页分类在目录式搜索引擎中的应用
  • 5.1 目录式搜索引擎的工作原理及体系结构
  • 5.2 目录式搜索引擎实现中的核心技术
  • 5.2.1 网络蜘蛛
  • 5.2.2 网页信息抽取
  • 5.2.3 索引系统的建立
  • 5.3 系统结构及实现
  • 5.3.1 系统运行环境
  • 5.3.2 各模块介绍
  • 5.3.3 系统原型与测试
  • 5.4 本章小结
  • 第六章 结论与展望
  • 6.1 本文的主要工作及结论
  • 6.2 对今后工作研究的建议
  • 致谢
  • 参考文献
  • 附录1:读研期间发表和录用论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    半监督网页分类及其在目录式搜索引擎中的应用研究
    下载Doc文档

    猜你喜欢