论文摘要
随着网络信息的迅猛发展,包括目录式搜索引擎在内的搜索引擎已成为信息检索的重要工具之一,正成为计算机工业界和学术界争相研究和开发的对象。然而,目录式搜索引擎需要人工介入,依靠编辑员来实现目录式搜索引擎中所需要完成的网页自动分类,导致出现了训练效率低、信息量少和信息更新不及时等缺陷。另外,在目录式搜索引擎所搜索的网页信息中,存在着大量的无标签样本和少量的有标签样本,因此,如何利用这些样本来构建分类器已成为网页自动分类研究中一个关键问题,研究目录式搜索引擎中网页的半监督自动分类具有较高的学术价值和十分重要的现实意义。论文分析了半监督网页分类技术的优缺点以及国内外研究现状,介绍了论文的研究目的和意义,针对网页分类中数据集偏斜以及TSVM方法无法确定无标签样本中类别比例等问题,结合数据融合理论和模糊聚类思想,提出了一种基于模糊聚类的半监督网页分类方法。论文主要工作包括以下几个方面:1.系统回顾了传统文本特征提取方法,分析并实现了几种典型的特征提取方法。2.针对所提取的Web文本特征容易出现数据集偏移和维数过高等问题,结合数据融合思想,提出一种基于自适应数据融合的Web文本特征提取方法。3.针对TSVM分类方法无法确定无标签样本中的类别比例等问题,深入研究模糊聚类思想,将该思想运用到TSVM方法中,提出一种基于模糊聚类的半监督分类方法FC TSVM,并将网页超链接信息作为网页分类的一个重要依据。4.设计并实现了一个基于半监督网页分类的目录式搜索引擎原型系统,在系统中实现了本文所提出的基于自适应数据融合的Web文本特征提取方法和基于模糊聚类的半监督分类方法。
论文目录
相关论文文献
标签:搜索引擎论文; 特征提取论文; 网页分类论文; 超链接论文; 数据融合论文; 模糊聚类论文; 直推式支持向量机论文;