web文档性质分类的研究与应用

web文档性质分类的研究与应用

论文摘要

WWW 是一个开放性的全球分布式网络,网上的资源没有统一的结构和管理,导致了信息查找和使用的困难。网页的自动分类可以在较大程度上消除网上信息杂乱的现象,并方便用户准确地定位所需的信息和分流信息,已成为一项具有较大实用价值的关键技术。同时,互联网络的发展对网络信息发现服务提出了更高的要求,仅按内容对网页进行分类的技术已不再适应人们的需要,因此需要开发适合我国国情的中文 Web 文档分类技术,更好地帮助用户使用和管理网络信息。本文就是针对以上情况对 Web 信息分类技术所进行的深入研究,在总结和分析文本分类技术和基于内容的 Web 文档分类技术的基础上,提出性质分类的新概念,并分析性质分类的意义、可行性、具体算法以及该技术在搜索引擎结果优化中的应用。主要研究内容包括:1.总结文本分类的过程和 Web 文档的结构特点,在此基础上阐述基于内容的 Web 文档分类算法,其中包括基于网页文本的分类、基于超链接的分类和基于查询目志的分类等,详细描述了 KNN 算法、SVM 算法、贝叶斯算法和决策树算法,并比较和分析各种分类方法的优缺点。2.提出 Web 文档性质分类的新概念,通过对大量网页的结构特点研究,分析该技术的可行性和必要性,并在文本分类和内容分类算法的基础上提出性质分类的具体算法,如基于超文本的分类、基于超链接的分类和基于文件格式的分类等等。3.比较内容分类和性质分类的相同点和不同点,如二者在意义、处理对象、算法思想、发展领域等方面基本相似,而在含义、具体过程、发展状况等方面则大不相同,通过比较有助于更好地理解和使用 Web 文档的内容分类算法和性质分类算法。4.提出并实现性质分类技术在搜索引擎结果优化中的应用,设计两种不同结构的搜索引擎结果分类代理:一种是基于查询优化的结果分类代理,另一种是基于结果优化的结果分类代理。并比较二者的优缺点,进而提出它们不同的应用范围。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 引言
  • 第一章Web 文档分类技术概述
  • 1.1 文本分类技术
  • 1.1.1 文本分类概述
  • 1.1.2 文本自动分类问题的一般性描述
  • 1.1.3 文本分类的意义
  • 1.2 Web 文档分类技术
  • 1.2.1 Web 信息的基本特点
  • 1.2.2 Web 文档分类方法概述
  • 1.2.3 特征抽取
  • 1.2.4 特征选择
  • 1.2.5 分类器
  • 1.3 本章小结
  • 第二章 基于内容的Web 文档分类
  • 2.1 内容分类的含义
  • 2.2 基于内容分类的具体算法
  • 2.2.1 基于网页文本分类的算法
  • 2.2.2 基于超链接分类的算法
  • 2.2.3 基于查询日志的分类方法
  • 2.3 各种分类方法比较
  • 2.4 本章小结
  • 第三章 基于性质的Web 文档分类
  • 3.1 性质分类概念的提出
  • 3.1.1 性质分类概念的产生背景
  • 3.1.2 性质分类的体系结构
  • 3.2 性质分类的可行性分析
  • 3.3 性质分类方法的研究
  • 3.3.1 基于超文本的性质分类算法
  • 3.3.2 基于超链接的性质分类算法
  • 3.3.3 基于文件格式的性质分类
  • 3.4 本章小结
  • 第四章 两种分类方法的比较
  • 4.1 相同点
  • 4.2 不同点
  • 4.3 本章小结
  • 第五章 性质分类在搜索引擎结果性质分类中的应用
  • 5.1 搜索结果的排序方法
  • 5.2 利用代理对搜索结果进行性质分类
  • 5.3 搜索结果分类代理的结构的实现
  • 5.3.1 搜索结果分类代理
  • 5.3.2 基于查询优化的搜索结果分类代理
  • 5.3.3 基于结果优化的搜索结果分类代理
  • 5.4 搜索结果分类代理的用户界面
  • 5.5 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 在学期间公开发表论文及著作情况
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    web文档性质分类的研究与应用
    下载Doc文档

    猜你喜欢