web文档性质分类的研究与应用

论文摘要

WWW 是一个开放性的全球分布式网络,网上的资源没有统一的结构和管理,导致了信息查找和使用的困难。网页的自动分类可以在较大程度上消除网上信息杂乱的现象,并方便用户准确地定位所需的信息和分流信息,已成为一项具有较大实用价值的关键技术。同时,互联网络的发展对网络信息发现服务提出了更高的要求,仅按内容对网页进行分类的技术已不再适应人们的需要,因此需要开发适合我国国情的中文 Web 文档分类技术,更好地帮助用户使用和管理网络信息。本文就是针对以上情况对 Web 信息分类技术所进行的深入研究,在总结和分析文本分类技术和基于内容的 Web 文档分类技术的基础上,提出性质分类的新概念,并分析性质分类的意义、可行性、具体算法以及该技术在搜索引擎结果优化中的应用。主要研究内容包括:1.总结文本分类的过程和 Web 文档的结构特点,在此基础上阐述基于内容的 Web 文档分类算法,其中包括基于网页文本的分类、基于超链接的分类和基于查询目志的分类等,详细描述了 KNN 算法、SVM 算法、贝叶斯算法和决策树算法,并比较和分析各种分类方法的优缺点。2.提出 Web 文档性质分类的新概念,通过对大量网页的结构特点研究,分析该技术的可行性和必要性,并在文本分类和内容分类算法的基础上提出性质分类的具体算法,如基于超文本的分类、基于超链接的分类和基于文件格式的分类等等。3.比较内容分类和性质分类的相同点和不同点,如二者在意义、处理对象、算法思想、发展领域等方面基本相似,而在含义、具体过程、发展状况等方面则大不相同,通过比较有助于更好地理解和使用 Web 文档的内容分类算法和性质分类算法。4.提出并实现性质分类技术在搜索引擎结果优化中的应用,设计两种不同结构的搜索引擎结果分类代理:一种是基于查询优化的结果分类代理,另一种是基于结果优化的结果分类代理。并比较二者的优缺点,进而提出它们不同的应用范围。

论文目录

摘要

Abstract

引言

第一章Web 文档分类技术概述

1.1 文本分类技术

1.1.1 文本分类概述

1.1.2 文本自动分类问题的一般性描述

1.1.3 文本分类的意义

1.2 Web 文档分类技术

1.2.1 Web 信息的基本特点

1.2.2 Web 文档分类方法概述

1.2.3 特征抽取

1.2.4 特征选择

1.2.5 分类器

1.3 本章小结

第二章基于内容的Web 文档分类

2.1 内容分类的含义

2.2 基于内容分类的具体算法

2.2.1 基于网页文本分类的算法

2.2.2 基于超链接分类的算法

2.2.3 基于查询日志的分类方法

2.3 各种分类方法比较

2.4 本章小结

第三章基于性质的Web 文档分类

3.1 性质分类概念的提出

3.1.1 性质分类概念的产生背景

3.1.2 性质分类的体系结构

3.2 性质分类的可行性分析

3.3 性质分类方法的研究

3.3.1 基于超文本的性质分类算法

3.3.2 基于超链接的性质分类算法

3.3.3 基于文件格式的性质分类

3.4 本章小结

第四章两种分类方法的比较

4.1 相同点

4.2 不同点

4.3 本章小结

第五章性质分类在搜索引擎结果性质分类中的应用

5.1 搜索结果的排序方法

5.2 利用代理对搜索结果进行性质分类

5.3 搜索结果分类代理的结构的实现

5.3.1 搜索结果分类代理

5.3.2 基于查询优化的搜索结果分类代理

5.3.3 基于结果优化的搜索结果分类代理

5.4 搜索结果分类代理的用户界面

5.5 本章小结

第六章总结与展望

参考文献

致谢

在学期间公开发表论文及著作情况

web文档性质分类的研究与应用

论文摘要

论文目录

相关论文文献

猜你喜欢