论文摘要
WWW 是一个开放性的全球分布式网络,网上的资源没有统一的结构和管理,导致了信息查找和使用的困难。网页的自动分类可以在较大程度上消除网上信息杂乱的现象,并方便用户准确地定位所需的信息和分流信息,已成为一项具有较大实用价值的关键技术。同时,互联网络的发展对网络信息发现服务提出了更高的要求,仅按内容对网页进行分类的技术已不再适应人们的需要,因此需要开发适合我国国情的中文 Web 文档分类技术,更好地帮助用户使用和管理网络信息。本文就是针对以上情况对 Web 信息分类技术所进行的深入研究,在总结和分析文本分类技术和基于内容的 Web 文档分类技术的基础上,提出性质分类的新概念,并分析性质分类的意义、可行性、具体算法以及该技术在搜索引擎结果优化中的应用。主要研究内容包括:1.总结文本分类的过程和 Web 文档的结构特点,在此基础上阐述基于内容的 Web 文档分类算法,其中包括基于网页文本的分类、基于超链接的分类和基于查询目志的分类等,详细描述了 KNN 算法、SVM 算法、贝叶斯算法和决策树算法,并比较和分析各种分类方法的优缺点。2.提出 Web 文档性质分类的新概念,通过对大量网页的结构特点研究,分析该技术的可行性和必要性,并在文本分类和内容分类算法的基础上提出性质分类的具体算法,如基于超文本的分类、基于超链接的分类和基于文件格式的分类等等。3.比较内容分类和性质分类的相同点和不同点,如二者在意义、处理对象、算法思想、发展领域等方面基本相似,而在含义、具体过程、发展状况等方面则大不相同,通过比较有助于更好地理解和使用 Web 文档的内容分类算法和性质分类算法。4.提出并实现性质分类技术在搜索引擎结果优化中的应用,设计两种不同结构的搜索引擎结果分类代理:一种是基于查询优化的结果分类代理,另一种是基于结果优化的结果分类代理。并比较二者的优缺点,进而提出它们不同的应用范围。