基于内容化目录的网络资源搜索研究

论文摘要

伴随着互联网的高速发展,信息的发布与共享超越了时空的限制。人们进入了一个“信息爆炸”的时代,互联网信息的快速膨胀给人们带来了很多网络资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们将会湮没于信息的海洋。搜索引擎正是为了解决搜索网络信息资源而诞生的技术。它以一定的策略在因特网上搜集、发现信息,对信息进行理解、提取、组织和处理。它是连接用户和网络资源的最佳纽带。搜索引擎的技术涉及到自然语言理解、中文分词、人工智能、机器学习等学科。本文首先阐述了基于目录树搜索的研究背景和意义,然后对基于目录树搜索的国内外研究现状进行了分析。文章从网络爬虫收集网页、中文分词、层次分类和建立目录树等预先对收集到的文本进行处理。从理论上分析每个过程的基本原理,在网络爬虫中有网络爬虫的基本原理和策略;中文分词中有算法设计和实现的原理;在层次分类和建立目录树中有层次分类和建立目录树的基本原理、实现算法和特点,其中包含有文本之间的相关度计算和Huffman原理的应用;通过以上对文本的预先处理建立了一个资源库之后,设计和实现了搜索引擎,描述了信息的输入到搜索信息的输出的过程和步骤。本文不仅从理论的方面讲解了网络爬虫、中文分词、层次分类和建立目录树、搜索引擎,还把其中的原理和算法应用到实验中去,利用中文分词系统完成14多万的中文分词;从已经完成的分词文本中抽取一部分网络资源进行层次分类和建立目录树并存入数据库中;最后设计搜索引擎对已经建立目录树进行信息搜索。本文的最后还设计了一些测试用例对整个过程功能进行测试,主要是对功能的一些边界测试。通过测试保证系统的可用性和稳定性,有力保证了理论转化为实际的可能性。

论文目录

摘要

Abstract

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 自然语言处理的发展现状

1.2.2 中文分词及其瓶颈

1.2.3 内容化目录树的现状

1.3 本文主要工作

1.4 本文组织结构

第二章网络爬虫

2.1 网络爬虫介绍

2.2 网络爬虫原理

2.3 网络爬虫策略

2.3.1 广度优先搜索策略

2.3.2 最佳优先搜索策略

2.3.3 最佳优先近视性

2.4 常用网络爬虫介绍

2.4.1 Googlebot 的特点

2.4.2 常用网络爬虫

2.5 本章小结

第三章中文分词

3.1 中文分词发展史

3.2 中文分词词典

3.2.1 分词词典机制

3.2.2 分词词典模型

3.3 中文分词算法

3.3.1 基本原理

3.3.2 算法特点

3.4 中文分词实现

3.5 本章小结

第四章层次分类和建立目录树

4.1 基本原理

4.1.1 特征词权重计算

4.1.2 文本相似度计算

4.1.3 Huffman 算法

4.1.4 目录树建立

4.2 实验结果分析

4.3 常用分类方法分析

4.4 层次分类优点

4.5 本章小结

第五章搜索的设计与实现

5.1 搜索设计理论

5.1.1 中文分词理论

5.1.2 层次分类理论

5.2 搜索总体设计

5.3 搜索概要设计

5.3.1 中文分词概要设计

5.3.2 目录树搜索概要设计

5.4 数据层设计

5.5 搜索实现

5.6 搜索特点分析

5.7 本章小结

第六章试验结果与分析

6.1 实验环境配置

6.2 测试用例及测试结果

6.2.1 中文分词测试

6.2.2 文本相关度测试

6.2.3 层次分类和目录树建立测试

6.2.4 搜索测试

6.3 测试结果分析

6.4 本章小结

结论

参考文献

致谢

基于内容化目录的网络资源搜索研究

论文摘要

论文目录

相关论文文献

猜你喜欢