论文摘要
伴随着互联网的高速发展,信息的发布与共享超越了时空的限制。人们进入了一个“信息爆炸”的时代,互联网信息的快速膨胀给人们带来了很多网络资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们将会湮没于信息的海洋。搜索引擎正是为了解决搜索网络信息资源而诞生的技术。它以一定的策略在因特网上搜集、发现信息,对信息进行理解、提取、组织和处理。它是连接用户和网络资源的最佳纽带。搜索引擎的技术涉及到自然语言理解、中文分词、人工智能、机器学习等学科。本文首先阐述了基于目录树搜索的研究背景和意义,然后对基于目录树搜索的国内外研究现状进行了分析。文章从网络爬虫收集网页、中文分词、层次分类和建立目录树等预先对收集到的文本进行处理。从理论上分析每个过程的基本原理,在网络爬虫中有网络爬虫的基本原理和策略;中文分词中有算法设计和实现的原理;在层次分类和建立目录树中有层次分类和建立目录树的基本原理、实现算法和特点,其中包含有文本之间的相关度计算和Huffman原理的应用;通过以上对文本的预先处理建立了一个资源库之后,设计和实现了搜索引擎,描述了信息的输入到搜索信息的输出的过程和步骤。本文不仅从理论的方面讲解了网络爬虫、中文分词、层次分类和建立目录树、搜索引擎,还把其中的原理和算法应用到实验中去,利用中文分词系统完成14多万的中文分词;从已经完成的分词文本中抽取一部分网络资源进行层次分类和建立目录树并存入数据库中;最后设计搜索引擎对已经建立目录树进行信息搜索。本文的最后还设计了一些测试用例对整个过程功能进行测试,主要是对功能的一些边界测试。通过测试保证系统的可用性和稳定性,有力保证了理论转化为实际的可能性。
论文目录
摘要Abstract第一章绪论1.1 研究背景与意义1.2 国内外研究现状1.2.1 自然语言处理的发展现状1.2.2 中文分词及其瓶颈1.2.3 内容化目录树的现状1.3 本文主要工作1.4 本文组织结构第二章网络爬虫2.1 网络爬虫介绍2.2 网络爬虫原理2.3 网络爬虫策略2.3.1 广度优先搜索策略2.3.2 最佳优先搜索策略2.3.3 最佳优先近视性2.4 常用网络爬虫介绍2.4.1 Googlebot 的特点2.4.2 常用网络爬虫2.5 本章小结第三章中文分词3.1 中文分词发展史3.2 中文分词词典3.2.1 分词词典机制3.2.2 分词词典模型3.3 中文分词算法3.3.1 基本原理3.3.2 算法特点3.4 中文分词实现3.5 本章小结第四章层次分类和建立目录树4.1 基本原理4.1.1 特征词权重计算4.1.2 文本相似度计算4.1.3 Huffman 算法4.1.4 目录树建立4.2 实验结果分析4.3 常用分类方法分析4.4 层次分类优点4.5 本章小结第五章搜索的设计与实现5.1 搜索设计理论5.1.1 中文分词理论5.1.2 层次分类理论5.2 搜索总体设计5.3 搜索概要设计5.3.1 中文分词概要设计5.3.2 目录树搜索概要设计5.4 数据层设计5.5 搜索实现5.6 搜索特点分析5.7 本章小结第六章试验结果与分析6.1 实验环境配置6.2 测试用例及测试结果6.2.1 中文分词测试6.2.2 文本相关度测试6.2.3 层次分类和目录树建立测试6.2.4 搜索测试6.3 测试结果分析6.4 本章小结结论参考文献致谢
相关论文文献
标签:网络爬虫论文; 中文分词论文; 层次分类论文; 目录树论文; 搜索引擎论文;