基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫的研究

论文摘要

近些年随着互联网信息量的快速增长,如何准确、快速、高效地从互联网上获取信息的问题变得越来越突出,面向主题的聚焦爬虫技术应运而生。现有的面向主题的聚焦爬虫系统均不同程度地存在领域或主题依赖,即主题受限的不足。为了节约资源、提高建立的快速性、增加适应的广泛性,研究一种面向多领域的、具有主题可移植性的聚焦爬虫系统是互联网应用快速发展的需要。本文在分析总结了现有主题聚焦爬虫技术的基础上,提出了常量与变量主题聚焦爬虫的概念。针对变量主题聚焦爬虫中主题特征的动态生成以及网页抓取准确性下降这两个核心问题,提出了一个基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型,并就其中的关键技术进行了研究。首先,提出了一个改进的网页结构化表示模型DocView-（?）,在量化表示中,它考虑了节点影响因子对节点权值的重要影响,以及节点类型对节点权值的不同影响,使得网页的量化表示更加准确,基于此,提出网页关键词自动提取改进算法HTTE-a成功地增强了算法抗主题噪声的能力,在性能上优于现有算法HTTE-b,为实现领域关键词自动扩展,提供关键的技术基础;接着,提出了一个面向Hopfield Web理论模型的综合结构预测相关性分析模型,成功克服了现有模型的计算不稳定问题;最后,提出了一个基于Hopfield人工神经网络的URL搜索算法HNcrawl,它在搜索URL的同时,通过神经元的相关性传播、增强与弱化,结合神经元筛选与剪技策略,不断清晰Web社区的主题边界。本文还给出了变量主题聚焦爬虫系统的一个性能评测标准,并实现了变量主题聚焦爬虫参考模型。实验证明,系统的准确率、效率等主要指标均优于经典的聚焦爬虫,达到了应用的基本要求,本文提出的参考模型是可行的、关键技术是有效的。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文主要研究内容

1.4 论文结构

第二章聚焦爬虫技术

2.1 聚焦爬虫的基本概念

2.2 聚焦爬虫的基本原理

2.3 聚焦爬虫的基本框架

2.3.1 基本系统Focused Crawler

2.3.2 基于机器学习的Intelligent Crawler

2.3.3 基于神经网络的Hopfield Net Spider

2.3.4 基于层次结构的Focused site crawler

2.4 小结

第三章基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫参考模型

3.1 变量主题聚焦爬虫必须解决的两个核心问题

3.2 基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型

3.2.1 主题特征动态生成问题的解决策略

3.2.2 系统抓取准确性问题的解决策略

3.2.3 参考模型的提出

3.3 参考模型的具体描述

3.3.1 模型的需求分析

3.3.2 模型的空间维描述——系统体系结构

3.3.3 模型的时间维描述——工作流程

3.4 小结

第四章基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫关键技术

4.1 领域关键词自动扩展关键技术

4.1.1 改进的页面表示模型DocView-a

4.1.2 改进的网页关键词提取算法HTTE-a

4.1.3 算法性能测试

4.2 面向HopfieldWeb模型的综合结构预测相关性分析模型HWRM

4.2.1 模型的基本思想

4.2.2 网页相关性计算

4.2.3 相关性模型HWRM的分析

4.3 基于Hopfield神经网络的URL搜索算法HNcrawl

4.3.1 基本思想

4.3.2 算法描述

4.4 小结

第五章系统设计与实验

5.1 系统设计

5.1.1 数据库设计

5.1.2 相关类设计

5.1.3 原型系统介绍

5.2 系统实验

5.2.1 性能评价指标

5.2.2 系统实验

5.3 基本结论

5.4 小结

第六章总结与展望

6.1 全文总结

6.2 未来的方向

参考文献

致谢

攻读硕士学位期间的主要研究成果

附录1 分词程序

附录2 网页解析程序

附录3 相关性分析程序

附录4 神经网络迭代程序

附录5 神经网络传播程序

基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫的研究

论文摘要

论文目录

相关论文文献

猜你喜欢