论文摘要
近些年随着互联网信息量的快速增长,如何准确、快速、高效地从互联网上获取信息的问题变得越来越突出,面向主题的聚焦爬虫技术应运而生。现有的面向主题的聚焦爬虫系统均不同程度地存在领域或主题依赖,即主题受限的不足。为了节约资源、提高建立的快速性、增加适应的广泛性,研究一种面向多领域的、具有主题可移植性的聚焦爬虫系统是互联网应用快速发展的需要。本文在分析总结了现有主题聚焦爬虫技术的基础上,提出了常量与变量主题聚焦爬虫的概念。针对变量主题聚焦爬虫中主题特征的动态生成以及网页抓取准确性下降这两个核心问题,提出了一个基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型,并就其中的关键技术进行了研究。首先,提出了一个改进的网页结构化表示模型DocView-(?),在量化表示中,它考虑了节点影响因子对节点权值的重要影响,以及节点类型对节点权值的不同影响,使得网页的量化表示更加准确,基于此,提出网页关键词自动提取改进算法HTTE-a成功地增强了算法抗主题噪声的能力,在性能上优于现有算法HTTE-b,为实现领域关键词自动扩展,提供关键的技术基础;接着,提出了一个面向Hopfield Web理论模型的综合结构预测相关性分析模型,成功克服了现有模型的计算不稳定问题;最后,提出了一个基于Hopfield人工神经网络的URL搜索算法HNcrawl,它在搜索URL的同时,通过神经元的相关性传播、增强与弱化,结合神经元筛选与剪技策略,不断清晰Web社区的主题边界。本文还给出了变量主题聚焦爬虫系统的一个性能评测标准,并实现了变量主题聚焦爬虫参考模型。实验证明,系统的准确率、效率等主要指标均优于经典的聚焦爬虫,达到了应用的基本要求,本文提出的参考模型是可行的、关键技术是有效的。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景与意义1.2 国内外研究现状1.3 论文主要研究内容1.4 论文结构第二章 聚焦爬虫技术2.1 聚焦爬虫的基本概念2.2 聚焦爬虫的基本原理2.3 聚焦爬虫的基本框架2.3.1 基本系统Focused Crawler2.3.2 基于机器学习的Intelligent Crawler2.3.3 基于神经网络的Hopfield Net Spider2.3.4 基于层次结构的Focused site crawler2.4 小结第三章 基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫参考模型3.1 变量主题聚焦爬虫必须解决的两个核心问题3.2 基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型3.2.1 主题特征动态生成问题的解决策略3.2.2 系统抓取准确性问题的解决策略3.2.3 参考模型的提出3.3 参考模型的具体描述3.3.1 模型的需求分析3.3.2 模型的空间维描述——系统体系结构3.3.3 模型的时间维描述——工作流程3.4 小结第四章 基于领域关键词自动扩展的变量主题HOPFIELD聚焦爬虫关键技术4.1 领域关键词自动扩展关键技术4.1.1 改进的页面表示模型DocView-a4.1.2 改进的网页关键词提取算法HTTE-a4.1.3 算法性能测试4.2 面向HopfieldWeb模型的综合结构预测相关性分析模型HWRM4.2.1 模型的基本思想4.2.2 网页相关性计算4.2.3 相关性模型HWRM的分析4.3 基于Hopfield神经网络的URL搜索算法HNcrawl4.3.1 基本思想4.3.2 算法描述4.4 小结第五章 系统设计与实验5.1 系统设计5.1.1 数据库设计5.1.2 相关类设计5.1.3 原型系统介绍5.2 系统实验5.2.1 性能评价指标5.2.2 系统实验5.3 基本结论5.4 小结第六章 总结与展望6.1 全文总结6.2 未来的方向参考文献致谢攻读硕士学位期间的主要研究成果附录1 分词程序附录2 网页解析程序附录3 相关性分析程序附录4 神经网络迭代程序附录5 神经网络传播程序
相关论文文献
标签:变量主题聚焦爬虫论文; 领域关键词自动扩展论文; 搜索算法论文; 结构预测论文; 相关性分析论文; 神经网络论文;
基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫的研究
下载Doc文档