面向金融信息的主题爬虫研究与应用

面向金融信息的主题爬虫研究与应用

论文摘要

随着Internet的迅速发展,网络上的Web资源以膨胀性的方式增长,面对庞大的Web网页资源,传统的全文搜索引擎,难以保证搜索结果的精确度和召回率。于是,人们提出使用主题搜索引擎来解决这个问题,网络中的Web网页是按类别来组织的,将搜索引擎建立在其中的一个或几个类别的网页资源之上,这样就缩小了搜索的范围和规模,可以有效的发挥搜索引擎的功能,其中网页资源的获取由主题爬虫来完成。主题爬虫下载的网页资源的主题类别是根据需求来定义的,一般应用于主题搜索引擎的主题类别是根据常用的分类来描述的,同样,也可以根据用户的需求来定制,如根据用户感兴趣的内容可以定制个性化的主题爬虫。本文以常用的金融类别为目标主题,该主题类别特征是包含多个子主题,如股票、基金、期货等,而且网络中的数据资源丰富,建立金融网页库可以用于聚类分析,数据挖掘等,在实际应用中对这些数据的分析可以作为人们进行投资的参考,有很好的应用前景。本文研究的目的是如何实现一个金融主题爬虫系统,能全面的获取网络中的金融主题网页资源,而且尽量提高获取网页库的主题精确度。经过分析,主题爬虫研究的重点是对网页和链接的主题相关性分析,主要从文本(包括网页内容文本和链接锚文本)和链接结构两个方面来分析,其中对前者的分析,通过建立文本分类器,判断文本与主题的相关性;后者主要是利用PageRank算法和HITS算法来评价链接与主题的相关性;根据网页和链接与主题的相关性,来对它们进行过滤。本文对网页进行分块,提取网页链接块锚文本,根据对链接块锚文本的主题相关性评价的结果作为块内各链接与主题的相关性,并针对这种文本的处理提出主题相关性密度算法。对网页内容文本的主题相关性的评价使用朴素贝叶斯算法进行处理。根据最后的实验数据分析,我们可以发现,这两种方法在文本分类上都能使金融主题的召回率达到90%以上,应用于主题爬虫中可以保证下载网页的主题覆盖率,而且系统实验获得金融网页的主题精确度在85%以上;这就说明本文提出的主题相关性密度的方法在链接块锚文本的应用上是很有效的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题研究的目的和意义
  • 1.3 主题爬虫技术研究现状
  • 1.4 本文主要研究内容及组织
  • 第2章 主题爬虫技术
  • 2.1 概述
  • 2.1.1 主题爬虫工作原理
  • 2.1.2 主题爬虫基本结构
  • 2.2 主题信息的描述与定义
  • 2.2.1 主题信息描述形式
  • 2.2.2 主题信息特征选择
  • 2.3 网页与链接的主题相关性评价算法
  • 2.3.1 基于链接结构的主题相关性评价算法
  • 2.3.2 基于网页内容的主题相关性评价算法
  • 2.4 主题爬虫搜索策略
  • 2.4.1 深度优先搜索策略
  • 2.4.2 广度优先搜索策略
  • 2.4.3 最佳优先搜索策略
  • 2.5 本章小结
  • 第3章 主题相关性密度文本分类算法
  • 3.1 引言
  • 3.2 主题相关性密度的基本原理
  • 3.3 基于主题相关性密度的文本分类器
  • 3.3.1 类别特征的量化
  • 3.3.2 文本与类别关系的度量
  • 3.4 文本分类器评测实验
  • 3.4.1 基于网页内容文本的分类器测试实验
  • 3.4.2 基于链接块锚文本的分类器测试实验
  • 3.5 本章小结
  • 第4章 金融主题爬虫的设计与实现
  • 4.1 引言
  • 4.2 金融主题爬虫的结构设计
  • 4.3 功能模块的实现
  • 4.3.1 金融信息的定义
  • 4.3.2 网页下载
  • 4.3.3 基于网页分块的网页信息提取
  • 4.3.4 网页及链接的主题相关性判断
  • 4.3.5 URL解析及管理
  • 4.4 本章小结
  • 第5章 实验结果与分析
  • 5.1 引言
  • 5.2 实验环境
  • 5.3 网页分块提取实验
  • 5.4 文本分类算法在系统中的应用效果
  • 5.4.1 效率测试
  • 5.4.2 金融主题爬虫系统的主题精确度测试
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    面向金融信息的主题爬虫研究与应用
    下载Doc文档

    猜你喜欢