基于聚焦爬虫的网上药品信息监测系统

基于聚焦爬虫的网上药品信息监测系统

论文摘要

近年来,随着互联网的飞速发展,网络已成为人们获取信息、传递信息的重要途径,随之而来的是网络信息呈指数级的爆炸性增长。互联网的发展虽然极大地方便了人们的生活,但由于其资源广,范围大,发布信息成本低,监管难等特点,使得许多在有形市场上受到有关执法部门强有力的打击的制假售假者逐渐将售假的平台转移到了网络上来,大量假冒侵权商品在网络上肆无忌惮地出现,一个新的“售假天堂”正在形成。为了打击日益猖獗的网络兜售假冒药品的犯罪行为,减轻工作人员的工作强度,需要对网上药品交易信息进行监测,药品信息监测的关键就是要对浩瀚的网络资源进行主题搜索,而实现主题搜索的就是聚焦爬虫。聚焦爬虫针对某个领域或面向特定主题,以获得较为理想的准确率和召回率。但大多数搜索算法都是用于大主题搜索,而专门用于特定小主题(比如药品交易监测)的搜索效果却不理想。为此,本文主要做的工作包括:1.针对论坛网站和普通网站的网络结构特点的不同,分别提出了不同的页面搜索算法。2.针对小主题搜索效果不佳的问题,在分析现有聚焦爬虫搜索方法的基础上,提出了一种对互联网特定主题进行信息搜索的组合策略。这种组合搜索策略包括页面搜索、相关度分析两部分。页面搜索算法采用了改进型的Fish-Search算法;相关度分析采用了分步算法,其中第一步采用向量空间模型。搜索算法,粗选出大主题;第二步分别采用改进型的朴素贝叶斯分类算法与k最近邻算法,从粗选结果中再精选出相关的小主题。3.在此研究基础上,开发了一套面向网上药品的信息监测系统。通过采集多个网站和论坛页面数据,结果表明,这种组合式搜索策略能有效提高爬虫的运行效率及小主题搜索的查准率。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景与意义
  • 1.2 聚焦爬虫的研究现状
  • 1.3 本文主要研究的问题
  • 1.4 本文内容与结构
  • 第2章 聚焦爬虫及相关技术
  • 2.1 通用爬虫的简介
  • 2.1.1 通用爬虫的原理与结构
  • 2.1.2 通用爬虫的不足
  • 2.2 聚焦爬虫模型
  • 2.2.1 聚焦爬虫的原理
  • 2.2.2 聚焦爬虫的结构
  • 2.3 主题页面分布特性
  • 2.3.1 Hub/Authority特性
  • 2.3.2 Linkage/SiblingLocality特性
  • 2.3.3 网站的主题聚集特性
  • 2.3.4 隧道特性
  • 2.4 其他相关技术
  • 2.4.1 HTML简介
  • 2.4.2 页面源文件采集
  • 2.4.3 页面分析与处理
  • 2.4.4 中文分词
  • 第3章 聚焦爬虫算法研究设计
  • 3.1 搜索策略研究的基本方法
  • 3.2 两类站点搜索策略研究
  • 3.2.1 论坛社区类站点
  • 3.2.2 其他类型站点的搜索策略
  • 3.3 页面相关度分析算法的研究
  • 3.3.1 向量空间模型分类算法及改进
  • 3.3.2 文本分类概念简介
  • 3.3.3 朴素贝叶斯分类算法及改进
  • 3.3.4 k最近邻算法
  • 第4章 爬虫系统的实现
  • 4.1 系统设计
  • 4.1.1 系统总体设计
  • 4.1.2 功能模块结构设计
  • 4.2 系统实现
  • 4.2.1 类结构实现
  • 4.2.2 数据库ER图
  • 4.2.3 界面设计
  • 4.3 实验研究
  • 4.3.1 系统测试环境
  • 4.3.2 评价指标
  • 4.3.3 测试站点信息及参数设定
  • 4.3.4 测试和结果分析
  • 第5章 总结与展望
  • 5.1 论文工作总结
  • 5.2 不足与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    • [1].基于改进涡流搜索算法的支持向量机分类模型[J]. 吉林大学学报(信息科学版) 2020(03)
    • [2].一种改进的和声搜索算法求解非线性方程组[J]. 重庆理工大学学报(自然科学) 2020(10)
    • [3].基于涡流搜索算法的支持向量机分类模型[J]. 化工自动化及仪表 2016(12)
    • [4].一种改进的引力搜索算法及其波束赋形[J]. 西安电子科技大学学报 2020(02)
    • [5].基于改进乌鸦搜索算法的云计算任务调度研究[J]. 微电子学与计算机 2020(02)
    • [6].基于改进引力搜索算法的桁架结构优化设计[J]. 计算机技术与发展 2020(05)
    • [7].浅谈计算机围棋中的搜索算法[J]. 科技风 2018(12)
    • [8].马尔可夫网络的因子搜索算法[J]. 青岛大学学报(自然科学版) 2016(04)
    • [9].一种人工智能搜索算法的改进研究[J]. 通信技术 2017(02)
    • [10].基于动态自适应t分布变异的人群搜索算法[J]. 数学的实践与认识 2017(12)
    • [11].一种求解车辆路径问题的分散搜索算法[J]. 信息与电脑(理论版) 2015(23)
    • [12].基于和声库择优的和声搜索算法的配电网重构[J]. 通信电源技术 2016(01)
    • [13].基于贝叶斯方法的失踪目标优化搜索算法[J]. 计算机与现代化 2016(10)
    • [14].非线性多目标优化的和声分散搜索算法[J]. 小型微型计算机系统 2015(07)
    • [15].基于社会群体搜索算法的机器人路径规划[J]. 计算机研究与发展 2013(12)
    • [16].基于和声搜索算法的电力系统经济调度[J]. 科技资讯 2014(06)
    • [17].和声搜索算法在结构有限元模型修正中的应用[J]. 兰州理工大学学报 2013(05)
    • [18].基于改进的群搜索算法求解分类规则[J]. 无线互联科技 2012(10)
    • [19].动态和声搜索算法在土坡稳定分析中的应用[J]. 人民黄河 2011(02)
    • [20].基于改进和声搜索算法的越库车辆排序[J]. 吉林大学学报(工学版) 2018(03)
    • [21].面向最优化问题的人工智能搜索算法研究[J]. 通信技术 2016(11)
    • [22].一种融入模式搜索的改进人群搜索算法[J]. 西华大学学报(自然科学版) 2017(01)
    • [23].复杂网络搜索算法比较研究[J]. 电脑知识与技术 2017(04)
    • [24].基于和声搜索算法的软件可靠性模型参数估计方法[J]. 山东理工大学学报(自然科学版) 2017(02)
    • [25].融合局部搜索的和声搜索算法[J]. 计算机工程与设计 2017(06)
    • [26].求解过道布置问题的一种改进分散搜索算法[J]. 计算机集成制造系统 2017(08)
    • [27].基于人群搜索算法优化参数的支持向量机短期电力负荷预测[J]. 电测与仪表 2016(08)
    • [28].改进的多目标快速群搜索算法的应用[J]. 价值工程 2016(32)
    • [29].多子群混合和声搜索算法[J]. 东北大学学报(自然科学版) 2015(02)
    • [30].轮循式搜索算法求解农机调度问题[J]. 信息系统工程 2015(08)

    标签:;  ;  ;  ;  

    基于聚焦爬虫的网上药品信息监测系统
    下载Doc文档

    猜你喜欢