基于分布式多Agent系统的二层专利数据库信息获取系统研究

基于分布式多Agent系统的二层专利数据库信息获取系统研究

论文摘要

为了提高北京市知识产权预警能力和高新技术产业竞争力,需要我们构建知识产权预警平台,为企业、政府和中介机构提供理论、方法和技术支持。而进行这各项研究最基本的就是有大量而准确的面向主题的专利信息。目前,虽然有人针对于专利数据库信息获取进行了研究,但是在数据源关系、效率及易用性方面还是存在着缺陷。由于德文特专利数据库是建立在各国专利数据库之上的主题数据库,其中的专利信息是由专业的专利分析人员将各国专利数据库中的信息整合编译过之后而形成的,具有很高的参考价值。而德文特专利数据库中只包含了专利的主题信息,不能够支持专利详细信息分析,需要到原始数据库中查询下载专利详细内容。本文通过使用分布式的系统结构,研究了从德文特专利数据库到USPTO专利数据库的二层专利数据源信息获取机制。系统采用模块化思想,抽象为四个模块,并通过使用分布式结构提高了专利抽取速率,并开发具有针对性的负载均衡调度算法,实现了整个系统的负载均衡。其中涉及到Multi-Agent技术、XML相关技术、分布式系统技术等。同时,为了提高系统易用性,为用户提供了基于自主标注的信息抽取模板生成功能模块,用户不需要任何专业知识即可生成信息抽取XSLT。最后,针对于下载到本地的专利信息,生成专利统计文件,为用户进行专利分析提供数据基础。本文的创新之处在于:第一,综合运用多种方法,实现了多源异构层次化专利数据库的专利信息抽取,并使用分布式多Agent系统,解决的专利信息的抽取速率问题。第二,针对于专利信息抽取的特点,制定了具有针对性的负载均调度指标体系,并采用了轮询式的负载均衡调度算法,使系统的负载均衡调度更为高效。第三,使用DOM、锚点、XSLT等技术,并结合自主设计的空白节点剪枝算法和动态节点剪枝算法,通过两颗源于深网的信息页面匹配,获得页面模板元数据,并由用户对模板的标注,实现了信息抽取规则的简易生成。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景与意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.2.1 分布式系统负载均衡机制研究
  • 1.2.2 网页信息抽取技术研究
  • 1.2.3 信息抽取规则生成技术研究
  • 1.3 论文主要研究工作
  • 1.3.1 论文主要研究内容
  • 1.3.2 论文总体结构
  • 第2章 异构数据源分析
  • 2.1 DII专利数据库简介
  • 2.2 DII专利检索及获取
  • 2.2.1 快速检索
  • 2.2.2 被引专利检索
  • 2.2.3 高级检索
  • 2.2.4 专利检索结果及导出
  • 2.2.5 全记录导出字段
  • 2.3 异构数据库的信息交互
  • 2.3.1 DII数据库与USPTO数据库的异构性
  • 2.3.2 专利详细信息的反向查询
  • 2.4 本章小结
  • 第3章 分布式专利抽取系统的分析与设计
  • 3.1 系统需求分析
  • 3.1.1 以问题为导向的需求分析
  • 3.1.2 已有软件功能
  • 3.1.3 系统需求
  • 3.2 系统总体设计
  • 3.2.1 系统工作流程
  • 3.2.2 系统用例建模
  • 3.2.3 系统角色建模
  • 3.2.4 系统整体设计
  • 3.3 DII专利数据库抽取模块设计
  • 3.3.1 DII专利数据库抽取模块架构
  • 3.3.2 用户接口Agent设计
  • 3.3.3 中心控制Agent设计
  • 3.3.4 爬行功能模块设计
  • 3.3.5 抽取功能模块设计
  • 3.4 详细任务分发模块设计
  • 3.4.1 用户接口Agent设计
  • 3.4.2 任务控制Agent
  • 3.5 统计结果模块设计
  • 3.6 数据库设计
  • 3.7 本章小结
  • 第4章 任务分配关键技术
  • 4.1 分布式多Agent系统的通信
  • 4.1.1 异地中心控制Agent的消息上报
  • 4.1.2 任务控制Agent与异地的通信机制
  • 4.2 分布式多Agent系统的负载评估体系
  • 4.2.1 异地服务器负载均衡评级指标
  • 4.2.2 轮询式负载均衡算法
  • 4.3 系统任务分配机制
  • 4.3.1 负载均衡评价指标获取
  • 4.3.2 负载均衡的计算
  • 4.3.3 任务分发
  • 4.4 本章小结
  • 第5章 信息抽取规则半自动生成关键技术
  • 5.1 源于深网的专利页面
  • 5.2 基于锚点的信息抽取规则
  • 5.3 信息抽取规则半自动生成流程
  • 5.4 页面预处理模块
  • 5.5 元数据JTree生成模块
  • 5.5.1 空节点剪枝
  • 5.5.2 动态节点剪枝
  • 5.6 XSLT生成模块
  • 5.7 本章小结
  • 第6章 原型系统实现
  • 6.1 原型系统的运行平台
  • 6.2 原型系统运行实例
  • 6.2.1 DII专利信息抽取
  • 6.2.2 详细任务分配及抽取
  • 6.2.3 统计信息推送
  • 6.3 试验与分析
  • 6.3.1 DII专利信息抽取
  • 6.3.2 详细任务分配及抽取
  • 6.4 本章小结
  • 总结与展望
  • 参考文献
  • 攻读硕士期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].“中外专利数据库服务平台”开放存取专利文献资源[J]. 兰台世界 2011(04)
    • [2].基于德温特专利数据库的钢结构现状分析[J]. 科技创新与应用 2020(08)
    • [3].国内专题专利数据库的现状特点及发展建议[J]. 山东化工 2010(09)
    • [4].标准必要专利数据库评析[J]. 情报杂志 2014(10)
    • [5].论电动工具行业专利数据库的建设[J]. 才智 2013(25)
    • [6].医学科技专利数据库的设计与实现[J]. 计算机与应用化学 2015(06)
    • [7].3个网上免费专利数据库的比较[J]. 科技情报开发与经济 2011(27)
    • [8].基于专利数据库探析石墨烯发展动态[J]. 电子元件与材料 2014(03)
    • [9].基于壹专利数据库的内蒙古自治区蒙医蒙药专利分析[J]. 内蒙古科技与经济 2020(03)
    • [10].关于我国专题专利数据库的思考[J]. 创新科技 2010(11)
    • [11].烟草行业专利数据库建设初探[J]. 企业研究 2012(12)
    • [12].利用软件下载专利好又多[J]. 中国发明与专利 2012(04)
    • [13].KD496:针对高科技公司的深度技术追踪方法[J]. 科技创新与品牌 2020(01)
    • [14].苏州建国内首个生物医药专利数据库[J]. 医药工程设计 2010(05)
    • [15].浅谈如何利用CNKI提高色谱分析领域的查准率[J]. 中国发明与专利 2015(08)
    • [16].免费收费专利数据库特点比较[J]. 竞争情报 2011(02)
    • [17].常用中国专利数据库评析[J]. 图书馆研究 2020(01)
    • [18].构建专利数据库的安全防范及措施[J]. 网络空间安全 2017(Z2)
    • [19].电视图像非专利数据库检索策略的综合应用[J]. 电视技术 2013(S2)
    • [20].姜堰市“知识产权企业行”助推转型升级[J]. 泰州科技 2012(02)
    • [21].基于Web的水声专利数据库系统设计方法及实现[J]. 声学与电子工程 2008(04)
    • [22].从计算机专利数据库中挖掘太阳能电池的发展态势[J]. 电子元件与材料 2014(02)
    • [23].我国专利数据库建设质量探究[J]. 科技情报开发与经济 2013(19)
    • [24].常用中药学术性专利数据库建设[J]. 世界科学技术-中医药现代化 2013(06)
    • [25].专利数据库支援灾区[J]. 中国发明与专利 2008(06)
    • [26].基于PATSNAP全球专利数据库的黄芪专利分析[J]. 宁夏农林科技 2020(03)
    • [27].基于国家专利数据库的治疗心律失常的中药配伍规律的数据挖掘研究[J]. 世界科学技术-中医药现代化 2019(03)
    • [28].论我国专利信息服务平台的构建[J]. 湖南科技大学学报(社会科学版) 2012(05)
    • [29].天下数字[J]. 时代邮刊 2018(05)
    • [30].刘延淮:专利数据库服务的探春腊梅[J]. 中关村 2011(03)

    标签:;  ;  ;  

    基于分布式多Agent系统的二层专利数据库信息获取系统研究
    下载Doc文档

    猜你喜欢