基于搜索引擎和XML的化工物性搜集与发布系统的开发

基于搜索引擎和XML的化工物性搜集与发布系统的开发

论文摘要

随着多年的化工专业数据库建设,网上已经存在有很多面向广大化工从业和研究人员的数据查询网站。但是这些网站一般不能提供比较全面的化工物性数据,并且格式也有很大的差别。现有的搜索引擎技术是面向链接分析得网页抓取和全文分析系统,不能很好地发现网页背后数据库中的信息。面向专业的主题式搜索引擎已经开始研究如何更好地获得这些数据。 本文介绍了搜索引擎技术的历史、工作原理、新技术、专业领域数据库搜索引擎和面临的挑战,提出了页面分析与数据提取技术和主动式Web信息获取技术。使用Java以及Oracle 9i数据库构建了一个面向化工物性数据的数据搜集和发布系统,其中利用了搜索引擎技术中的Spider技术和页面分析技术来获取数据,利用XML的通用性对数据进行转化和组织存放入了本地数据库中。针对页面分析和数据提取过程出现的数据定位不准确问题,本文提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。本系统实现了对网上的化工物性数据的高效、准确的数据提取。 通过J2EE技术和AXIS构架本系统建立化工物性数据网上查询系统和Web Service系统,开发了化工物性发布系统。

论文目录

  • 摘要
  • ABSTRACT
  • 符号说明
  • 第一章 绪论
  • 第二章 搜索引擎概述
  • 2.1 搜索引擎发展概述
  • 2.2 搜索引擎工作原理
  • 2.3 第三代搜索引擎
  • 2.4 专业领域数据库搜索引擎
  • 2.5 搜索引擎面临的技术挑战
  • 第三章 系统中用到的主要技术
  • 3.1 JDBC
  • 3.2 XML与Schema
  • 3.3 Java Web服务
  • 3.3.1 XML和XSD
  • 3.3.2 SOAP
  • 3.3.3 WSDL
  • 3.3.4 UDDl
  • 3.3.5 远程过程调用RPC与消息传递
  • 3.4 设计模式
  • 第四章 页面分析和信息提取概述
  • 4.1 WWW信息结构
  • 4.1.1 URL结构
  • 4.1.2 网页结构
  • 4.2 页面分析技术
  • 4.2.1 页面结构对比分析
  • 4.2.2 页面内容对比分析
  • 4.3 主动式Web信息获取
  • 第五章 数据搜集与发布系统设计及实现
  • 5.1 系统设计
  • 5.2 SQL数据库表格设计
  • 5.2.1 站点基本信息表
  • 5.2.2 数据详细页面地址表
  • 5.2.3 物性数据表
  • 5.3 自动登录器
  • 5.4 列表获取器
  • 5.4.1 列表页面分析器
  • 5.4.2 详细页面地址保存器
  • 5.5 详细页面分析器
  • 5.5.1 详细页面获取器
  • 5.5.2 初始数据结构分析器
  • 5.5.3 数据获取器
  • 5.6 数据处理器
  • 5.6.1 数据库配置器
  • 5.6.2 表生成器
  • 5.6.3 数据更新器
  • 5.7 数据提取优化
  • 5.7.1 数据字典种子
  • 5.7.2 化工物性数据种子
  • 第六章 总结
  • 6.1 已完成工作
  • 6.2 本系统有待研究的内容
  • 参考文献
  • 附录1 列表获取器源程序
  • 附录2 数据获取器源程序
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    • [1].基于XML的异构数据库信息交互机制的实现[J]. 物联网技术 2019(12)
    • [2].新闻评论类公众号XML内容分发的发展策略研究——基于十家新闻评论微信公众号的实证考察[J]. 出版广角 2020(10)
    • [3].基于FLASH与XML的在线考试系统的设计与实现[J]. 软件导刊(教育技术) 2016(12)
    • [4].密码协议XML描述方法研究[J]. 信息工程大学学报 2016(06)
    • [5].XML在信息系统中的应用[J]. 电脑编程技巧与维护 2017(04)
    • [6].基于XML的数据中心网络统一配置方法[J]. 自动化与仪器仪表 2017(02)
    • [7].基于伪反馈的有效XML查询扩展[J]. 计算机科学与探索 2016(12)
    • [8].基于XML的电子病历隐私数据脱敏技术的研究与设计[J]. 信息技术与信息化 2017(03)
    • [9].基于XML的电子书自排版系统的实现[J]. 出版科学 2017(04)
    • [10].基于XML配置管理的数字多用表检定软件设计与实现[J]. 中国管理信息化 2017(08)
    • [11].基于XML地图符号表达的研究[J]. 测绘标准化 2016(02)
    • [12].XML技术在社区医疗服务系统中的应用与研究[J]. 数字技术与应用 2016(08)
    • [13].基于XML的工作流引擎的设计与实现[J]. 科技风 2014(17)
    • [14].关系模式到XML模式映射模型的建立与实现[J]. 电子制作 2014(20)
    • [15].基于推理树的XML推理控制研究[J]. 通信技术 2015(02)
    • [16].基于XML的工作流模型挖掘[J]. 计算机光盘软件与应用 2014(21)
    • [17].基于XML路径表达式优化及其查询和过滤计算方法研究[J]. 信阳师范学院学报(自然科学版) 2015(04)
    • [18].基于XML的公交查询系统设计[J]. 科教文汇(下旬刊) 2012(07)
    • [19].XML技术的房地产估价数据标准研究[J]. 中国房地产 2013(24)
    • [20].探究XML在影视后期剪辑中的应用[J]. 中国传媒科技 2020(02)
    • [21].基于模型检查的XML树模式优化动作生成[J]. 计算机应用与软件 2017(03)
    • [22].XML与关系数据库之间的转换[J]. 教育教学论坛 2017(18)
    • [23].XML中基于聚类的相似度改进算法[J]. 计算机与数字工程 2015(12)
    • [24].以目标节点为导向的XML关键词查询和排序[J]. 计算机应用与软件 2016(04)
    • [25].一种基于XML的工作流引擎设计和实现[J]. 电脑编程技巧与维护 2016(16)
    • [26].建设基于XML技术电子病历系统的核心价值[J]. 中国数字医学 2009(02)
    • [27].基于XML的结构化电子病历临床诊疗数据库构建[J]. 中国数字医学 2012(05)
    • [28].基于XML的名老中医医案结构化标引系统[J]. 中国数字医学 2013(07)
    • [29].基于XML-关系映射数据访问层的设计与实现[J]. 安徽广播电视大学学报 2015(02)
    • [30].XML安全技术在高校教务管理系统的应用研究[J]. 河北农业大学学报(农林教育版) 2015(03)

    标签:;  ;  ;  ;  ;  

    基于搜索引擎和XML的化工物性搜集与发布系统的开发
    下载Doc文档

    猜你喜欢