特定领域的Deep Web查询集成及结果抽取

特定领域的Deep Web查询集成及结果抽取

论文摘要

网络信息过载,个人从中获取特定需求的信息必须借助于搜索引擎的导航。目前通用搜索引擎,如baidu,google能满足用户对任意领域的基本查询需求,但难以适应特定用户群体对专业领域信息的提取需求。因而,专业搜索引擎应运而生,如电信黄页查询系统,学术论文查询系统。本文初探对多个学术论文数据库源,如何对深度数据库的信息进行提取和整合。即如何提供给科技工作者一个覆盖多个学术数据库源的统一接口,也就是学术资源整合系统。各个学术数据库源是以Web的形式为用户提供访问服务的,并且用户所感兴趣的文献资料,是通过在查询接口输入兴趣查询关键字,并在向学术数据库源提交查询请求后,由资源服务器动态产生的。此过程Web用户和学术资源服务器是有动态交互的,访问到的结果Web页面也是动态生成的,其与用户输入的查询关键字紧密相关,我们称之为Deep Web,用户在结果Web页面上看到的内容是在学术资源数据库中与查询关键字相关的一个子集。为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,来模拟IE的浏览行为,实现了针对Cnki,,ISI,Metalib三个数据源的Deep WebCrawler,并据此基础上研究了通用Deep Web Crawler的系统框架和功能模块。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.1.1 Deep Web概述
  • 1.1.2 Deep web在教育科研领域
  • 1.2 本文工作
  • 1.2.1 研究要点
  • 1.2.2 本文结构
  • 第2章 Deep Web的交互过程
  • 2.1 引言
  • 2.2 Surface Web,Deep Web简介
  • 2.2.1 Surface Web,Deep Web交互过程区别
  • 2.2.2 Deep Web若干问题
  • 2.3 查询接口
  • 2.3.1 接口特征定义
  • 2.3.2 接口查询能力抽取与集成
  • 2.3.3 SessionID
  • 2.4 查询条件的转换,提交
  • 2.4.1 条件转换
  • 2.4.2 UTF-8,GB-2312编码格式转换
  • 2.4.3 查询提交
  • 2.4.4 翻页
  • 2.5 结果页面
  • 2.5.1 基于"文献实体属性描述关键字数据库"的结果页面模式抽取
  • 2.5.2 结果页面模式匹配,数据合成
  • 2.5.3 结果去重
  • 第3章 查询集成
  • 3.1 引言
  • 3.2 查询接口发现
  • 3.2.1 接口特征规则定义
  • 3.2.2 基于"提交post字符串内容,查询关键字"反向取得
  • 3.2.3 基于"文献实体属性描述关键字数据库,分类属性"正向取得
  • 3.3 接口查询能力抽取与集成
  • 3.3.1 三个数据源接口查询能力抽取与集成
  • 3.3.1.1 抽取各查询接口的查询能力
  • 3.3.1.2 实现接口模式匹配
  • 3.3.1.3 生成统一查询界面
  • 3.4 SessionID
  • 3.4.1 SessionID简介
  • 3.4.2 三个数据源SessionID机制
  • 3.4.2.1 CNKI
  • 3.4.2.2 ISI
  • 3.4.2.3 Metalib
  • 3.5 个性化推荐系统中的实现
  • 3.5.1 查询集成
  • 第4章 查询
  • 4.1 引言
  • 4.2 条件转换
  • 4.3 UTF-8,GB-2312编码格式转换
  • 4.4 查询提交
  • 4.4.1 查询代价
  • 4.4.2 查询代价优化
  • 4.4.2.1 从文献详细页面中提取下篇文献详细页面URL,避免翻页
  • 4.4.2.2 附加查询条件,增量方式下载数据
  • 4.4.3 查询结果页面总数/文献总数的统计信息
  • 4.5 个性化推荐系统中的实现
  • 4.5.1 HTTP响应
  • 4.5.1.1 HTTP请求
  • 4.5.1.2 HTTP响应
  • 4.5.1.3 基于HTTP协议的Get/Post实现函数
  • 第5章 结果页面内容抽取
  • 5.1 引言
  • 5.2 基于"文献实体属性描述关键字数据库"的结果页面模式抽取
  • 5.2.1 本文的方法
  • 5.2.2 当前方法的缺点
  • 5.2.3 "文献实体属性描述关键字数据库"的构建和使用
  • 5.3 结果页面模式匹配,数据合成
  • 5.4 个性化推荐系统中的实现
  • 第6章 个性化推荐系统中的Deep Web集成
  • 6.1 引言
  • 6.2 相关概念
  • 6.2.1 Surface Web,Deep Web
  • 6.2.2 Deep Web集成
  • 6.2.2.1 用户访问Deep Web的过程
  • 6.2.2.2 含Deep Web集成的个性化推荐系统的系统框架
  • 6.2.2.3 Deep Web集成的形式化定义
  • 6.3 Deep Web集成
  • 6.3.1 总体框架
  • 6.3.2 功能模块
  • 6.3.2.1 知识发现
  • 6.3.2.2 集成查询
  • 6.5 结论
  • 第7章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 硕士研究生期间项目和论文
  • 致谢
  • 相关论文文献

    • [1].塔台管制集成系统初探[J]. 中国新通信 2020(03)
    • [2].集成超越理念在环亚医用集团的成功实践[J]. 中国建筑装饰装修 2020(06)
    • [3].集成灶行业 进入对产品及服务精细打磨阶段[J]. 现代家电 2020(06)
    • [4].新型集成房屋在装配式技术与模块化设计的比较分析[J]. 砖瓦 2020(09)
    • [5].渔家傲·贺《道医集成》出版[J]. 中国道教 2019(03)
    • [6].集成设置与测试[J]. 网络安全和信息化 2018(09)
    • [7].探析电子集成技术的现状及发展方向[J]. 山西农经 2016(16)
    • [8].消费者选购集成灶需谨慎[J]. 中国防伪报道 2017(08)
    • [9].对光传输网络网管集成维护系统的应用分析[J]. 有线电视技术 2017(08)
    • [10].集成灶进入概念炒作阶段[J]. 现代家电 2015(16)
    • [11].综合集成防护发展探讨[J]. 防护工程 2015(04)
    • [12].方正国际助力信创集成新业态[J]. 中国信息界 2020(05)
    • [13].企业集成创新的知识管理及其微观机理分析[J]. 湖北经济学院学报(人文社会科学版) 2020(11)
    • [14].智能建筑集成管理信息化平台研究[J]. 决策探索(中) 2020(05)
    • [15].团体标准《集成箱式房屋》编制工作正式启动[J]. 中国建筑金属结构 2018(12)
    • [16].奇数年的方太新物种,集成厨电的往事浮沉[J]. 家用电器 2019(09)
    • [17].帅丰:十年磨一剑,推动集成灶行业更上一层楼[J]. 电器 2019(09)
    • [18].行业大视野[J]. 现代家电 2018(20)
    • [19].大数据下的Web数据集成与挖掘[J]. 电子技术与软件工程 2017(22)
    • [20].集成融汇技术在数字图书馆信息服务中的应用[J]. 图书馆学刊 2016(08)
    • [21].期待集成灶行业的春天[J]. 现代家电 2015(06)
    • [22].基于产业集群集成创新的分析——以福建为例[J]. 太原理工大学学报(社会科学版) 2015(05)
    • [23].标准[J]. 东方艺术 2014(11)
    • [24].集成创新理论的研究现状评析[J]. 改革与战略 2011(03)
    • [25].小议企业创新集成的驱动因素及意义[J]. 中国科技财富 2011(03)
    • [26].集成灶 从认知到认同[J]. 现代家电 2010(14)
    • [27].企业集成创新网络理论的演进与发展[J]. 企业家天地 2009(07)
    • [28].基于油田数字化的异构数据源整合与集成技术分析[J]. 中国设备工程 2020(06)
    • [29].揭开集成广福与富滇银行的纠纷疑云[J]. 中国中小企业 2019(08)
    • [30].集成灶的克短板 助长板[J]. 现代家电 2019(16)

    标签:;  ;  ;  

    特定领域的Deep Web查询集成及结果抽取
    下载Doc文档

    猜你喜欢