主题搜索引擎的信息抽取和索引的研究

主题搜索引擎的信息抽取和索引的研究

论文摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法作了研究,提出了几种改进的信息定位方法,并且从实际应用的角度,提出几种方法的组合策略,在此基础上可以编写出更为简单、健壮、通用的抽取规则,在实际应用中达到了较高的查准率。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 选题背景和意义
  • 1.2 主题搜索引擎简介
  • 1.3 信息抽取技术
  • 1.3.1 信息抽取与信息检索
  • 1.3.2 信息抽取与自动摘要
  • 1.4 本文的研究内容
  • 1.5 本文的组织结构
  • 2 Web 信息抽取技术概述
  • 2.1 Web 信息抽取技术分类
  • 2.2 包装器概念(wrapper)
  • 2.3 wrapper 构建技术的分类
  • 2.4 几种基于HTML 的信息抽取系统
  • 2.4.1 W4F
  • 2.4.2 XWRAP
  • 2.4.3 EXALG
  • 2.4.4 Road Runner
  • 2.4.5 国内的信息抽取研究
  • 2.5 Web 信息抽取存在的问题
  • 2.6 本章小结
  • 3 Web 信息抽取的原理和方法
  • 3.1 XML 相关标准
  • 3.1.1 XML
  • 3.1.2 XHTML
  • 3.1.3 DOM
  • 3.1.4 XPath
  • 3.1.5 XSLT
  • 3.1.6 用Java 进行XSLT 扩展
  • 3.2 系统的设计目标与思路
  • 3.2.1 系统的设计目标
  • 3.2.2 系统设计的基本思路
  • 3.2.3 XML 和XSLT 在系统中的角色
  • 3.3 抽取系统的总体框架
  • 3.4 系统中的知识库与数据库
  • 3.4.1 抽取规则库
  • 3.4.2 抽取结果数据库和Web 页面数据库
  • 3.5 页面优化模块
  • 3.5.1 XHTML 页面转化
  • 3.5.2 页面解析
  • 3.6 信息抽取模块
  • 3.6.1 规则学习的依据
  • 3.6.2 规则学习的步骤
  • 4 抽取规则的优化
  • 4.1 优化问题的提出
  • 4.2 改进的定位方法
  • 4.2.1 路径与内容结合方法
  • 4.2.2 完全基于文本的方法
  • 4.2.3 基于属性的方法
  • 4.2.4 几种方法的比较
  • 4.3 各种方法的组合
  • 4.4 优化的抽取规则
  • 5 倒排索引技术研究
  • 5.1 倒排索引概念
  • 5.2 中文分词技术
  • 6 结论
  • 6.1 总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].六月,赠书季[J]. 文苑(经典美文) 2014(06)
    • [2].基于数据区域发现的信息抽取规则生成方法[J]. 计算机工程 2009(22)
    • [3].基于上下文无关文法的数据抽取规则[J]. 河南城建学院学报 2010(05)
    • [4].一种自适应的Web信息抽取规则自动生成方法[J]. 广西师范大学学报(自然科学版) 2010(01)
    • [5].基于规则的动物卫生事件舆情信息抽取研究[J]. 计算机应用与软件 2018(09)
    • [6].Web信息抽取策略及其实现方法研究[J]. 科技情报开发与经济 2008(23)
    • [7].针对学术定义的抽取规则构建方法研究[J]. 情报理论与实践 2011(12)
    • [8].基于本体模块的微博信息抽取[J]. 图书馆学研究 2013(13)
    • [9].基于SVM的Web信息抽取研究[J]. 黑龙江科技信息 2013(18)
    • [10].一种基于XQuery的优化Web信息抽取方法[J]. 计算机应用 2008(01)
    • [11].国际合作项目推荐[J]. 电脑与电信 2014(04)
    • [12].基于XML技术的粮食检索系统设计[J]. 信息与电脑(理论版) 2010(10)
    • [13].基于XML和DOM技术的Web信息抽取模型[J]. 大连交通大学学报 2013(03)
    • [14].基于DOM树的可适应性Web信息抽取[J]. 计算机科学 2009(07)
    • [15].中石油评审自动化专家抽取系统实例[J]. 中国招标 2018(24)
    • [16].影评情感分析知识图谱构建研究[J]. 计算机仿真 2020(08)
    • [17].一种通用的多数据库间数据抽取方法及应用[J]. 北京交通大学学报 2008(04)
    • [18].基于知识元的学术论文内容创新性智能化评价研究[J]. 图书情报工作 2020(01)
    • [19].基于WEB信息抽取的主动服务技术研究[J]. 计算机系统应用 2008(01)
    • [20].基于汉英双语语料的语义精准抽取系统设计[J]. 现代电子技术 2020(10)
    • [21].信息抽取与中医药文献资源利用[J]. 电脑知识与技术 2017(22)
    • [22].Web信息抽取系统的设计[J]. 微型电脑应用 2013(03)
    • [23].Web信息抽取和展现系统的设计与实现[J]. 电力信息化 2012(02)
    • [24].基于XML技术的WEB信息收集方法研究[J]. 电子技术与软件工程 2015(03)
    • [25].Web页面细粒度数据抽取方法研究[J]. 计算机工程与设计 2014(02)
    • [26].融合核心句与依存关系的评价搭配抽取[J]. 计算机技术与发展 2014(01)
    • [27].航班信息抽取规则的自动生成技术[J]. 计算机工程 2011(06)
    • [28].用规则抽取句子中事件信息[J]. 小型微型计算机系统 2011(11)
    • [29].神经网络规则抽取评估方法[J]. 计算机应用 2008(S2)
    • [30].Web信息抽取系统分类方法研究[J]. 内蒙古农业大学学报(自然科学版) 2012(04)

    标签:;  

    主题搜索引擎的信息抽取和索引的研究
    下载Doc文档

    猜你喜欢