基于ontology的Blog信息抽取技术研究

基于ontology的Blog信息抽取技术研究

论文摘要

Blog作为一种新兴的个人媒体,正逐步流行于互联网中。它承载了大量有价值的信息,已经成为当前互联网应用研究中的一个热点。针对Blog的研究诸如Blog社区发现,Blog主题提取等日益引起人们的关注,这些研究都需要结构化的Blog信息。于是对Blog网页的信息抽取成为不可或缺的研究内容。Blog网页的信息抽取相比于传统网页的信息抽取有着很大的区别。首先,Blog网站由于自身信息量大的特点,广泛使用了Web2.0的Ajax技术。普通的网络爬虫无法获取这种异步传输的数据内容。其次,Blog网站强调个性化的理念,它们允许Blog的作者随意修改自己Blog网页的布局。这就让原本已是半结构化难以处理的HTML网页信息更灵活,给传统的信息抽取算法提出了个难题。本文对Ajax技术进行深入的分析之后,提出了通过执行JavaScript与重建DOM树的方式获取异步网页信息的方案。该方案在本文的原型系统中实现,实验中对sohu.com, sina.com等几个国内大型应用Ajax技术的Blog网站进行数据抓取,实验准确率能达96%以上,效果较为理想。本文对Blog网页的结构和语义信息进行了深入的分析之后,定义了网页“块(Block)”的概念。根据Blog网页半模板化的特点,提出了使用结构与语义两个特征作为信息抽取的依据。本文提出使用ontology来表示Blog中信息与Block的关系,Block与Block的关系,语义与Block的关系以及语义与信息的关系,建立Blog信息抽取的知识库。本文针对Blog站点模板以及架站技术日新月异的变化,实现了一种扩展性较强的抽取规则生成算法,方便的应用于Blog网站模板发生变化的情况。在本文的原型系统实验中证明,本文提出的这种Blog ontology信息抽取算法有着较好的性能,在效率上也有一定优势。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、生成抽取规则、信息算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状综述
  • 1.2.1 Web 信息抽取的研究现状
  • 1.2.2 基于ontology 的信息抽取研究现状
  • 1.3 研究问题定义
  • 1.4 研究内容
  • 1.5 本文的结构安排
  • 第2章 Blog 数据的特征表示模型
  • 2.1 引言
  • 2.2 Ajax 异步传输数据原理
  • 2.2.1 Ajax 基本介绍
  • 2.2.2 异步传输过程分析
  • 2.3 异步传输数据提取方案
  • 2.3.1 在爬虫中执行JavaScript 代码
  • 2.3.2 重新构建DOM 树
  • 2.4 Blog 数据特征的表示
  • 2.4.1 HTML 文档解析
  • 2.4.2 Blog 网页特征选取与特征表示
  • 2.5 实验设计与结果分析
  • 2.5.1 数据源分析
  • 2.5.2 提取效果分析
  • 2.6 本章小结
  • 第3章 基于ontology 的Blog 信息抽取模板构建
  • 3.1 引言
  • 3.2 ontology 的基本理论
  • 3.2.1 ontology 的应用
  • 3.2.2 ontology 的分类
  • 3.2.3 ontology 的构建规则
  • 3.2.4 ontology 建模元语
  • 3.3 构建 Blog 领域 ontology
  • 3.3.1 本文的ontology 构建方法
  • 3.3.2 Blog 页面信息分析
  • 3.3.3 构建Blog ontology
  • 3.3.4 ontology 概念定义
  • 3.4 ontolgoy 构建结果与分析
  • 3.4.1 ontology 构建结果
  • 3.4.2 ontology 检测
  • 3.5 本章小结
  • 第4章 基于ontology 的Blog 信息抽取算法
  • 4.1 引言
  • 4.2 抽取规则的构造
  • 4.2.1 训练空间生成
  • 4.2.2 规则构造
  • 4.2.3 规则生成算法描述
  • 4.3 Blog 领域 ontology 信息抽取
  • 4.3.1 信息抽取算法
  • 4.4 实验分析
  • 4.4.1 信息抽取的评价指标
  • 4.4.2 实验结果
  • 4.5 本章小结
  • 第5章 Blog 信息抽取系统的设计与实现
  • 5.1 系统功能与环境
  • 5.1.1 开发目的及功能
  • 5.1.2 开发平台及工具
  • 5.2 系统总体设计
  • 5.3 系统模块设计与实现
  • 5.3.1 异步网络爬虫模块
  • 5.3.2 ontology 解析与生成抽取规则模块
  • 5.3.3 ontology 信息抽取模块
  • 5.4 系统演示
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].高中物理Blog教研中存在的问题及解决策略[J]. 中国教育技术装备 2017(05)
    • [2].以Blog为平台的教育叙事研究与教师专业化发展[J]. 文教资料 2011(20)
    • [3].Blog在图书馆参考咨询工作中的应用[J]. 河南科技学院学报 2013(11)
    • [4].Blog在教师个人知识管理中的应用研究[J]. 中国科教创新导刊 2009(08)
    • [5].Blog档案袋评价的设计与实施[J]. 考试周刊 2011(45)
    • [6].草根的盛宴——基于Blog的教育叙事研究[J]. 时代教育(教育教学版) 2008(08)
    • [7].基于BLOG的艺术类学生网络交流应用研究[J]. 网友世界 2014(10)
    • [8].基于概率潜在语义分析的Blog个性化查询扩展研究[J]. 安阳师范学院学报 2013(02)
    • [9].基于Blog和Blog群组的网络协作学习研究[J]. 周口师范学院学报 2012(04)
    • [10].试论基于Blog的教育叙事与教师专业发展[J]. 科技视界 2012(33)
    • [11].Blog在医学信息检索教学中的辅助作用[J]. 医学信息学杂志 2011(07)
    • [12].基于Blog的教育叙事与教师专业发展研究[J]. 东方企业文化 2011(08)
    • [13].中学图书馆Blog应用现状及启示[J]. 图书情报工作 2011(S1)
    • [14].Blog在高等职业教育中的应用[J]. 电脑知识与技术 2010(11)
    • [15].基于博客(BLOG)的背越式跳高技术教学探索与实践[J]. 运城学院学报 2010(02)
    • [16].基于BLOG平台的教育叙事研究[J]. 河南科技学院学报(自然科学版) 2010(01)
    • [17].Blog——《文献检索与利用》课教学的辅助工具[J]. 情报探索 2010(05)
    • [18].博客(Blog)在“过程写作法”中的作用探究[J]. 长春理工大学学报(高教版) 2009(08)
    • [19].Blog在网络信息服务中的应用研究[J]. 潍坊学院学报 2009(04)
    • [20].基于博客(Blog)的过程写作法新探[J]. 陕西教育(高教版) 2009(05)
    • [21].博客(Blog)对大学生思想政治教育的影响及其对策[J]. 湖南医科大学学报(社会科学版) 2008(01)
    • [22].博客(Blog)技术在大学英语写作教学中的应用[J]. 西北医学教育 2008(05)
    • [23].博客(Blog)在成人教育中的应用研究[J]. 科技信息(学术研究) 2008(02)
    • [24].存在理论与blog虚拟学习社区的构建[J]. 湖北广播电视大学学报 2008(02)
    • [25].基于Blog的高校图书馆个性化服务[J]. 科技情报开发与经济 2008(17)
    • [26].博客(Blog)在图书馆中的应用探讨[J]. 电脑知识与技术 2008(19)
    • [27].基于Blog平台的高校学习型图书馆建设之思考[J]. 长春师范学院学报(自然科学版) 2008(08)
    • [28].基于BLOG的企业默会知识共享探讨[J]. 现代商贸工业 2008(09)
    • [29].Blog在初中物理教学中的应用[J]. 新课程(上) 2011(11)
    • [30].论Blog在个人知识管理中的应用[J]. 科技创新导报 2011(08)

    标签:;  ;  ;  ;  

    基于ontology的Blog信息抽取技术研究
    下载Doc文档

    猜你喜欢