基于HMM模型的Web信息抽取方法的研究与改进

基于HMM模型的Web信息抽取方法的研究与改进

论文摘要

随着因特网技术的迅速发展,网上信息成几何级数增长,如何在海量联机文本中获取所需的信息成为目前重要的研究课题,因此,通用搜索引擎和垂直搜索引擎技术也日益成为人们研究的重点。相对于通用搜索引擎,垂直搜索引擎在信息抽取技术的支撑下,为用户提供更有针对性、更加直观的结构化信息。信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。目前,信息抽取技术已经获得了长足的发展,然而在垂直搜索引擎中,基于网页模板的信息抽取仍然是最常使用的信息抽取方法。这种方法虽然有准确率和回召率高的优点,但在抽取网页格式多、变化频率高时,会降低抽取系统的灵活性,增加维护成本。本文研究基于隐马尔可夫模型的Web信息抽取方法,并对隐马尔可夫模型在Web信息抽取中的应用提出了改进的方法。基于隐马尔可夫模型的Web信息抽取方法是基于机器学习的抽取方法,可以有效提高抽取模型的灵活度,降低维护成本。本文阐述了Web信息抽取出现的背景和发展历史,剖析了Web信息抽取的典型系统所采用的方法,分析了信息抽取发展过程中有代表意义的利用机器学习算法学习文本特征的抽取技术和抽取系统。研究了隐马尔科夫模型与二阶隐马尔科夫模型的原理以及主要算法。如评估中的向前算法和向后算法;学习中用于完全标记训练样本的Maximum-Likelihood算法和用于部分标记训练样本的Baum-Welch算法;解码中的Viterbi算法。并着重探讨了隐马尔科夫模型在文本信息抽取中应该如何应用,对隐马尔科夫模型在文本信息抽取中的应用提出了改进的方法。并建立了基于HMM的Web信息抽取模型。通过对信息抽取后的数据进行对比和分析,验证了对HMM模型的改进是行之有效的,达到了在垂直搜索引擎中的应用标准。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 信息抽取技术的研究背景
  • 1.2 信息抽取技术概述
  • 1.2.1 定义
  • 1.2.2 处理对象
  • 1.2.3 信息抽取技术的组成
  • 1.2.4 信息抽取系统
  • 1.2.5 与其它文本处理工具的关系
  • 1.3 信息抽取技术的挑战和发展趋势
  • 1.3.1 信息抽取技术发展面临的挑战
  • 1.3.2 信息抽取技术的发展趋势
  • 1.4 本论文的组织形式
  • 2 典型的信息抽取技术和系统
  • 2.1 典型的信息抽取技术
  • 2.1.1 基于包装器的信息抽取
  • 2.1.2 基于隐马尔可夫模型(HMM)的信息抽取
  • 2.1.3 基于DIPRE 方法的信息抽取
  • 2.1.4 基于视觉分析的信息抽取
  • 2.1.5 基于本体(Ontology)的信息抽取
  • 2.2 典型的信息抽取系统
  • 2.2.1 CRYSTAL 系统
  • 2.2.2 RAPIER 系统
  • 2.2.3 SRV 系统
  • 2.2.4 WHISK 系统
  • 2 系统'>2.2.5 (LP)2系统
  • 2.2.6 HMMs 系统
  • 2.2.7 BIEN 系统
  • 2.3 本章小结
  • 3 隐马尔可夫模型
  • 3.1 隐马尔可夫模型简介
  • 3.2 隐马尔可夫模型的三个主要问题
  • 3.3 隐马尔可夫模型的主要算法
  • 3.3.1 评估问题的解决算法
  • 3.3.2 学习问题的解决算法
  • 3.3.3 解码问题的解决算法
  • 3.4 二阶隐马尔可夫模型
  • 3.4.1 二阶隐马尔可夫模型的学习算法
  • 3.4.2 Baum-Welch 算法
  • 3.4.3 Viterbi 算法
  • 4 HMM 模型在信息抽取中的应用和改进
  • 4.1 引言
  • 4.2 从数据中学习模型结构
  • 4.3 已标记的、未标记的和远距离标记的数据
  • 4.4 HMM 模型在信息抽取中的改进
  • 4.4.1 平滑处理
  • 4.4.2 符号串聚类
  • 4.4.3 状态合并
  • 4.4.4 隐马尔可夫模型中结合规则
  • 5. 基于 HMM 的信息抽取模型的建立及实验结果
  • 5.1 待建信息抽取模型的应用背景
  • 5.2 信息抽取模型的实现
  • 5.2.1 网页数据预处理
  • 5.2.2 HMM 模型的建立
  • 5.2.3 HMM 模型的训练
  • 5.2.4 信息抽取的完成
  • 5.3 实验结果及对比分析
  • 6 总结
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于HMM的缝洞型油藏产量预测算法[J]. 西南大学学报(自然科学版) 2020(02)
    • [2].基于HMM模型的藏语词性标注研究[J]. 信息通信 2020(05)
    • [3].基于HMM的矿井提升机故障诊断方法[J]. 煤炭技术 2017(02)
    • [4].基于HMM的连续语音识别系统的构建与研究[J]. 长春大学学报 2015(02)
    • [5].HMM再次实现季度盈利[J]. 中国航务周刊 2020(48)
    • [6].基于二阶HMM的中医诊断古文词性标注[J]. 计算机工程 2017(07)
    • [7].基于HMM模型的藏语语音合成研究[J]. 计算机应用与软件 2015(05)
    • [8].浅谈HMM在词性标注中的应用[J]. 电脑开发与应用 2011(03)
    • [9].基于HMM中文词性标注研究[J]. 金陵科技学院学报 2017(01)
    • [10].基于HMM的机载设备状态健康评估方法研究[J]. 计算机测量与控制 2015(02)
    • [11].基于HMM的柯尔克孜语词性标注的研究[J]. 计算机工程与应用 2014(15)
    • [12].改进的HMM应用于哈萨克语词性标注[J]. 计算机工程与应用 2010(36)
    • [13].复杂网络攻击的HMM检测模型[J]. 计算机工程 2009(12)
    • [14].基于隐马尔可夫模型(HMM)的系统调用异常检测[J]. 太原科技大学学报 2008(01)
    • [15].HMM模型在检测复杂网络攻击中的应用[J]. 计算机工程与应用 2008(07)
    • [16].基于HMM的维吾尔语词性标注研究[J]. 现代计算机(专业版) 2017(07)
    • [17].HMM词性标注中高频生词的处理[J]. 计算机应用与软件 2014(02)
    • [18].基于HMM的主题垂直搜索引擎技术研究[J]. 自动化技术与应用 2014(10)
    • [19].基于多观察序列的HMM训练算法[J]. 湖北工程学院学报 2013(03)
    • [20].语音分离与HMM相结合的语音增强方法[J]. 计算机工程与应用 2013(16)
    • [21].基于HMM的哈萨克语词性标注研究[J]. 计算机应用与软件 2012(02)
    • [22].应用HMM识别在线协作交互模式[J]. 现代教育技术 2008(07)
    • [23].基于HMM的交通事件检测探讨[J]. 现代商贸工业 2008(13)
    • [24].基于HMM的基因剪接供体位点识别改进研究[J]. 科技创新导报 2008(18)
    • [25].基于节点生长马氏距离K均值和HMM的网络入侵检测方法设计[J]. 计算机测量与控制 2014(10)
    • [26].基于HMM的交叉口交通事件预测研究[J]. 交通运输系统工程与信息 2013(06)
    • [27].基于HMM的手势识别研究[J]. 华中师范大学学报(自然科学版) 2012(05)
    • [28].使用HMM模型改进规则自动生成的命名实体识别系统性能[J]. 中小企业管理与科技(下旬刊) 2010(01)
    • [29].隐马尔可夫模型(HMM)及其应用[J]. 湖南科技学院学报 2009(04)
    • [30].HMM模型在语音识别研究中的应用[J]. 电脑知识与技术 2008(34)

    标签:;  ;  ;  

    基于HMM模型的Web信息抽取方法的研究与改进
    下载Doc文档

    猜你喜欢