面向信息抽取的文本预处理和规则自动学习技术研究

面向信息抽取的文本预处理和规则自动学习技术研究

论文题目: 面向信息抽取的文本预处理和规则自动学习技术研究

论文类型: 硕士论文

论文专业: 计算机应用技术

作者: 叶娜

导师: 朱靖波

关键词: 信息抽取,文本预处理,有限状态自动机,规则自动获取,归纳逻辑编程

文献来源: 东北大学

发表年度: 2005

论文摘要: 随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅层分析,快速准确地从海量信息源中提取出用户感兴趣的信息,从而成为自然语言处理领域的一个热点研究课题。 信息抽取的任务是从文本中抽取字符串形式的信息,并将此信息填入带标记的槽中,来表明其含义。该技术是许多自然语言处理技术的综合运用,涉及的内容包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文对信息抽取中的文本预处理和规则的自动学习技术进行了研究。 在文本预处理方面,本文用有限状态自动机实现了简单实体的识别,可识别的实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自动机的设计充分考虑了各种类别的实体的文本结构特点,在大规模人民日报语料上测试时取得了很好的识别效果。 传统的信息抽取系统由专家手工书写规则,规则库的构造是知识获取的瓶颈问题,规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归纳逻辑编程技术可以自然地描述和学习复杂的关系,非常适合于信息抽取规则中的知识表示和自动生成。本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取方法,解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的扩展性,且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大大降低了对资源的要求。实验结果表明,本方法获取的规则,相较零阶逻辑下的规则,具有更高的准确率和召回率。 根据以上给出的文本预处理技术和规则自动学习算法,我们设计实现了完整的中文信息抽取系统。

论文目录:

第一章 绪论

1.1 信息抽取概述

1.2 信息抽取研究的发展历史

1.3 本文的主要工作

第二章 规则自动获取方法综述

2.1 自由式、结构化和半结构化文本

2.2 单槽抽取和多槽抽取

2.3 自由式文本的信息抽取规则表示及其自动获取方法

第三章 基于有限状态自动机的文本预处理

3.1 文本预处理模块的主要功能

3.2 总控程序的设计

3.3 分析器

3.4 自动机的语义动作

3.4.1 知识库匹配

3.4.2 类别知识库构建

3.5 各类别自动机设计

3.5.1 金钱

3.5.2 时间

3.5.3 网址

3.5.4 电子邮件

3.5.5 电话

3.5.6 纯数字

3.5.7 其他字符

3.6 文本预处理模块总体流程

3.7 小结

第四章 基于归纳逻辑编程的多槽信息抽取规则自动获取方法

4.1 归纳逻辑编程与自然语言处理

4.2 SRV算法简介

4.3 搜索空间

4.4 本算法的规则表示

4.4.1 规则表示方式

4.4.2 特征谓词集构造

4.5 规则学习算法

4.5.1 预处理

4.5.2 模式关系拆分

4.5.3 规则自动生成

4.6 一个例子

4.7 讨论

4.8 小结

第五章 中文信息抽取系统设计

5.1 系统工作流程

5.2 CIPSEGSDK分词模块简介

5.3 对比系统—零阶逻辑下的WHISK系统

5.4 实验结果及讨论

5.4.1 数据集和评价标准

5.4.2 实验结果

5.4.3 实验结果分析

5.5 小结

第六章 总结

6.1 研究工作总结

6.2 未来工作展望

参考文献

致谢

攻读硕士学位期间发表的论文

发布时间: 2005-09-07

参考文献

  • [1].文本信息抽取与分类系统研究与设计[D]. 杨俊丰.湖南大学2010
  • [2].面向微博文本的分类技术应用研究[D]. 王珺瑶.广西大学2015
  • [3].基于元搜索引擎的文本复制检测方法研究[D]. 王鹏举.郑州大学2014
  • [4].基于网络信息文本倾向性分析的领域应用研究[D]. 俞飞.华东师范大学2011
  • [5].基于本体的食品投诉文本危害信息抽取研究[D]. 高蕊.东北师范大学2011
  • [6].高清视频文本的提取与识别[D]. 汪海兴.哈尔滨工程大学2015
  • [7].表情符号对中文微博文本情感倾向的影响研究[D]. 高阳.辽宁师范大学2016
  • [8].基于概念的短文本分类[D]. 蔡志威.华南理工大学2016
  • [9].基于文本多特征值的功率谱分析方法的研究[D]. 宋欢欢.济南大学2014
  • [10].基于遗传与反馈的分布式文本分类研究[D]. 仲梓源.北京邮电大学2014

相关论文

  • [1].基于本体的信息抽取研究[D]. 陈静.苏州大学2007
  • [2].基于语义的Web信息抽取系统的研究与设计[D]. 刘旭彤.暨南大学2006
  • [3].基于Web挖掘的文本预处理研究及应用[D]. 钟配蓉.湖南大学2006
  • [4].中文信息抽取中的若干问题研究[D]. 徐中一.吉林大学2007
  • [5].基于隐马尔可夫模型的文本信息抽取算法研究[D]. 刘云中.湖南大学2004
  • [6].基于ontology的信息抽取系统的研究与实现[D]. 陈兰.电子科技大学2004
  • [7].半结构化文档中语义信息抽取方法的研究[D]. 李毅.清华大学2004
  • [8].面向信息抽取的命名实体识别与模板获取技术研究[D]. 吴雪军.东北大学2005
  • [9].信息抽取算法研究[D]. 吴芬芬.吉林大学2006
  • [10].基于ontology的信息抽取系统的研究与实现[D]. 马腾.电子科技大学2006

标签:;  ;  ;  ;  ;  

面向信息抽取的文本预处理和规则自动学习技术研究
下载Doc文档

猜你喜欢