面向微博文本的命名实体识别

论文摘要

命名实体识别是自然语言处理领域的重点研究方向之一,是信息抽取、信息检索、信息过滤、问答系统、机器翻译等多种自然语言处理技术必不可少的组成部分。近几年,随着微博的兴起与发展,微博文本作为命名实体识别新的载体,逐渐得到越来越多相关研究人员的重视。由于微博文本与传统文本在表达形式上具有很大差别,使得传统的命名实体识别方法在微博文本上面临新的挑战。因此研究面向微博文本的命名实体识别能促进自然语言处理技术在微博等新媒体上的发展,具有重要的理论意义和应用价值。本文主要研究面向微博文本的以人名、地名、机构名为核心的中文命名实体识别相关技术。微博文本由于自身的特点,其内部隐藏着大量可供命名实体识别使用的重要信息。本文首先通过比较微博文本与传统文本的区别,挖掘出微博文本自身的结构与内容上的特点;对有利于命名实体识别的标签、评论转发等特点加以利用,对不利于命名实体识别的语言不规范、简称、代称等特点通过统计的方法加以克服。在此基础上,本文提出了一种基于统计与规则相结合的命名实体识别的方法。该方法在分词的基础上,通过构建好的常用字词表进行常用字词过滤,再利用统计的方法对微博文本的评论转发内容进行统计分析,最后配合使用命名实体边界规则信息进行命名实体的识别。通过实验表明,该方法对于微博文本中的命名实体识别达到了一定的精度,在对2013年5月份的30000条微博文本语料上进行测试,命名实体识别的F值可以达到97.93%。与传统文本相比,微博文本在文本长度、文本质量等方面都有较大差距,而与传统文本中命名实体识别相比,微博文本的命名实体识别无论是在在文本处理深度还是在知识资源支持等方面都还有很大的不足。因此在工作过程中,对微博文本的每一个特征,我们都分析了现有资源和方法对面向微博文本的命名实体识别的支持和制约,探索性的研究了具有一定鲁棒性的命名实体识别的方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步工作提供经验。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 命名实体研究现状

1.3 微博文本的特点及命名实体识别的难点

1.4 本文内容

1.5 本文结构安排

第二章命名实体识别研究方法

2.1 基于规则的方法

2.2 基于统计的方法

2.3 规则与统计混合的方法

2.4 本章小结

第三章微博文本的命名实体识别

3.1 微博文本的特点分析

3.1.1 微博文本的特点

3.1.2 微博文本与传统文本的比较

3.2 面向微博文本的命名实体识别方法

3.2.1 命名实体识别过程

3.2.2 微博文本的预处理

3.2.3 垃圾串处理

3.2.4 候选实体抽取

3.2.5 规则抽取实体

3.2.6 话题标签影响

3.3 本章小结

第四章微博中命名实体的分类

4.1 微博规则知识建立

4.1.1 人名知识

4.1.2 地名知识

4.1.3 机构名知识

4.2 微博实体的分类过程

4.2.1 人名识别过程

4.2.2 人名识别特性

4.2.3 地名识别过程

4.2.4 地名识别特性

4.2.4 机构名识别过程

4.3 本章小结

第五章实验

5.1 实验准备

5.1.1 实验数据

5.2 ICTCLAS2013

5.2.1 ICTCLAS2013微博分词功能

5.2.2 ICTCLAS2013新词发现与自适应分词

5.2.3 ICTCLAS2013关键词识别

5.2.4 ICTCLAS2013命名实体识别

5.3 微博实体抽取实验结果

5.3.1 与ICTCLAS分词系统比较命名实体识别效果

5.3.2 微博的评论转发行为对命名实体识别效果的影响

5.4 微博实体的分类结果

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

致谢

作者在学期间取得的学术成果

参考文献

面向微博文本的命名实体识别

论文摘要

论文目录

相关论文文献

猜你喜欢